sklea. feature_extraction. text . CountVectorizer¶

آخرین مطالب

امکانات وب

sklea. feature_extraction. text . CountVectorizer¶

کلاس sklea. feature_extraction. text. countVectorizer ( * ، input = 'محتوا "، رمزگذاری =' utf-8 '، decode_error =' strict '، strip_accents = هیچ ، حروف کوچک = درست ، preprocessor = هیچ ، none ، none ، stop_words = none ، token_patte =' (؟) \ b \ w \ w+\ b '، ngram_range = (1 ، 1) ، آنالایزر =' word '، max_df = 1. 0 ، min_df = 1 ، max_features = هیچ ، واژگان = هیچ ، باینری = کاذب ، dtype=) [منبع]

مجموعه ای از اسناد متنی را به ماتریس شمارش نشانه تبدیل کنید.

این پیاده سازی با استفاده از Scipy. Sparse. csr_matrix نمایشی پراکنده از شمارش ها را تولید می کند.

اگر یک فرهنگ لغت A-Priori ارائه ندهید و از آنالایزر استفاده نمی کنید که نوعی انتخاب ویژگی را انجام دهد ، تعداد ویژگی ها با اندازه واژگان موجود با تجزیه و تحلیل داده ها برابر خواهد بود.

در راهنمای کاربر بیشتر بخوانید.

در صورت نام خانوادگی ، دنباله تصویب شده به عنوان استدلال برای متناسب بودن ، انتظار می رود لیستی از نام های پرونده ای باشد که نیاز به خواندن برای واکشی محتوای خام برای تجزیه و تحلیل دارند.

اگر "پرونده" باشد ، موارد دنباله باید یک روش "خوانده شده" (شیء مانند پرونده) داشته باشند که برای واکشی بایت در حافظه فراخوانی می شود.

اگر "محتوا" باشد ، انتظار می رود ورودی دنباله ای از مواردی باشد که می توانند از نوع رشته یا بایت باشند.

اگر بایت یا پرونده هایی برای تجزیه و تحلیل داده شود ، از این رمزگذاری برای رمزگشایی استفاده می شود.

decode_error ، پیش فرض = "سخت"

دستورالعمل در مورد آنچه باید انجام شود اگر یک توالی بایت انجام شود تا تجزیه و تحلیل کند که شامل کاراکترهایی از رمزگذاری داده شده است. به طور پیش فرض ، "سختگیرانه" است ، به این معنی که یک uniCodedEderror مطرح می شود. مقادیر دیگر "نادیده گرفتن" و "جایگزین" هستند.

Strip_accents یا قابل تماس ، پیش فرض = هیچ

لهجه ها را برداشته و در مرحله پیش پردازش عادی سازی شخصیت دیگر را انجام دهید."ASCII" روشی سریع است که فقط روی شخصیت هایی که نقشه برداری مستقیم ASCII دارند کار می کند."یونیکد" روشی کمی کندتر است که روی هر کاراکتر کار می کند. هیچکدام (پیش فرض) هیچ کاری نمی کند.

هر دو "ASCII" و "یونیکد" از عادی سازی NFKD از unicodedata. normalize استفاده می کنند.

BOOL کوچک ، پیش فرض = درست است

قبل از نشانه گذاری ، تمام کاراکترها را به کوچک تبدیل کنید.

پیش پردازنده قابل تماس ، پیش فرض = هیچ

در حالی که مراحل تولید توکن و N-Grams را حفظ می کنید ، مرحله پیش پردازش (Strip_accents و کوچک) را نادیده بگیرید. فقط در صورت عدم تماس آنالایزر اعمال می شود.

Tokenizer قابل تماس ، پیش فرض = هیچ

در حالی که مراحل تولید پیش پردازش و N-Grams را حفظ می کنید ، مرحله توکن سازی رشته را نادیده بگیرید. فقط در صورت استفاده از آنالایزر == "کلمه" اعمال می شود.

Stop_words ، لیست ، پیش فرض = هیچ

اگر «انگلیسی» باشد، از فهرست کلمات توقف داخلی برای انگلیسی استفاده می شود. چندین مشکل شناخته شده در مورد "انگلیسی" وجود دارد و شما باید یک جایگزین را در نظر بگیرید (به استفاده از کلمات توقف مراجعه کنید).

اگر یک لیست باشد، فرض می شود که آن لیست حاوی کلمات توقف است که همه آنها از نشانه های به دست آمده حذف می شوند. فقط در صورتی اعمال می شود که تحلیلگر == 'word' .

اگر هیچ، از هیچ کلمه توقف استفاده نمی شود. max_df را می توان روی مقداری در محدوده [0. 7، 1. 0) تنظیم کرد تا به طور خودکار کلمات توقف را بر اساس فراوانی عبارات سند درون پیکره شناسایی و فیلتر کند.

token_patte str یا None، پیش فرض=r”(? u)x08ww+x08”

عبارت منظم که نشان دهنده چیزی است که یک "توکن" را تشکیل می دهد، فقط در صورتی استفاده می شود که تحلیلگر == 'کلمه' . Regexp پیش فرض نشانه هایی از 2 یا بیشتر حروف عددی را انتخاب می کند (نقاط نگارشی کاملاً نادیده گرفته می شود و همیشه به عنوان یک جداکننده نشانه در نظر گرفته می شود).

اگر یک گروه ضبط در token_patte وجود داشته باشد، محتوای گروه ضبط شده، نه کل تطابق، به نشانه تبدیل می شود. حداکثر یک گروه گرفتن مجاز است.

تاپل ngram_range (min_n، max_n)، پیش فرض=(1، 1)

مرز پایین و بالایی محدوده n-مقدار برای کلمه های مختلف n-gram یا char n-gram استخراج می شود. همه مقادیر n طوری که min_n

تحلیلگر یا قابل فراخوانی، پیش فرض='word'

این که آیا این ویژگی باید از کلمه n-gram یا کاراکتر n-gram ساخته شود. گزینه «char_wb» کاراکترهای n-gram را فقط از متن در داخل مرزهای کلمه ایجاد می کند. n-گرم در لبه کلمات با فاصله پر شده است.

اگر فراخوانی ارسال شود، برای استخراج دنباله ویژگی ها از ورودی خام و پردازش نشده استفاده می شود.

در نسخه 0. 21 تغییر کرده است.

از نسخه 0. 21، اگر ورودی نام فایل یا فایل باشد، داده ها ابتدا از فایل خوانده می شوند و سپس به تحلیلگر قابل فراخوان داده شده ارسال می شوند.

max_df شناور در محدوده [0. 0, 1. 0] یا int، پیش فرض=1. 0

هنگام ساخت واژگان، اصطلاحاتی را نادیده بگیرید که بسامد سند به شدت بالاتر از آستانه داده شده است (کلمات توقف خاص بدنه). اگر float باشد، پارامتر نسبتی از اسناد، شمارش مطلق اعداد صحیح را نشان می دهد. اگر واژگان None نباشد، این پارامتر نادیده گرفته می شود.

min_df شناور در محدوده [0. 0، 1. 0] یا int، پیش فرض=1

هنگام ساخت واژگان، عباراتی را نادیده بگیرید که بسامد سند به شدت کمتر از آستانه داده شده است. به این مقدار در ادبیات، برش نیز گفته می شود. اگر float باشد، پارامتر نسبتی از اسناد، شمارش مطلق اعداد صحیح را نشان می دهد. اگر واژگان None نباشد، این پارامتر نادیده گرفته می شود.

max_features int، پیش فرض=هیچکدام

در غیر این صورت ، واژگان بسازید که فقط حداکثر jax_features را که توسط فرکانس اصطلاح در سراسر جسد سفارش داده شده است در نظر بگیرید.

اگر واژگان هیچ کدام نباشد ، این پارامتر نادیده گرفته می شود.

نقشه برداری واژگان یا قابل تکرار ، پیش فرض = هیچ

یا نقشه برداری (به عنوان مثال ، یک دیکته) که در آن کلیدها اصطلاحات و مقادیر شاخص هایی در ماتریس ویژگی هستند ، یا یک تکرار بیش از حد. در صورت عدم ارائه ، واژگان از اسناد ورودی تعیین می شود. شاخص های موجود در نقشه برداری نباید تکرار شود و نباید هیچ شکافی بین 0 و بزرگترین شاخص داشته باشد.

بول باینری ، پیش فرض = نادرست

اگر درست باشد ، تمام تعداد غیر صفر روی 1 تنظیم شده است. این برای مدلهای احتمالی گسسته که به جای شمارش عدد صحیح ، از وقایع باینری مدل می کنند ، مفید است.

dtype dtype ، پیش فرض = np. int64

نوع ماتریس برگشتی توسط fit_transform () یا تبدیل ().

ویژگی ها: واژگان_ دیکت

نقشه برداری از اصطلاحات به ویژگی های شاخص.

fixed_vocabulary_ bool

درست است اگر یک واژگان ثابت از مدت زمان نقشه برداری توسط کاربر ارائه شود.

STOP_WORDS_ SET

اصطلاحاتی که نادیده گرفته شدند زیرا آنها هم هستند:

در اسناد بیش از حد (max_df) رخ داده است
در اسناد بسیار کمی (min_df) رخ داده است
با انتخاب ویژگی (max_features) قطع شدند.

این فقط در صورت عدم ارائه واژگان در دسترس است.

مجموعه ای از اسناد متنی را به ماتریس شمارش نشانه تبدیل کنید.

مجموعه ای از اسناد خام را به یک ماتریس از ویژگی های TF-IDF تبدیل کنید.

ویژگی Stop_words_ می تواند بزرگ شود و اندازه مدل را هنگام ترشی افزایش دهد. این ویژگی فقط برای درون نگری ارائه شده است و می توان با استفاده از Delattr با اطمینان از بین برد و یا قبل از ترشی به هیچ وجه تنظیم شد.

برای پردازش داده های ورودی ، قابل تماس را برگردانید.

قبل از نشانه گذاری ، یک تابع را برای پیش پردازش متن برگردانید.

تابعی را که یک رشته را به دنباله ای از نشانه ها تقسیم می کند ، برگردانید.

ورودی را به یک رشته از نمادهای یونیکد رمزگشایی کنید.

یک فرهنگ لغت واژگان از همه نشانه ها را در اسناد خام بیاموزید.

فرهنگ لغت واژگان را بیاموزید و ماتریس اسناد را برگردانید.

برای تحول نام ویژگی های خروجی را دریافت کنید.

پارامترهایی را برای این برآوردگر دریافت کنید.

لیست کلمات توقف مؤثر را بسازید یا واکشی کنید.

شرایط را برای هر سند با ورودی های Nonzero در X برگردانید.

پارامترهای این برآوردگر را تنظیم کنید.

اسناد را به ماتریس مستند تبدیل کنید.

برای پردازش داده های ورودی ، قابل تماس را برگردانید.

قابل تماس با پیش پردازش ، نشانه گذاری و نسل N-Grams.

بازگشت: آنالایزر: قابل تماس

تابعی برای رسیدگی به پیش پردازش ، نشانه گذاری و تولید N-Grams.

قبل از نشانه گذاری ، یک تابع را برای پیش پردازش متن برگردانید.

بازگشت: پیش پردازنده: قابل تماس

تابعی برای پردازش متن قبل از نشانه گذاری.

تابعی را که یک رشته را به دنباله ای از نشانه ها تقسیم می کند ، برگردانید.

بازگشت: Tokenizer: قابل تماس

تابعی برای تقسیم یک رشته به دنباله ای از نشانه ها.

ورودی را به یک رشته از نمادهای یونیکد رمزگشایی کنید.

استراتژی رمزگشایی بستگی به پارامترهای بردار دارد.

پارامترها: Doc Bytes یا STR

رشته برای رمزگشایی.

بازگشت: Doc: Str

رشته ای از نمادهای یونیکد.

یک فرهنگ لغت واژگان از همه نشانه ها را در اسناد خام بیاموزید.

پارامترها: raw_document قابل تکرار است

قابل تکرار که یا اشیاء STR ، UNICODE یا FILE را تولید می کند.

هیچ

این پارامتر نادیده گرفته می شود.

بازگشت: خود شیء

fit_transform (raw_document ، y = هیچ) [منبع]

فرهنگ لغت واژگان را بیاموزید و ماتریس اسناد را برگردانید.

این معادل متناسب با ترانسفورماتور است ، اما با کارآمدتر اجرا می شود.

پارامترها: raw_document قابل تکرار است

قابل تکرار که یا اشیاء STR ، UNICODE یا FILE را تولید می کند.

هیچ

این پارامتر نادیده گرفته می شود.

بازگشت: x آرایه شکل (n_samples ، n_features)

get_feature_names_out (input_features = هیچ) [منبع]

برای تحول نام ویژگی های خروجی را دریافت کنید.

پارامترها: input_features مانند str یا هیچ یک ، پیش فرض = هیچ

مورد استفاده قرار نمی گیرد ، در اینجا برای قوام API توسط کنوانسیون وجود دارد.

بازگشت: feather_names_out ndarray از اشیاء STR

نام های ویژگی تبدیل شده.

پارامترهایی را برای این برآوردگر دریافت کنید.

پارامترها: بول عمیق ، پیش فرض = درست است

در صورت صحت ، پارامترهای این برآوردگر را بازگردانید و حاوی زیرمجموعه هایی است که برآوردگر هستند.

بازگشت: پارامترها دیکته

نام پارامترها به مقادیر آنها نقشه برداری شده است.

لیست کلمات توقف مؤثر را بسازید یا واکشی کنید.

بازگشت: stop_words: لیست یا هیچ کدام

لیستی از کلمات متوقف.

شرایط را برای هر سند با ورودی های Nonzero در X برگردانید.

پارامترها: x از شکل (n_samples ، n_features)

بازگشت: X_INV لیست آرایه های شکل (n_samples ،)

لیست آرایه های اصطلاحات.

پارامترهای این برآوردگر را تنظیم کنید.

این روش روی برآوردگرهای ساده و همچنین روی اشیاء تو در تو کار می کند (مانند خط لوله). دومی پارامترهای فرم __ را دارد تا بتوانید هر مؤلفه یک شیء تو در تو را به روز کنید.

پارامترها: ** پارامترها

بازده: نمونه برآوردگر خود

اسناد را به ماتریس مستند تبدیل کنید.

شمارش توکن از اسناد متنی خام با استفاده از واژگان مجهز به تناسب یا نمونه ای که به سازنده ارائه شده است ، شمارش می کند.

پارامترها: raw_document قابل تکرار است

قابل تکرار که یا اشیاء STR ، UNICODE یا FILE را تولید می کند.

بازگشت: ماتریس پراکنده شکل (n_samples ، n_features)

فارکس وکسب درامد...

ما را در سایت فارکس وکسب درامد دنبال می کنید

برچسب : نویسنده : احمد قانع پور بازدید : 65 تاريخ : يکشنبه 20 فروردين 1402 ساعت: 15:16

sklea. feature_extraction. text . CountVectorizer¶

آخرین مطالب

امکانات وب

sklea. feature_extraction. text . CountVectorizer¶

آرشیو مطالب

پيوندهای روزانه

لینک دوستان

خبرنامه