چرا گاهی اوقات میزان گسترش افزایش می یابد؟

ساخت وبلاگ

یک پارامتر جمعیت یک ویژگی یا اندازه گیری به دست آمده با استفاده از تمام مقادیر داده در یک جمعیت است.

آمار نمونه یک ویژگی یا اندازه گیری به دست آمده با استفاده از مقادیر داده از یک نمونه است.

پارامترها و آماری که ابتدا با آن نگران می شویم سعی می کنیم "مرکز" (یعنی مکان) و "گسترش" (یعنی تغییرپذیری) یک مجموعه داده را تعیین کنیم. توجه داشته باشید ، چندین اقدامات مختلف از مرکز و چندین اقدامات مختلف گسترش وجود دارد که می توان از آن استفاده کرد - باید با توجه به شکل توزیع داده ها ، وجود مقادیر شدید و ماهیت و سطح و سطح آن ، از اقدامات مناسب استفاده کردداده های درگیر

از آنجا که ما اقدامات مختلفی از مرکز و گسترش را در نظر می گیریم ، به یاد می آوریم که واقعاً می خواهیم در مورد مرکز و گسترش جمعیت مورد نظر (یعنی یک پارامتر) بدانیم - اما به طور معمول فقط داده های نمونه را در اختیار ما قرار می دهد.

به همین ترتیب ، ما آمار نمونه را برای برآورد این پارامترهای جمعیت محاسبه می کنیم.

شکل توزیع

ما می توانیم با نگاه کردن به هیستوگرام آن ، شکل یک داده را مشخص کنیم.

اول ، اگر به نظر می رسد مقادیر داده به یک "تپه" تبدیل می شوند ، می گوییم توزیع غیرقانونی است. اگر به نظر می رسد دو "تپه" وجود دارد ، می گوییم توزیع دوتایی است. اگر بیش از دو "تپه" وجود داشته باشد ، ما می گوییم توزیع چند حالته است.

دوم ، ما بر این موضوع تمرکز می کنیم که آیا توزیع متقارن است ، یا اینکه از یک طرف یا طرف دیگر "دم" طولانی تری دارد. در موردی که "دم" طولانی تر وجود دارد ، می گوییم توزیع در جهت دم طولانی تر است. در موردی که دم طولانی تر با مقادیر داده های بزرگتر همراه باشد ، می گوییم توزیع به درستی یا (مثبت و مثبت) است. در موردی که دم طولانی تر با مقادیر کوچکتر (یا منفی تر) همراه باشد ، می گوییم توزیع در سمت چپ یا (منفی منفی) قرار دارد.

اگر توزیع متقارن باشد ، ما اغلب باید بررسی کنیم که آیا تقریباً به شکل زنگ است یا شکل متفاوتی دارد. در مورد توزیع که در آن هر مستطیل تقریباً همان ارتفاع است ، می گوییم توزیع یکنواخت داریم.

گرافیک زیر چند نمونه از شکل توزیع فوق را نشان می دهد.

اقدامات مرکز

  • برای داده های سطح فاصله یا نسبت ، یک اندازه گیری مرکز میانگین است. میانگین جمعیت با $ mu $ مشخص می شود ، در حالی که میانگین نمونه در نظر گرفته شده برای برآورد آن توسط $ Overline $ مشخص شده است. هر دو مقدار به روشی بسیار مشابه محاسبه می شوند. با فرض اینکه جمعیت دارای اندازه N $ $ باشد ، یک نمونه دارای اندازه n $ $ و ده دلار $ $ در تمام مقادیر داده های موجود در جمعیت یا نمونه است ، در صورت لزوم ، ما این وسایل را با محاسبه $ $ mu = frac می یابیم. Quad Textrm quad overline = frac $ $
  • میانه ، مشخص شده توسط $ q_2 $ (یا med) ارزش متوسط یک مجموعه داده هنگام نوشتن به ترتیب است. در مورد تعداد یکنواخت مقادیر داده (و بنابراین هیچ وسط دقیق) ، میانگین دو مقدار داده میانی است. تحت تأثیر حضور مقادیر شدید در مجموعه داده ها نیست. بر خلاف میانگین ، گاهی اوقات می تواند - حتی یک مقدار اصلی برای داده های نظم را پیشنهاد کند.†: می توان داده های ترتیب "را به ترتیب" ذکر کرد و مقدار را در وسط پیدا کرد که تعداد کل مقادیر عجیب و غریب وجود داشته باشد. با این حال ، هنگامی که تعداد مقادیر یکنواخت وجود دارد ، یک عارضه وجود دارد-ما نمی توانیم دو مقدار نظم را به طور متوسط با مقادیر نسبت یا سطح فاصله برای یافتن "ارزش متوسط" به طور متوسط انجام دهیم. به عنوان نمونه ، فرض کنید داده های شخص شامل رده کارت های پوکر است: $ A ، 7،7،10 ، J ، Q ، Q ، K ، K ، K $. دو رده میانه یک جک (j) و یک ملکه (Q) هستند. میانگین آنها چه خواهد بود؟با توجه به دشواری در پاسخ به این سؤال ، برخی از متون نشان می دهد که برای یک لیست یکنواخت از داده های نظم ، باید در عوض به سادگی پایین دو مقدار میانی را انتخاب کنید تا متوسط باشد.
  • این حالت شایع ترین مقدار داده در جمعیت یا نمونه است. بیش از یک حالت می تواند وجود داشته باشد ، اگرچه در مواردی که مقادیر داده های مکرر وجود ندارد ، ما می گوییم هیچ حالت وجود ندارد. حالت ها حتی برای داده های اسمی قابل استفاده هستند.
  • میانی فقط میانگین بالاترین و کمترین مقادیر داده است. در حالی که به راحتی درک می شود ، به شدت تحت تأثیر مقادیر شدید در مجموعه داده ها قرار می گیرد و به طور قابل اعتماد مرکز توزیع را پیدا نمی کند.

اقدامات گسترش

علاوه بر دانستن اینکه مرکز برای توزیع معین کجاست ، ما اغلب می خواهیم بدانیم که توزیع "پخش" چگونه است - این یک اندازه گیری از تنوع مقادیر گرفته شده از این توزیع را به ما می دهد. گرافیک زیر شکل کلی سه توزیع غیر متقارن غیر متقارن با اقدامات یکسان مرکز ، اما مقادیر بسیار متفاوتی از "گسترش" را نشان می دهد.

درست همانطور که چندین مرکز از مرکز وجود داشت ، اقدامات مختلفی برای گسترش وجود دارد - هر یک در شرایط خاص و مضرات در برخی دیگر مزایایی دارند:

  • دامنه از نظر فنی تفاوت بین بالاترین و کمترین مقادیر توزیع است ، اگرچه اغلب با ذکر ساده و حداکثر مقادیر دیده شده گزارش می شود. این به شدت تحت تأثیر مقادیر شدید موجود در توزیع قرار دارد.
  • اندازه گیری دیگر گسترش با میانگین انحراف مطلق است که میانگین فاصله تا میانگین است. به یاد داشته باشید فاصله بین دو مقدار $ x $ و $ $ با ارزش مطلق اختلاف آنها $ | x - y | $ داده شده است ، بنابراین فاصله بین یک مقدار $ $ $ و میانگین جمعیت $ mu $$ | x - mu | $. برای یافتن میانگین این فاصله ، ما از جمعیت جمع می شویم و بر اساس تعداد موارد موجود در جمعیت تقسیم می شویم ، $ n $: $ $ mad = frac $ $ در حالی که ساده برای بیان است ، میانگین انحراف مطلق برخی از مشکلات را برای ما ایجاد می کندپایین خط (به طرز وحشتناکی بر خلاف نحوه معرفی یک مقدار مطلق در یک عملکرد - همانطور که مواردی که محاسبه می دانند - می توانند با توجه به متفاوت بودن مشکل ایجاد کنند). علاوه بر این ، آمار نمونه مربوطه یک برآوردگر مغرضانه از میانگین انحراف مطلق جمعیت است. این بدان معنی است که ارزش متوسط آن با جمعیت دیوانه است.
  • هنگامی که میانگین مناسب ترین اندازه گیری مرکز باشد ، مناسب ترین اندازه گیری گسترش ، انحراف استاندارد است. این اندازه گیری با گرفتن ریشه مربع واریانس - که در اصل فاصله متوسط مربع بین مقادیر جمعیت (یا مقادیر نمونه) و میانگین است. با استفاده از مربع فاصله بین این مقادیر و میانگین مشکلات ناشی از ارزش مطلق در میانگین انحراف مطلق ، اگرچه سهم در گسترش جمعیت حاصل از مقادیر دور از میانگین را اغراق می کند. در کل ، با این حال ، برای اهداف ما ، مزایای استفاده از واریانس و انحراف استاندارد برای اندازه گیری تنوع و گسترش بر روی میانگین انحراف مطلق بسیار بیشتر از مضرات است. با توجه به این همه ، واریانس جمعیت ، $ sigma^2 $ ، و انحراف استاندارد جمعیت ، $ sigma $ ، توسط $ $ sigma^2 = frac Quad textrm داده می شود Quad sigma = sqrt<frac>$$ When dealing with a sample, a slight alteration to the denominators in these formulas must be made in order for $s^2$ to be an unbiased estimate of the corresponding population parameter $sigma^2$ (see Bessel's Correction), as shown below. $$s^2 = frac)^2> Quad textrm quad s = sqrt<frac)^2>>$$
  • هنگامی که میانه مناسب ترین اندازه مرکز باشد ، دامنه بین قشر (یا IQR) مناسب ترین اندازه گیری گسترش است. هنگامی که داده ها مرتب می شوند ، IQR به سادگی دامنه نیمه میانی داده ها است. اگر داده ها دارای کوارتیل $ q_1 ، q_2 ، q_3 ، q_4 $ (با توجه به اینکه $ q_2 $ میانه است و $ q_4 $ حداکثر مقدار است) ، سپس $ $ iqr = q_3 - q_1 $ بر خلاف خود محدوده ، IQRبه راحتی از وجود مقادیر داده های شدید تحت تأثیر قرار نمی گیرد.

تعیین کمبود قابل توجه

توجه داشته باشید ، همانطور که گرافیک زیر نشان می دهد ، وجود پوستی (یا دور) می تواند در جایی که اقدامات مرکز نسبت به یکدیگر قرار دارد ، تأثیر بگذارد.

همانطور که مشاهده می شود ، هنگامی که پوستی قابل توجهی وجود دارد ، میانگین و میانگین در مکان های مختلف به پایان می رسد. اگر میانگین و میانگین به اندازه کافی از هم فاصله داشته باشند ، می توانیم تعیین کنیم که آیا یک لکه مشاهده شده قابل توجه است یا خیر.

برای این منظور ، شاخص Skewness پیرسون ، من ، به عنوان $ $ i = frac تعریف شده است<3(overline- Q_2)>$ $ در مورد اینکه آیا میانگین و میانگین به اندازه کافی از هم جدا هستند (نسبت به گسترش توزیع) ، ما می گوییم اگر $ | i | ge 1 $ ، سپس مجموعه داده ها به طور قابل توجهی کمرنگ می شوند.

شناسایی دور دور

یک دور از مقدار داده به طور قابل توجهی از بدنه اصلی یک مجموعه داده دور است. به یاد بیاورید که در محاسبه ضریب هوشی ، طول نیمه مرکزی مجموعه داده ها ، از $ q_1 $ به $ q_3 $ را اندازه گیری می کنیم. دلیل این امر است که اگر مقدار داده خیلی دور از این بازه فاصله داشته باشد ، باید آن را فراتر بدانیم. البته ، ما انتظار داریم که مقادیر دورتر از مرکز (در اینجا ، $ q_2 $) دورتر باشند (در اینجا ، IQR) بزرگ است و در صورت کوچک بودن گسترش به مرکز نزدیکتر است. با توجه به این نکته ، ما می گوییم هر مقدار خارج از فاصله زیر یک چیز مهم است.$ $ [q_1 - 1. 5 بار IQR ، Q_3 + 1. 5 Times IQR] $ $

ممکن است تعجب کند که 1. 5 دلار در فاصله فوق از کجا ناشی می شود - پل ولمن ، آماری در دانشگاه کرنل ، دانشجوی جان توکی بود که این آزمون را برای Outliers اختراع کرد. او از همین چیز تعجب کرد. وقتی او از توکی پرسید ، "چرا 1. 5؟" ، توکی پاسخ داد ، "زیرا 1 خیلی کوچک است و 2 خیلی بزرگ است."

فارکس وکسب درامد...
ما را در سایت فارکس وکسب درامد دنبال می کنید

برچسب : نویسنده : احمد قانع پور بازدید : 36 تاريخ : پنجشنبه 1 تير 1402 ساعت: :