چولگی و کشیدگی توزیع یک متغیر تصادفی. محاسبه چولگی و کشیدگی یک توزیع تجربی در اکسل ضریب کرتوز یک توزیع نرمال

ضریب عدم تقارن"چولگی" سری توزیع را نسبت به مرکز نشان می دهد:

لحظه مرکزی مرتبه سوم کجاست.

- مکعب انحراف معیار.

برای این روش محاسبه: اگر، توزیع سمت راست باشد (عدم تقارن مثبت)، اگر، توزیع سمت چپ باشد (عدم تقارن منفی)

علاوه بر لحظه مرکزی، عدم تقارن را می توان با استفاده از حالت یا میانه محاسبه کرد:

یا , (6.69)

برای این روش محاسبه: اگر، توزیع سمت راست باشد (عدم تقارن مثبت)، اگر، توزیع سمت چپ باشد (عدم تقارن منفی) (شکل 4).


برنج. 4. توزیع نامتقارن

مقداری که "شیب بودن" توزیع را نشان می دهد نامیده می شود ضریب کشیدگی:

اگر، در توزیع وجود دارد تیز بودن - کشیدگی مثبت است اگر، در توزیع مشاهده شود مسطح بودن - کشیدگی منفی است (شکل 5).

برنج. 5. مازاد بر توزیع

مثال 5.اطلاعاتی در مورد تعداد گوسفندان در مزارع در منطقه وجود دارد (جدول 9).

1. میانگین تعداد گوسفند در هر مزرعه.

3. میانه.

4. شاخص های تنوع

· پراکندگی؛

· انحراف معیار؛

· ضریب تغییرات.

5. شاخص های عدم تقارن و کشیدگی.

راه حل.

1. از آنجایی که مقدار گزینه ها در مجموع چندین بار تکرار می شود، با فرکانس مشخص برای محاسبه مقدار میانگین از فرمول میانگین حسابی موزون استفاده می کنیم:

2. این سری گسسته است، بنابراین حالت گزینه ای با بالاترین فرکانس خواهد بود - .

3. این سری زوج است، در این مورد میانه برای یک سری گسسته با استفاده از فرمول پیدا می شود:

یعنی نیمی از مزارع جمعیت مورد مطالعه تا 4.75 هزار راس گوسفند دارند. و نیمی بالاتر از این عدد هستند.

4. برای محاسبه شاخص های تغییرات، جدول 10 را ترسیم می کنیم که در آن انحرافات، مربع های این انحرافات را محاسبه می کنیم، محاسبه را می توان با استفاده از فرمول های محاسبه ساده و وزن دار انجام داد (در مثال ما از یک فرمول ساده استفاده می کنیم. یک):

جدول 10

2,00 -2,42 5,84
2,50 -1,92 3,67
2,50 -1,92 3,67
3,00 -1,42 2,01
3,00 -1,42 2,01
4,00 -0,42 0,17
5,50 1,08 1,17
5,50 1,08 1,17
5,50 1,08 1,17
6,00 1,58 2,51
6,50 2,08 4,34
7,00 2,58 6,67
جمع 53,00 0,00 34,42
میانگین 4,4167

بیایید واریانس را محاسبه کنیم:

بیایید انحراف معیار را محاسبه کنیم:

بیایید ضریب تغییرات را محاسبه کنیم:

5. برای محاسبه شاخص های عدم تقارن و کشیدگی، جدول 11 را می سازیم که در آن محاسبه می کنیم،

جدول 11

2,00 -2,42 -14,11 34,11
2,50 -1,92 -7,04 13,50
2,50 -1,92 -7,04 13,50
3,00 -1,42 -2,84 4,03
3,00 -1,42 -2,84 4,03
4,00 -0,42 -0,07 0,03
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
6,00 1,58 3,97 6,28
6,50 2,08 9,04 18,84
7,00 2,58 17,24 44,53
جمع 53,00 0,00 0,11 142,98
میانگین 4,4167

چولگی توزیع عبارت است از:

یعنی عدم تقارن سمت چپ مشاهده می شود، زیرا با محاسبه با استفاده از فرمول تأیید می شود:

در این مورد، که برای این فرمول نیز نشان دهنده عدم تقارن سمت چپ است

کشش توزیع برابر است با:

در مورد ما، کشیدگی منفی است، یعنی صافی مشاهده می شود.

مثال 6. داده های مربوط به دستمزد کارگران برای خانوار ارائه شده است (جدول 12)

راه حل.

برای یک سری تغییرات بازه ای، حالت با استفاده از فرمول محاسبه می شود:

جایی که فاصله مودال - فاصله با بالاترین فرکانس، در مورد ما 3600-3800، با فرکانس

حداقل حد فاصله مودال (3600)؛

مقدار فاصله معین (200);

فرکانس فاصله قبل از فاصله معین (25);

فرکانس زیر فاصله مودال (29);

فرکانس فاصله معین (68).

جدول 12

برای یک سری تغییرات بازه ای، میانه با استفاده از فرمول محاسبه می شود:

جایی که فاصله متوسط این بازه ای است که فرکانس تجمعی (انباشته) آن برابر یا بیشتر از نیمی از مجموع فرکانس ها است، در مثال ما 3600-3800 است.

حداقل حد فاصله میانه (3600)؛

مقدار فاصله متوسط ​​(200);

مجموع فرکانس های سری (154);

مجموع فرکانس های انباشته شده، تمام بازه های قبل از میانه (57)؛

- فرکانس بازه میانه (68).

مثال 7.برای سه مزرعه در یک منطقه، اطلاعاتی در مورد شدت سرمایه تولید وجود دارد (میزان هزینه سرمایه ثابت به ازای هر 1 روبل محصول تولید شده): I - 1.29 روبل، II - 1.32 روبل، III - 1.27 روبل. محاسبه میانگین شدت سرمایه ضروری است.

راه حل. از آنجایی که شدت سرمایه نشانگر معکوس گردش سرمایه است، از فرمول میانگین هارمونیک ساده استفاده می کنیم.

مثال 8.برای سه مزرعه در یک منطقه، داده هایی در مورد برداشت ناخالص غلات و متوسط ​​عملکرد وجود دارد (جدول 13).

راه حل. محاسبه میانگین عملکرد با استفاده از میانگین حسابی غیرممکن است، زیرا اطلاعاتی در مورد تعداد مناطق کاشته شده وجود ندارد، بنابراین از فرمول میانگین هارمونیک وزنی استفاده می کنیم:

مثال 9.داده هایی در مورد میانگین عملکرد سیب زمینی در مناطق جداگانه و تعداد تپه ها وجود دارد (جدول 14)

جدول 14

بیایید داده ها را گروه بندی کنیم (جدول 15):

جدول 15

گروه بندی مناطق بر اساس تعداد علف های هرز

1. واریانس کل نمونه را محاسبه کنید (جدول 16).

هنگام تجزیه و تحلیل سری تغییرات، جابجایی از مرکز و شیب توزیع با شاخص های ویژه مشخص می شود. توزیع های تجربی، به عنوان یک قاعده، از مرکز توزیع به سمت راست یا چپ منتقل می شوند و نامتقارن هستند. توزیع نرمال کاملاً متقارن در مورد میانگین حسابی است که به دلیل برابری تابع است.

چولگی توزیع به این دلیل به وجود می آید که برخی از عوامل در یک جهت با شدت بیشتری نسبت به جهت دیگر عمل می کنند و یا روند توسعه پدیده به گونه ای است که علتی بر آن غالب می شود. علاوه بر این، ماهیت برخی از پدیده ها به گونه ای است که توزیع نامتقارن وجود دارد.

ساده ترین معیار عدم تقارن، تفاوت بین میانگین حسابی، حالت و میانه است:

برای تعیین جهت و بزرگی تغییر (عدم تقارن) توزیع، محاسبه می شود. ضریب عدم تقارن ، که یک لحظه عادی شده از مرتبه سوم است:

As= 3 / 3، که در آن  3 نقطه مرکزی مرتبه سوم است.  3 - انحراف معیار مکعب. 3 = (m 3 – 3m 1 m 2 + 2m 1 3) k 3 .

برای عدم تقارن سمت چپ ضریب عدم تقارن (مانند<0), при правосторонней (As>0) .

اگر قسمت بالای توزیع به سمت چپ منتقل شود و قسمت راست شاخه بلندتر از سمت چپ باشد، این عدم تقارن است. سمت راست، در غیر این صورت چپ دست .

رابطه بین حالت، میانه و میانگین حسابی در سری های متقارن و نامتقارن به ما این امکان را می دهد که از یک شاخص ساده تر به عنوان معیار عدم تقارن استفاده کنیم. ضریب عدم تقارن پیرسون :

K a = ( –Mo)/. اگر K a > 0 باشد، عدم تقارن سمت راست است، اگر K a<0, то асимметрия левосторонняя, при К a =0 ряд считается симметричным.

عدم تقارن را می توان با استفاده از ممان مرکزی مرتبه سوم با دقت بیشتری تعیین کرد:

، که در آن 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

اگر > 0، سپس عدم تقارن را می توان معنی دار در نظر گرفت اگر < 0,25 асимметрию можно считать не значительной.

برای مشخص کردن درجه انحراف یک توزیع متقارن از یک توزیع نرمال در امتداد اردین، یک نشانگر اوج، شیب توزیع، به نام اضافی :

Ex = ( 4 / 4) - 3، که در آن:  4 - ممان مرکزی مرتبه چهارم.

برای توزیع نرمال، Ex = 0، یعنی.  4 / 4 = 3.  4 = (m 4 - 4m 3 m 1 + 6m 2 m 2 1 - 3 m 4 1)* k 4 .

منحنی های اوج بالا دارای کشیدگی مثبت هستند، در حالی که منحنی های اوج پایین دارای کشیدگی منفی هستند (شکل D.2).

برای تعیین ناهمگنی جمعیت، عدم تقارن توزیع و نزدیکی توزیع تجربی به قانون نرمال، شاخص‌های کشیدگی و چولگی در تحلیل آماری ضروری هستند. با انحراف قابل توجه شاخص های عدم تقارن و کشیدگی از صفر، نمی توان جمعیت را همگن و توزیع را نزدیک به نرمال در نظر گرفت. مقایسه منحنی‌های واقعی با منحنی‌های نظری به فرد امکان می‌دهد تا نتایج آماری به‌دست‌آمده را از نظر ریاضی اثبات کند، نوع و ماهیت توزیع پدیده‌های اجتماعی-اقتصادی را تعیین کند و احتمال وقوع رویدادهای مورد مطالعه را پیش‌بینی کند.

4.7. توجیه نزدیکی توزیع تجربی (واقعی) به توزیع نرمال نظری. توزیع نرمال (قانون گاوس-لاپلاس) و ویژگی های آن. "قانون سه سیگما." معیارهای تناسب (با استفاده از مثالی از معیار پیرسون یا کولگوموگروف).

شما می توانید ارتباط خاصی را در تغییر فرکانس ها و مقادیر مشخصه های مختلف مشاهده کنید. با افزایش مقدار مشخصه، فرکانس ها ابتدا افزایش می یابند و پس از رسیدن به حداکثر مقدار معین، کاهش می یابند. چنین تغییرات منظم در فرکانس ها در سری تغییرات نامیده می شود الگوهای توزیع.

برای شناسایی یک الگوی توزیع، لازم است که سری تغییرات دارای تعداد کافی از واحدها باشد و این سری ها خود نشان دهنده جمعیت های کیفی همگن باشند.

یک چند ضلعی توزیع که بر اساس داده های واقعی ساخته شده است منحنی توزیع تجربی (واقعی).، منعکس کننده نه تنها شرایط توزیع عینی (کلی)، بلکه ذهنی (تصادفی) است که مشخصه پدیده مورد مطالعه نیست.

در کار عملی، قانون توزیع با مقایسه توزیع تجربی با یکی از توزیع های نظری و ارزیابی درجه تفاوت یا مطابقت بین آنها پیدا می شود. منحنی توزیع نظریدر شکل خالص خود، بدون در نظر گرفتن تأثیر عوامل تصادفی، الگوی کلی توزیع فرکانس (تراکم توزیع) را بسته به مقادیر ویژگی های مختلف منعکس می کند.

انواع مختلفی از توزیع های نظری در آمار رایج است: نرمال، دو جمله ای، پواسون و غیره.

قانون توزیع عادی مشخصه توزیع رویدادهای به همان اندازه احتمالی که در طول تعامل بسیاری از عوامل تصادفی رخ می دهند. قانون توزیع نرمال زیربنای روش های آماری برای تخمین پارامترهای توزیع، بازنمایی مشاهدات نمونه و اندازه گیری رابطه پدیده های انبوه است. برای بررسی اینکه چقدر توزیع واقعی با توزیع عادی مطابقت دارد، لازم است فرکانس های توزیع واقعی را با فرکانس های نظری مشخصه قانون توزیع نرمال مقایسه کنیم. این فرکانس ها تابعی از انحرافات نرمال شده هستند. بنابراین، بر اساس داده های سری توزیع تجربی، انحرافات نرمال شده t محاسبه می شود. سپس فرکانس های نظری مربوطه تعیین می شود. این توزیع تجربی را مسطح می کند.

توزیع نرمالیا قانون گاوس لاپلاس با معادله توصیف می شود
، جایی که y t منحنی توزیع نرمال یا فرکانس (احتمال) مقدار x توزیع نرمال است. - انتظارات ریاضی (مقدار متوسط) مقادیر x فردی. اگر مقادیر (x - ) اندازه گیری (بیان) بر حسب انحراف معیار ، یعنی. در انحرافات استاندارد شده (نرمال شده) t = (x - )/، سپس فرمول به شکل زیر خواهد بود:
. توزیع نرمال پدیده های اجتماعی-اقتصادی در شکل خالص آن نادر است، با این حال، اگر همگنی جمعیت حفظ شود، توزیع های واقعی اغلب نزدیک به نرمال است. الگوی توزیع کمیت های مورد مطالعه با بررسی انطباق توزیع تجربی با قانون توزیع نرمال نظری آشکار می شود. برای انجام این کار، توزیع واقعی با منحنی نرمال تراز شده و محاسبه می شود معیارهای رضایت .

توزیع نرمال با دو پارامتر مهم مشخص می شود که مرکز گروه بندی مقادیر فردی و شکل منحنی را تعیین می کند: میانگین حسابی. و انحراف معیار . منحنی های توزیع نرمال در موقعیت مرکز توزیع در محور x متفاوت است و گزینه scatter در اطراف این مرکز  (شکل 4.1 و 4.2). یکی از ویژگی های منحنی توزیع نرمال، تقارن آن نسبت به مرکز توزیع است - در دو طرف وسط آن، دو شاخه به طور یکنواخت کاهش می یابد که به طور مجانبی به محور آبسیسا نزدیک می شوند. بنابراین، در یک توزیع نرمال، میانگین، حالت و میانه یکسان است: = مو = من.

  ایکس

منحنی توزیع نرمال دارای دو نقطه عطف (انتقال از تحدب به تقعر) در t = 1 است، یعنی. وقتی گزینه ها از میانگین انحراف دارند (x- ) برابر با انحراف معیار  است. در داخل  با توزیع نرمال 68.3 درصد است 2 - 95.4٪، در داخل 3 – 99.7 درصد از تعداد مشاهدات یا فرکانس های سری توزیع. در عمل، تقریبا هیچ انحرافی بیش از 3 وجود ندارد، بنابراین، رابطه داده شده نامیده می شود. قانون سه سیگما ».

برای محاسبه فرکانس های نظری از فرمول استفاده می شود:

.

اندازه
تابعی از t یا چگالی توزیع نرمال است که از جدول خاصی تعیین می شود که گزیده هایی از آن در جدول آورده شده است. 4.2.

مقادیر چگالی توزیع نرمال جدول 4.2

نمودار در شکل 4.3 به وضوح نزدیکی توزیع های تجربی (2) و عادی (1) را نشان می دهد.

برنج. 4.3. توزیع شعب خدمات پستی به تعداد

کارگران: 1 - عادی. 2- تجربی

برای اثبات ریاضی نزدیکی توزیع تجربی به قانون توزیع نرمال، محاسبه کنید معیارهای رضایت .

معیار کولموگروف -یک معیار تناسب است که به فرد امکان می دهد درجه نزدیکی توزیع تجربی به نرمال را ارزیابی کند. A. N. Kolmogorov پیشنهاد کرد که از حداکثر اختلاف بین فرکانس ها یا فرکانس های انباشته شده این سری ها برای تعیین مطابقت بین توزیع های نرمال تجربی و نظری استفاده شود. برای آزمون این فرضیه که توزیع تجربی با قانون توزیع نرمال مطابقت دارد، معیار خوب بودن برازش =D/ محاسبه می شود.
، جایی که D حداکثر اختلاف بین فرکانس های تجربی و نظری تجمعی (انباشته شده) است، n تعداد واحدهای جامعه است. با استفاده از یک جدول خاص، P() تعیین می شود - احتمال دستیابی به ، به این معنی که اگر یک مشخصه متغیر طبق یک قانون عادی توزیع می شود، سپس به دلایل تصادفی، حداکثر اختلاف بین فرکانس های انباشته تجربی و نظری کمتر از مشاهده واقعی نخواهد بود. بر اساس مقدار P()، نتایج خاصی گرفته می‌شود: اگر احتمال P() به اندازه کافی بزرگ باشد، می‌توان این فرضیه را تایید کرد که توزیع واقعی با قانون نرمال مطابقت دارد. اگر احتمال P() کوچک باشد، فرضیه صفر رد می شود و اختلاف بین توزیع های واقعی و نظری معنی دار در نظر گرفته می شود.

مقادیر احتمال برای معیار مناسب بودن  جدول 4.3

معیارهای پیرسون 2 ("chi-square") - معیار خوبی که به فرد امکان می دهد درجه نزدیکی توزیع تجربی به نرمال را ارزیابی کند:
در جایی که f i, f" i فرکانس های توزیع های تجربی و نظری در یک بازه زمانی معین هستند. هرچه اختلاف بین فرکانس های مشاهده شده و نظری بیشتر باشد، معیار بیشتر است  2. برای تشخیص اهمیت تفاوت ها در فرکانس های توزیع های تجربی و نظری با توجه به معیار  2 از تفاوت های ناشی از نمونه های تصادفی، مقدار محاسبه شده معیار  2 calc با جدول  2 جدول بندی شده با تعداد مناسب درجات آزادی و سطح معنی داری معین مقایسه می شود. سطح طوری انتخاب می شود که P( 2 calc > 2 tab) = . تعداد درجات آزادی برابر است با ساعتل، جایی که ساعت- تعداد گروه ها؛ ل- تعداد شرایطی که هنگام محاسبه فرکانس های نظری باید رعایت شود. برای محاسبه فرکانس های نظری منحنی توزیع نرمال با استفاده از فرمول
شما باید سه پارامتر را بدانید ، ، f، بنابراین تعداد درجات آزادی h–3 است. اگر  2 calc > 2 زبانه، یعنی.  2 در ناحیه بحرانی قرار می گیرد، سپس اختلاف بین فرکانس های تجربی و نظری قابل توجه است و نمی توان با نوسانات تصادفی در داده های نمونه توضیح داد. در این صورت فرض صفر رد می شود. اگر  2 محاسبه  2 جدول، یعنی. معیار محاسبه شده از حداکثر واگرایی ممکن فرکانس هایی که می تواند به دلیل شانس ایجاد شود تجاوز نمی کند، در این صورت فرضیه مربوط به مطابقت توزیع ها پذیرفته می شود. معیار پیرسون با تعداد قابل توجهی از مشاهدات (n50) موثر است و فرکانس تمام بازه‌ها باید حداقل پنج واحد باشد (با تعداد کمتر، فواصل ترکیب می‌شوند) و تعداد بازه‌ها (گروه‌ها) باید بزرگ باشد (h>5)، زیرا تخمین  2 به تعداد درجات آزادی بستگی دارد.

معیار رومانوفسکی -یک معیار تناسب است که به فرد امکان می دهد درجه نزدیکی توزیع تجربی به نرمال را ارزیابی کند. V.I. رومانوفسکی برای ارزیابی نزدیکی توزیع تجربی به منحنی توزیع نرمال در رابطه با:

، که در آن h تعداد گروه ها است.

اگر نسبت بزرگتر از 3 باشد، اختلاف بین فرکانس های توزیع تجربی و نرمال را نمی توان تصادفی در نظر گرفت و فرضیه قانون توزیع نرمال را باید رد کرد. اگر نسبت کمتر یا مساوی 3 باشد، می‌توانیم این فرضیه را بپذیریم که توزیع داده‌ها نرمال است.

برای به دست آوردن یک ایده تقریبی از شکل توزیع یک متغیر تصادفی، نموداری از سری توزیع آن (چند ضلعی و هیستوگرام)، تابع یا چگالی توزیع رسم می شود. در عمل تحقیقات آماری با توزیع های بسیار متفاوتی مواجه می شویم. جمعیت های همگن معمولاً با توزیع های تک رأسی مشخص می شوند. Multivertex نشان دهنده ناهمگونی جمعیت مورد مطالعه است. در این حالت لازم است داده ها را مجددا دسته بندی کرد تا گروه های همگن بیشتری شناسایی شوند.

تعیین ماهیت کلی توزیع یک متغیر تصادفی شامل ارزیابی درجه همگنی آن و همچنین محاسبه شاخص های عدم تقارن و کشیدگی است. در یک توزیع متقارن، که در آن انتظار ریاضی برابر با میانه است، یعنی. ، می توان در نظر گرفت که عدم تقارن وجود ندارد. اما هرچه این عدم تقارن محسوس تر باشد، انحراف بین ویژگی های مرکز توزیع - انتظار ریاضی و میانه بیشتر است.

ساده ترین ضریب عدم تقارن توزیع یک متغیر تصادفی را می توان در نظر گرفت که در آن انتظار ریاضی، میانه و انحراف استاندارد متغیر تصادفی است.

در مورد عدم تقارن سمت راست، عدم تقارن سمت چپ. اگر، عدم تقارن کم، اگر - متوسط ​​و در - زیاد در نظر گرفته می شود. یک تصویر هندسی از عدم تقارن سمت راست و چپ در شکل زیر نشان داده شده است. نمودارهایی از چگالی توزیع انواع متناظر متغیرهای تصادفی پیوسته را نشان می دهد.

طراحی. تصویر عدم تقارن سمت راست و چپ در نمودارهای چگالی توزیع متغیرهای تصادفی پیوسته.

ضریب دیگری از عدم تقارن توزیع یک متغیر تصادفی وجود دارد. می توان ثابت کرد که یک گشتاور مرکزی غیر صفر از یک مرتبه فرد نشان دهنده عدم تقارن در توزیع متغیر تصادفی است. در اندیکاتور قبلی از عبارتی مشابه لحظه مرتبه اول استفاده کردیم. اما معمولاً در این ضریب عدم تقارن دیگر از ممان مرکزی مرتبه سوم استفاده می شود و برای اینکه این ضریب بی بعد شود، بر مکعب انحراف معیار تقسیم می شود. ضریب عدم تقارن حاصل به صورت زیر است: . برای این ضریب عدم تقارن، مانند ضریب اول در مورد عدم تقارن سمت راست، سمت چپ - .

کورتوز یک متغیر تصادفی

کشش توزیع یک متغیر تصادفی درجه غلظت مقادیر آن را در نزدیکی مرکز توزیع مشخص می کند: هر چه غلظت بیشتر باشد، نمودار چگالی توزیع آن بیشتر و باریکتر خواهد بود. شاخص کشش (تیز بودن) با استفاده از فرمول محاسبه می شود: , Where لحظه مرکزی مرتبه 4 است و انحراف معیار به توان 4 افزایش یافته است. از آنجایی که قدرت های صورت و مخرج یکسان است، کشیدگی یک کمیت بدون بعد است. در این مورد، به عنوان استاندارد عدم وجود کشیدگی، کشش صفر، پذیرفته شده است که توزیع نرمال را بگیرد. اما می توان ثابت کرد که برای توزیع نرمال . بنابراین در فرمول محاسبه کشش، عدد 3 از این کسر کم می شود.

بنابراین، برای یک توزیع نرمال، کشش صفر است: . اگر کشیدگی بزرگتر از صفر باشد، یعنی. ، سپس توزیع بیش از حد معمول است. اگر کشیدگی کمتر از صفر باشد، یعنی. ، سپس توزیع کمتر از حد معمول است. مقدار محدود کننده کشش منفی مقدار ; بزرگی کشیدگی مثبت می تواند بی نهایت زیاد باشد. نمودارهای چگالی توزیع اوج و تخت متغیرهای تصادفی در مقایسه با توزیع نرمال در شکل نشان داده شده است.

طراحی. تصویر توزیع چگالی اوج و تخت متغیرهای تصادفی در مقایسه با توزیع نرمال.

عدم تقارن و کشش توزیع یک متغیر تصادفی نشان می دهد که چقدر از قانون نرمال انحراف دارد. برای عدم تقارن های بزرگ و کشیدگی، فرمول های محاسبه برای توزیع نرمال نباید استفاده شود. میزان پذیرش عدم تقارن و کشیدگی برای استفاده از فرمول های توزیع نرمال در تجزیه و تحلیل داده ها برای یک متغیر تصادفی خاص باید توسط محقق بر اساس دانش و تجربه وی تعیین شود.

تعریف. روش M 0 یک متغیر تصادفی گسسته محتمل ترین مقدار آن نامیده می شود. برای یک متغیر تصادفی پیوسته، مد مقدار متغیر تصادفی است که در آن چگالی توزیع دارای حداکثر است.

اگر چندضلعی توزیع برای یک متغیر تصادفی گسسته یا منحنی توزیع برای یک متغیر تصادفی پیوسته دو یا چند ماکزیمم داشته باشد، چنین توزیعی نامیده می شود. دوحالتهیا چند وجهی.

اگر توزیعی دارای حداقل باشد اما حداکثر نداشته باشد، آنگاه فراخوانی می شود ضد وجهی.

تعریف. میانه M D یک متغیر تصادفی X مقدار آن نسبت به آن است که به همان اندازه احتمال دارد که مقدار بزرگتر یا کوچکتر از متغیر تصادفی بدست آید.

از نظر هندسی، میانه آبسیسا نقطه ای است که در آن ناحیه محدود شده توسط منحنی توزیع به نصف تقسیم می شود.

توجه داشته باشید که اگر توزیع یک وجهی باشد، پس مد و میانه با انتظارات ریاضی مطابقت دارند.

تعریف. لحظه شروعسفارش ک متغیر تصادفی X انتظار ریاضی از مقدار X است ک .

برای یک متغیر تصادفی گسسته: .

.

لحظه اولیه مرتبه اول برابر با انتظار ریاضی است.

تعریف. لحظه مرکزیسفارش کمتغیر تصادفی X انتظار ریاضی از مقدار است

برای یک متغیر تصادفی گسسته: .

برای یک متغیر تصادفی پیوسته: .

ممان مرکزی مرتبه اول همیشه صفر است و ممان مرکزی مرتبه دوم برابر با پراکندگی است. ممان مرکزی مرتبه سوم عدم تقارن توزیع را مشخص می کند.

تعریف. نسبت ممان مرکزی مرتبه سوم به انحراف معیار به توان سوم نامیده می شود ضریب عدم تقارن.

تعریف. برای مشخص کردن اوج و مسطح بودن توزیع، کمیتی نامیده می شود اضافی.

علاوه بر کمیت های در نظر گرفته شده، به اصطلاح ممان مطلق نیز استفاده می شود:

لحظه شروع مطلق: .

نقطه مرکزی مطلق: .

Quantile ، مربوط به سطح معینی از احتمال است آر، مقداری است که تابع توزیع مقداری برابر با آن می گیرد آر، یعنی جایی که آر- سطح احتمال مشخص شده

به عبارت دیگر چندک مقدار یک متغیر تصادفی وجود دارد که در آن

احتمال آرکه به صورت درصد مشخص می شود، نام کمیت مربوطه را می دهد، مثلاً به آن کمیک 40% می گویند.

20. انتظار ریاضی و پراکندگی تعداد وقوع یک رویداد در آزمایش های مستقل.

تعریف. انتظارات ریاضییک متغیر تصادفی پیوسته X که مقادیر ممکن آن متعلق به بخش است، انتگرال معین نامیده می شود.

اگر مقادیر ممکن یک متغیر تصادفی در کل محور عددی در نظر گرفته شود، انتظار ریاضی با فرمول بدست می‌آید:

البته در این مورد فرض بر این است که انتگرال نامناسب همگرا می شود.

انتظارات ریاضییک متغیر تصادفی گسسته مجموع حاصل از مقادیر ممکن و احتمالات مربوط به آنها است:

م(ایکس) =ایکس 1 آر 1 +ایکس 2 آر 2 + … +ایکس پ آر پ . (7.1)

اگر تعداد مقادیر ممکن یک متغیر تصادفی بی نهایت باشد، پس
، اگر سری حاصل کاملاً همگرا شود.

یادداشت 1.گاهی اوقات انتظار ریاضی نامیده می شود میانگین وزنی، زیرا تقریباً برابر است با میانگین حسابی مقادیر مشاهده شده متغیر تصادفی در تعداد زیادی آزمایش.

تبصره 2.از تعریف انتظار ریاضی چنین برمی‌آید که مقدار آن از کوچک‌ترین مقدار ممکن یک متغیر تصادفی کمتر و از بزرگترین آن بیشتر نیست.

نکته 3.انتظار ریاضی از یک متغیر تصادفی گسسته است غیر تصادفی(ثابت. بعداً خواهیم دید که همین امر برای متغیرهای تصادفی پیوسته نیز صادق است.

ویژگی های انتظار ریاضی.

    انتظار ریاضی از یک ثابت برابر است با خود ثابت:

م(با) =با.(7.2)

اثبات اگر در نظر بگیریم بابه عنوان یک متغیر تصادفی گسسته که فقط یک مقدار را می گیرد بابا احتمال آر= 1، پس م(با) =با· 1 = با.

    عامل ثابت را می توان از علامت انتظار ریاضی خارج کرد:

م(CX) =سانتی متر(ایکس). (7.3)

اثبات اگر متغیر تصادفی ایکسارائه شده توسط سری توزیع

ایکس من

ایکس n

پ من

پ n

سپس سری توزیع برای CXدارای فرم:

باایکس من

باایکس 1

باایکس 2

باایکس n

پ من

پ n

سپس م(CX) =Cx 1 آر 1 +Cx 2 آر 2 + … +Cx پ آر پ =با(ایکس 1 آر 1 +ایکس 2 آر 2 + … +ایکس پ آر پ) =سانتی متر(ایکس).

انتظارات ریاضیمتغیر تصادفی پیوسته نامیده می شود

(7.13)

یادداشت 1.تعریف کلی واریانس برای یک متغیر تصادفی پیوسته مانند یک متغیر گسسته یکسان است (تعریف 7.5)، و فرمول محاسبه آن به شکل زیر است:

(7.14)

انحراف معیار با استفاده از فرمول (7.12) محاسبه می شود.

تبصره 2.اگر تمام مقادیر ممکن یک متغیر تصادفی پیوسته خارج از بازه [ آ, ب]، سپس انتگرال های فرمول (7.13) و (7.14) در این حدود محاسبه می شوند.

قضیه. واریانس تعداد وقوع یک رویداد در آزمایشات مستقل برابر است با حاصل ضرب تعداد آزمایش و احتمال وقوع و عدم وقوع یک رویداد در یک آزمایش: .

اثبات اجازه دهید تعداد وقوع رویداد در آزمایشات مستقل باشد. برابر است با مجموع وقوع رویداد در هر آزمایش: . از آنجایی که آزمون ها مستقل هستند، متغیرهای تصادفی هستند - بنابراین مستقل هستند.

همانطور که در بالا نشان داده شده است، و.

سپس آه .

در این مورد، همانطور که قبلا ذکر شد، انحراف معیار برابر است با .

هنگام تجزیه و تحلیل توزیع جمعیت، ارزیابی انحراف یک توزیع معین از متقارن، یا به عبارت دیگر، چولگی آن از اهمیت قابل توجهی برخوردار است. درجه چولگی (عدم تقارن) یکی از مهمترین ویژگی های توزیع جمعیت است. تعدادی آمار برای محاسبه عدم تقارن طراحی شده است. همه آنها حداقل دو شرط را برای هر نشانگر چولگی برآورده می کنند: اگر توزیع متقارن باشد باید بدون بعد و برابر با صفر باشد.

در شکل 2 a, b منحنی های دو توزیع نامتقارن جمعیت را نشان می دهد که یکی از آنها به سمت چپ و دیگری به سمت راست متمایل است. موقعیت نسبی حالت، میانه و میانگین به صورت کیفی نشان داده شده است. مشاهده می شود که یکی از شاخص های چولگی ممکن را می توان با در نظر گرفتن فاصله ای که میانگین و حالت از یکدیگر قرار دارند، ساخت. اما با در نظر گرفتن پیچیدگی تعیین حالت از روی داده های تجربی و از طرف دیگر رابطه معروف (3) بین مد، میانه و میانگین، فرمول زیر برای محاسبه شاخص عدم تقارن پیشنهاد شد:

از این فرمول به دست می آید که توزیع های انحرافی به چپ دارای چولگی مثبت و توزیع های انحرافی به راست دارای چولگی منفی هستند. به طور طبیعی، برای توزیع های متقارن، که میانگین و میانه بر هم منطبق هستند، عدم تقارن صفر است.

اجازه دهید شاخص های عدم تقارن را برای داده های ارائه شده در جدول محاسبه کنیم. 1 و 2. برای توزیع مدت چرخه قلبی داریم:

بنابراین، این توزیع کمی به سمت چپ منحرف است. مقدار به دست آمده برای عدم تقارن تقریبی است و دقیق نیست، زیرا مقادیر و محاسبه شده به روش ساده برای محاسبه آن استفاده شده است.

برای توزیع گروه‌های سولفیدریل در سرم خون:

بنابراین، این توزیع دارای یک چولگی منفی است، یعنی. به سمت راست کج شده است.

از نظر تئوری نشان داده شده است که مقدار تعیین شده توسط فرمول 13 در 3 قرار دارد. اما در عمل، این مقدار به ندرت به مقادیر محدود خود می رسد و برای توزیع های تک رأسی نسبتاً نامتقارن قدر مطلق آن معمولاً کمتر از یک است.

شاخص عدم تقارن را می توان نه تنها برای توصیف رسمی توزیع جمعیت، بلکه برای تفسیر معنی دار داده های به دست آمده استفاده کرد.

در واقع، اگر مشخصه ای که مشاهده می کنیم تحت تأثیر تعداد زیادی علت مستقل از یکدیگر شکل گرفته باشد که هر یک سهم نسبتاً کمی در ارزش این ویژگی دارند، مطابق با برخی از مقدمات نظری مورد بحث در در بخش نظریه احتمال، ما حق داریم انتظار داشته باشیم که توزیع جمعیت به دست آمده در نتیجه آزمایش متقارن باشد. با این حال، اگر مقدار عدم تقارن قابل توجهی برای داده های تجربی به دست آید (مقدار عددی مدول As در چند دهم است)، آنگاه می توان فرض کرد که شرایط ذکر شده در بالا برآورده نمی شود.

در این مورد، منطقی است که وجود یک یا دو عامل را فرض کنیم که سهم آنها در شکل گیری مقدار مشاهده شده در آزمایش به طور قابل توجهی بیشتر از سایرین است، یا وجود مکانیسم خاصی را فرض کنیم که متفاوت از مکانیسم تأثیر مستقل بسیاری از علل بر ارزش مشخصه مشاهده شده است.

بنابراین، به عنوان مثال، اگر تغییرات در یک کمیت مورد علاقه ما، مربوط به عمل یک عامل خاص، متناسب با خود این مقدار و شدت عمل علت باشد، توزیع حاصل همیشه منحرف خواهد شد. چپ، یعنی چولگی مثبت دارند به عنوان مثال، زیست شناسان هنگام تخمین مقادیر مرتبط با رشد گیاهان و حیوانات با چنین مکانیزمی مواجه می شوند.

روش دیگر برای ارزیابی چولگی بر اساس روش گشتاورها است که در فصل 44 مورد بحث قرار خواهد گرفت. مطابق با این روش، چولگی با استفاده از مجموع انحرافات تمام مقادیر یک سری داده نسبت به میانگین محاسبه می شود. ، به قدرت سوم، یعنی:

توان سوم تضمین می کند که عدد این عبارت برای توزیع های متقارن برابر با صفر است، زیرا در این حالت مجموع انحرافات بالا و پایین از میانگین به توان سوم برابر و دارای علائم مخالف خواهد بود. تقسیم بر بی‌بعدی را برای اندازه‌گیری عدم تقارن فراهم می‌کند.

فرمول (14) را می توان به صورت زیر تبدیل کرد. در پاراگراف قبلی، مقادیر استاندارد شده معرفی شدند:

بنابراین، اندازه گیری چولگی میانگین داده های استاندارد شده مکعبی است.

برای همان داده هایی که عدم تقارن با استفاده از فرمول (13) محاسبه شده است، شاخص را با استفاده از فرمول (15) پیدا می کنیم. ما داریم:

به طور طبیعی، شاخص های عدم تقارن محاسبه شده با استفاده از فرمول های مختلف از نظر بزرگی با یکدیگر متفاوت هستند، اما به همان اندازه ماهیت چولگی را نشان می دهند. در بسته های کاربردی برای تجزیه و تحلیل آماری، هنگام محاسبه عدم تقارن، از فرمول (15) استفاده می شود زیرا مقادیر دقیق تری را ارائه می دهد. برای محاسبات اولیه با استفاده از ماشین حساب های ساده می توانید از فرمول (13) استفاده کنید.

اضافی.بنابراین، سه گروه از چهار گروه شاخص را که به کمک آنها توزیع جمعیت توصیف می شود، بررسی کرده ایم. آخرین آنها گروهی از شاخص های اوج یا کوتاهی (از یونانی - قوزدار) است. برای محاسبه یکی از شاخص های احتمالی کشش، از فرمول زیر استفاده می شود:

با استفاده از همان رویکردی که هنگام تبدیل فرمول عدم تقارن (14) اعمال شد، به راحتی می توان نشان داد که:

از نظر تئوری، نشان داده شد که مقدار کشیدگی برای یک منحنی توزیع نرمال (گاوسی)، که نقش زیادی در آمار و همچنین در نظریه احتمال دارد، از نظر عددی برابر با 3 است. بر اساس تعدادی از ملاحظات، وضوح این منحنی به عنوان یک استاندارد در نظر گرفته می شود و بنابراین به عنوان یک شاخص کشیدگی از مقدار استفاده می شود:

بیایید مقدار پیک را برای داده های داده شده در جدول پیدا کنیم. 1. ما داریم:

بنابراین، منحنی توزیع مدت چرخه های قلبی در مقایسه با منحنی نرمال، که برای آن، صاف می شود.

روی میز شکل 3 توزیع تعداد گل های حاشیه ای را در یکی از گونه های داوودی نشان می دهد. برای این توزیع

همانطور که از مثال داده شده مشخص است، کورتوز می تواند مقادیر بسیار زیادی به خود بگیرد، اما حد پایین آن نمی تواند کمتر از یک باشد. به نظر می رسد که اگر توزیع دووجهی باشد، آنگاه مقدار کشش به حد پایین خود نزدیک می شود، بنابراین به 2- تمایل دارد. بنابراین، اگر در نتیجه محاسبات معلوم شود که مقدار آن کمتر از -1-1.4 است، می‌توان مطمئن بود که توزیع جمعیت در اختیار ما حداقل دووجهی است. زمانی که داده های آزمایشی با دور زدن مرحله پیش پردازش، با استفاده از رایانه دیجیتال تجزیه و تحلیل می شوند و محقق نمایش گرافیکی مستقیمی از توزیع جمعیت در مقابل چشمان خود ندارد، توجه به این امر به ویژه مهم است.

منحنی توزیع دو قله داده های تجربی می تواند به دلایل زیادی ایجاد شود. به طور خاص، چنین توزیعی می تواند با ترکیب دو مجموعه از داده های ناهمگن در یک مجموعه واحد ظاهر شود. برای نشان دادن این موضوع، داده‌های مربوط به عرض پوسته دو نوع نرم تن فسیلی را به طور مصنوعی در یک مجموعه ترکیب کردیم (جدول 4، شکل 3).

شکل به وضوح حضور دو حالت را نشان می دهد، زیرا دو مجموعه داده از جمعیت های مختلف مخلوط شده اند. محاسبه برای مقدار کشیدگی 1.74، و بنابراین = 1.26 است. بنابراین، مقدار محاسبه شده شاخص پیک، مطابق با موقعیت قبلی بیان شده، نشان می دهد که توزیع دارای دو قله است.

در اینجا یک اخطار وجود دارد. در واقع، در همه مواردی که توزیع جمعیت دارای دو ماکزیمم است، مقدار کشش نزدیک به واحد خواهد بود. با این حال، این واقعیت نمی تواند به طور خودکار به این نتیجه برسد که مجموعه داده های تجزیه و تحلیل شده مخلوطی از دو نمونه ناهمگن است. اولاً، چنین مخلوطی بسته به تعداد سنگدانه های تشکیل دهنده آن ممکن است دو قله نداشته باشد و شاخص کشیدگی به طور قابل توجهی بیشتر از یک خواهد بود. ثانیاً، یک نمونه همگن می تواند دو حالت داشته باشد اگر، برای مثال، الزامات انتخاب داده های تجربی نقض شود. بنابراین، در این مورد، مانند سایر موارد، پس از محاسبه رسمی آمارهای مختلف، باید یک تجزیه و تحلیل حرفه ای کامل انجام شود که به داده های به دست آمده امکان تفسیر معنادار را می دهد.

آخرین مطالب در بخش:

عناصر باکتری.  ساختار سلول های باکتریایی
عناصر باکتری. ساختار سلول های باکتریایی

اجزای ساختاری یک سلول باکتریایی به 2 نوع تقسیم می شوند: - ساختارهای اساسی (دیواره سلولی، غشای سیتوپلاسمی با مشتقات آن، ...

حرکت چرخشی بدن
حرکت چرخشی بدن

1.8. ممان تکانه یک جسم نسبت به یک محور. تکانه زاویه ای یک جسم جامد نسبت به یک محور، مجموع تکانه زاویه ای ذرات منفرد است، از ...

نبردهای جنگ جهانی دوم
نبردهای جنگ جهانی دوم

در استالینگراد مسیر جهان به شدت تغییر کرد.در تاریخ نظامی روسیه نبرد استالینگراد همیشه برجسته ترین و...