Теоретични разпределения

Случайна величина

Случайна величина – може да приема различни числови стойности

  • Дискретна – ако приема само изолирани една от друга краен или безкраен брой стойности – цели числа
  • Индискретна – може да приема произволни стойности в определен интервал
  • Всяка числова стойност на случайната величина е сбъдване на определено събитие(вероятност – мярка на обективната възможност за настъпване на дадено събитие)
  • Възможните стойности на случайната величина и съответните им вероятности образуват теоретично разпределение
    • Разределението на дискретна случайна величина е дискретно(прекъснато)
    • Разпределението на индискретна случайна величина е индискретно(непрекъснато)
    • Теоретичните разпределения могат да бъдан едномерни, двумерни, многомерни и да имат различна форма

Класическа вероятност – числова стойност за шанса да се реализира едно събитие(А)

  • Изчислява се като отношение на благоприятните изходи(m) и всички възможно изходи(n) – P(A)=m/n
  • Според закона за големите числа, колкото е по-голям броят на изледваните единици, толкова по-малко наблюдаваните признаци се влияят от случайни причини и относителната честота се доближава до съответната вероятност
  • Статистическа вероятност – показва каква е вероятността даден признак да приеме определено значение
    • При достатъчно голям брой наблюдения относителните честоти възпроизвеждат тези вероятности
  • Функция на разпределение на вероятностите(интегрална функция на разпределението, функция на кумулативното разределение на вероятностите) вероятността случайната величана да приема стойноста по-малка от х
    • F(х)=P(X<x) X – случайна величина      х – неслучайна величина
    • Неотрицателна, ненамаляваща, определя се за всички стойности на Х

Закон за разпределението. Функция на плътността на вероятностите

  • Функция на плътността на вероятностите – задава вероятността случайната величина да заема стойност в даден интервал
  • Функцията на плъността на разпределението е пъво производна функция на разределението на вероятностите f(x)=dF(x)/dx
  • Ако се фиксира какъвто и да е интервал от а до б, вероятността случайната величина да има стойност, попадаща в този интервал е равна на интеграла в тази граница на плънстота на вероятността – формула
  • Функцията на плътността на вероятностите е неотрицателна и интегралът в границите
  • Между функцията на разделение на вероятностите и функцията на плътността на вреоятностите има зависимост
    • При дискретна случайна величина
    • При индискретна случайна величина

Законът за разпрледението на една случайна величина представлява съвместното разпределение на стойностите на признака Хi и вероятностите Pi

  • Представя се чрез таблица чрез хистограма на резпраделение или аналитично(чрез уравнение)
  • Сумата от всички величини е равна на 1

Математическо очакване на случайна величина

  • Математическо очакване – характеризира центъра на разпределението(средната стойност на случайната величина, изчислена от всички възможни нейни стойности, претеглени с техните вероятности)
    • Математическо очакване на дискретна случайна величина е сумата от произведенията на възможните и стойности и съответните им вероятности
    • Математическо очакване на индискретна случайна величина
    • Свойства на математическото очакване
      • Математическото очакване на сума от случайни величини е равно на сумата от техните математически очаквания
      • Математическо очакване на произведение от случайни величини е равно на произведението от техните математически очаквания
    • При определени условия относителните честоти възпроизвеждат с приближение вероятностите, за това при достатъчно голям брой случаи средната величина се доближава до математическото очакване

Дисперсия на случайна величина

  • Дисперсията на случайна величина измерва вариацията на възможните и стойности около математическо очакване
  • Дисперсия и средно квадратично отклонение на индискретна случайна величина
  • Математически свойства на дисперсията
    • Дисперсията на сума от независими случайна виличини е равна на сумата от техните дисперсии
    • Дисперсията на разлика от две случайни величини е равна на сумата от техните дисперсия
    • Ако X1, X2, X3… са еднакво разпределени независими случайни величини дисперсията на всяка от които е ^2 тогава
      • Дисперсията на тяхната сума е n^2
      • Дисперсията на техните средни аритметични е ^2/n

Математическо очакване и дисперия на случайна величина

  • Формулите за математическото очакване и дисперсията се модифицират при различни разпределения
  • Разликите между възможните стойности на случайните величини и математическото им очакване също могат да се раглеждат като случайни виличини с математическо очакване 0
  • Ако тези разлики се стандартизират (разделят на ), те ще се изразят като части (дялове) от (т.е. в нормирани(стандартизирани) отклонения)

Нормално разпределение

  • Когато една случайна величина има множество стойности и те са резултати от много и независими помежду си фактори, действащи еднакво и независимо един от друг, то тази случайна величина има нормално разпределение
    • Функция на плътността на вероятностите
  • Индисркретно разпределение
  • Определя се напълно от математическото очакване(средата) Е(X)=X и стандартното отклонение
    • Тъй като са възможни безброй много конкретни стойности на математическото очакване и на средно квадратично отлконение следователно са възможни и безброй много нормални разпределения
    • Математическото очакване определя центъра на разпределението
    • Средно квадратично отклонение определя формата на кривата – при по-малко стандартно отклонение кривата е по-стръмна, а при по-голяма по-полегата

Нормално разпределение

Кривата му е едномодална и напълно симетрична, има форма на разрез на камбана

  • Разположена е изцяло над абцисната ос
  • Асимптотично клони към абсцисната ос, но никога не я достага
  • Достига своя макимум в х =
  • Нормално разпределение представлява фамилия от разпределения, като всяко от тях се определя със съответна двойка µ и
  • Означава, че дадена случайна величина е с нормално разпределение с паратемти µ и ^2

Извадкови изучавания

  • Изучаването на масовите явления може да стане по два начина
    • Чрез изчерпателно изследване – в него са включени всички единии на съвкупността
    • Чрез извадкови изследвания – в тях са включени част от единици на съвкупността
  • Не винаги е целесъобразно да се провежда изчерпателно изследване
  • Извадката не гарантира представянето на генералната съвкупност с абсолютна тоност и за това направените изводи важат с определена точност
  • Ако от една генерална съвкупност направим не една, а повече извадки, между характеристиките на тези извадки има разлика
  • Стохастична грешка е разликата между характеристика на генералната съвкупност, получена от извадка и истнския параметър на тази характеристика на генералната съвкупност
    • Причина за нея е фактът, че съответната характеристика е получана от сравнително малък брой единици, а не от всички единици на генералната съвкупност
  • Систематичната грешка се получава в случай на преднамереност при определяне на единиците, които ще образуват извадката
  • При непредтставителни извадки се произвежда информация, чиято грешка не може да се планири и измерва

Представителна извадка

  • Надеждността на статистическите заключения се предопределя от представителността на извадката
  • Предтавителната извадка възпроизвежда коректно свойствата на генералната съвкупност, когато са спазени изискванията за обема и подбора на включените в нея единици
  • Обемът на извадката трябва да включва достатъчно на брой единици
  • С реализацията на случайния подбор се получава случайна извадка
    • Лотариен подбор – извършва се на принципа на лотарията – единиците на съвкупността се номерират и от тези номера се изтеглят на лотариен принцип тези, които ще формират извадката
      • Този подбор не е ефективен при голям обем на генералната съвкупност
    • Систематичен подбор – извършва се въз основа на подборна крачка
      • Подборната крачка се определя като отношение на обема на генералната съвкупност (N) и обема на извадката(n)
      • Първата единица на извадката се определя лотарийно от първите десет единици на генералната съвкупност
      • Този подбор не е подходящ, когато подреждането на единиците на генералната съвкупност обуславя проявлението на определена цикличност в значенията на признака
    • Случайна извадка се излъчва, когато на всяка единица от генералната съвкупност се осигури еднакъв шанс да попадне в извадката

Видове извадки

  • В зависимост от броя на единиците, които включват
    • Малки извадки до 30 единици
    • Големи извадки – над 30 единици
  • Видове представителни извадки
    • Проста случайна извадка – излъчва се когато единиците са равнопоставени по значенията на признака
    • Районирана извадка – когато са налице различия в условията, при които се намират единиците на генерална съвкупност
      • Гереналната съвкуност

 

Статистически изводи и заключения

Видове статистически оценки

Точкова оценка – конкретна числова стойност на параметъра, получена въз основа на данни от извадка. Точкова оценка може да се получи въз основа на всякакъв вид извадка. Тя е напълно достоверна за съответната извадка, но може да бъде използвана за изводи по отношение на генералната съвкупност само ако е получена въз основа на данни от представителна извадка

Интервална оценка – числов интервал, в който с определена вероятност и при определени условия се гарантира, че се намира действителната стойност на оценявания параметър. Тази оценка има вероятностен характер и никога не е 100% гарантирана. Винаги има риск за грешка, дори и минимален тази оценка може да се получи само въз основа на данни от представителна извадка.

Грешки на статистическите оценки на параметри.

Обща грешка на оценката на параметъра ϴ

d = ϴ – ϴ

Компоненти на общата грешка

  • Систематична грешка – съзнателно, субективно изкривяване на информацията. Води до изместване на оценката, неизмерима априорно
  • Случайна грешка – несъзнателно изкривяване на информацията или допускане на неточности. При достатъчно голям брой единици, тази грешка се компенсира. Неизмерима априорно
  • Стохастична грешка – резултат от факта, че използваме информация само за част от единиците на съвкупността. При репрезентативните извадки тази грешка може да бъзе измерена и гарантирана с определена вероятност.

Точкови оценки на средна аритметична, стандартно отклонение/дисперсия и относителен дял

Средна аритметична – µ – точковата оценка на средна аритметично за дадена генерална съвкупност, изчислена въз основа на данни от една представителна извадка от тази съвкупност, е неизместена и ефективна оценка. Тази средна аритметична се нарича извадкова средна и се изчислява по формулата.

=

Стандартно отклонение/дисперсия/ – точковата оценка на дисперсията за дадена геренална съвкупност, изчислена въз основа на данни от една представителна извадка, е ефективна, но изместена оценка. Бесел доказва, че това изместване е постоянно и зависи само от обема на извадка. Той изчислява размера на това изместване като множител, с който трябва да се коригира формулата за дисперсията, а именно n/(n-1)

Връзката между дисперсията на генералната съвкупности и дисперсията, изчислена за една извадка е следната

=

Извадкова дисперсия

Извадково стандартно отклонение

Относителен дял – п – относителен дял като понятие в статистиката се използа за да се обозначи делът на единиците в една съвкупност, които имат определено значение по изучаван алтернативен статистически признак, спрямо общия брой единици. Неизместената и ефективна точкова оценка на относителния дял, изчислена въз основа на данни от представителна извадка, се получава по формулата p=f/n

Където f е броят на единиците, притежаващи едно от двете значения на изучаван алтернативен признак, а n е общият брой единици в извадката.

Дисперсията на единиците в генералната съвкупност по отношение на изуавания алтернативен статистически признак се изчислява по формулата

Неизместената точкова оценка на тази дисперсия е извадковата дисперсия, която се изчислява по формулата S^2=p/(1-p)

Стохастично разпределение – точковите оценки на всеки параметър на една статистическа съвкупност могат да получават различни стойности при изчисляването им въз основа на данни от различни извадки, дори обемът и моделът на извадките да остават един и същ. Това е породено от:

  • Пряката зависимост на стойността на точковата оценка от индивидуалните значения на единиците в конкретната извадка
  • Случайния подбор на единиците в представителните извадки, в следствие на което индивидуалните значения на единиците, попаднали в една конкретна извадка, представляват един набор от случайни значения

Следователно, точковите оценки на всеки параметър(средна аритметична, дисперсия, относителен дял) може да се разглежда като случайна величина която има конкретна реализация при всяко…

Статистическа оценка на параметри

Вероятностното разпределение на точковите оценки на даден параметър, разглеждани като случайна величина се нарича стохастично разпределение

Стохастично разпределение на средна аритметична – вероятностното разпределение на точковите оценки на средната аритметична(извадкови средни), получени въз основа на данните от всички възможни представители извадки с един и също обем и модел, излъчени от една генерална съвкупност

Следствие на ЦПТ – стохастичното разпределение на средната аритметична, соновано на извадки с достатъчно голям обем n излъчени от генерална съвкупност със средна µ и дисперсия ^2 е приблизително нормално със средна µ равна на средната на генералната съвкупност и деспресия

Средна стохастична грешка на средна аритметична и относителен дял

Нека разгледаме генералната съвкупност с N на брой единици, изучавани по даден статистически признак. Средната аритметична за този признак обозначаваме с µ, а степента на разсейване със  ^2. Ако излъчим всички възможни случайни извадки с обем n от тази генерална съвкупност, то за всяка точкова оценка х, на средната µ можем да предоставим индивидуална стохастична грешка епсилон по следния начин Еj=xj-µ

Тъй като извадковата средна представлява случайна величина, а средната на генералната съвкупност е константа, то стохастичната грешка Ej също може да се разглежда като случайна величина, която има същото вероятносто разпределение.

Гаус доказва, че при достатъчно голям обем на извадката, разпределението на стохастичните грешки е асимпотично нормално със средна нула и дисперсия равна на дисперсиата на стохастичното разпределение

Тази теорема е известна като закона на гаус за грешките – тъй като средната на грешките е равна на 0.

Вземайки предвид, че средната аритметична на стохастичние грешки е равна винаги на 0, то средната квадратична, представена като стандартно отклонение на стохастичното разпределение на средната е приета като мярка на средната стохастична грешка, наречена още стандартна грешка на средната аритметична

Следователно, стандартната грешка на средната аритметична може да бъде изразена чрез следната формула

µх = = /корен от n

Тази формула обаче е приложима само когато знаем стойността на стандартното отклонение в генералната съвкупност. На практика това обикновено не е възможно. Ето защо то бива заместено със съответното му извадкото стандартно отклонение Sn изчислено по коригираната формула на Бесел

Изведената формула въз основа на закона на гаус за грешките се изчислява на стандартната грешка на средната е валидна само при възрватен подбор, където вероятността на единиците за подаване в извадката остава непроменена

В случай че осъществяваме безвъзвратен подбор формулата за изчисляване на стандартната грешка на средната трябва да бъде коригирана с множител, който компенсира изменението във вероятността за попадане на единиците в извадката. Този множител се нарича множител за крайната стойнст.

Следователно, формулите за изчисляване на стандартната грешка на оценката на средната аритметична са:

  • При възвратен подбор – µх=Sx/корен от n
  • При безвъзвратен подбор

Същата формула с допълнителен множител.

Средната стохастична грешка на оценката на средната аритметична не е обвързана с вероятност, която да гарантира верността и. Тя има смисъл на средна величина

В основа на изложената процедура за изчисляване на стандартна грешка на средата, стандартната грешка на относителен дял може да бъде изчислена с помощта на следните формули

  • При възвратен подбор
  • При безвъзвратен подбор

Интервална оценка на средна аритметична и относителен дял.

Интервалната оценка е свързана с разределението на точковите оценки на оценявания параметър, т.е. със стохастичното разпределение

Въз основа на ЦПТ е доказано че стохастичното разпределение на средната аритметична е асимпотично нормално със средна равна на средната в генералната съвкупност и стандартно отклонение формула. Това позволява стохастично разпределение да бъде стандартизирано с помощта на следната формула.