Дисперсионен анализ

Същност, видове и условия за приложение на дисперсионния анализ

Дисперсионният анализ(ДА) – е статистически метод за анализ на зависимости която резултативното явление е представено на силна скала, а факторите могат да бъдат категорийни променливи. Като процедура ДА е статистическа проверка на хипотези, при която се използва F-критерия на Фишер

Основна задача на ДА

  • Разpкрива връзки и зависимости
  • Провери адекватността на регресионните модели
  • Подбор на фактори при множествения PA

Видове дисперсионен анализ

  • Според броя на факторите – еднофакторен, двуфакторен, многофакторен
  • Според честотите в групите – с равни и с различни честоти
  • Според степента на осигурени условия на провеждането му – параметричен, непараметричен

Условия за приложение на еднофакторен дисперсионен анализ

  • Резултативното явление да бъде представено на силна скала
  • Информацията за анализа да е осигурена от представителни извадки
  • Значенията на зависимата променлива в групите по значенията на фактори да имат приблизително нормално разпределение.
  • Дисперсиите трябва да са равни.

Процедура на приложението на еднофакторен дисперсионен анализ

  • Дефиниране
  • Дефиниране на H0 и Hi
  • Фиксиране на равнище на значимост α
  • Определяне на статистически критерии – формула?

Величините ^2 и ^2 са две независими оценки на вариация на зависимата променлива

  • Изчисляване на емпиричната характеристика

Изчисляването на емпиричния F-критерий: преминава през следните етапи – формула

Вътрегрупова дисперсия – формула

Определяна на теоретичната характеристика

Теоретичната характеристика се определя от таблица въз основа на равнището на значимост α и две величини, наречени степени на свобода

Df1=k-1

Df1=n-k

Вземане на решение

  • При F<=F се потвърждава нулева хипотеза. Ако F епмерично е по-малко или равно на F теорентично се потвърждава нулевата хипотеза
  • При F>F се отхвърля нулева хипотеза. Ако F емпирично е по-голямо се отхвърля.

Прави се извод

 

Регресионен анализ

Регресионният анализ е статистически метод за анализ и моделиране на зависимости между масови явления, представени на силни статистически скали

Общ вид на регрисионния модел Y=f(Xj) + c =Y + ε Където Y=f(Xj) детерминирана част на модела, а ε – стохастична част на модела

Елементи на регресионния модел

  • Регресионно уравнение – някви уравнения
  • Резултативна(зависима) променлива(Y) и фактори(независими) променливи(Xj)
  • Параметри на модела(регресионни коефициенти)
  • Стохастичен компонент(остатъци) – ε

Задачи на регресионния анализ

  • Да обоснове проявлението на корелационна зависимост въз основа на емпиричните данни с помощта на корелограма или ДА(дисперсионен анализ)
  • Да установи формата на зависимостта – метод на свободната ръка
  • Да измери количествено зависимостта – МНМК(метод на най-малките квадрати) или ММП(метод на максималното правдоподобие )

Видове регресивни модели

  • Според броя на факторите
    • Еднофакторни
    • Многофакторни
  • Според формата на зависимост
    • Линейни
    • Нелинейни
      • Вътрешно линейни
      • Вътрешно нелинейни

Оценката на един регресионен модел включва оценка на параметрите на модела и оценка на неговата адекватност. Най-широко прилаганият мотед за оценка на параметрите на регресионния модел на Метода на най-малките квадрати. Този метод се прилага при линейните и вътрешно линейните регресионни модели.

Основна концепция на МНМК

Функцията, измерваща разликата между фактически(емпиричните) и получените от модела(теоретичните) значения на зависимата променлива, се минимизира по отношение на параметрите. – няква формула.

Целта при приложението на МНМК е да се намерят(оценят) стойностите на параметрите на модела, за които функцията на остатъците приема минимална стойност

Постигането на тази цел се осъществява чрез диференциране на функцията по отношение на всеки от паратемтрите и приравняване на всяка от получените производни на нула. Така получаваме по едно уравнение за всеки от параметрите на модела, който се обединява в система линейни уравнения по отношение на търсените параметри. Уравненията се наричан нормални уравнения, а системата, струкурирана от тях се нарича система на нормални уравнения.

Изисквания на приложение на МНМК

  • Моделът да бъде линеен по отношение на параметрите
  • Променливите в модела да са количествени величини
  • Остатъците да бъдат взаимно независими – cov(εb.εj) = 0 за всяко i=/f
  • Остатъците да имат асимптотично нормално разпределение със средна 0 и постоянна дисперсия(условие за хомоскедастицитет) – няква формула

Общ вид на еднофакторен линеен регресионен модел – Y = β0 + β1X1 +ε

Оценка на параметрите на регресионния модел

Регресионното уравнение на еднофакторния линеен регресионен модел има вида – Y=b0 + b1X1

Функцията на остатъците, която трябва да бъде минимизирана, в този случай – няква формула

Системата нормални уравнения след диференциране на функцията и опростяване на уравненията има следния вид – някви система

Изразите в системата, в които участват зависимата и факторната промелниви се изчисляват въз основа на емпиричната информация. След заместването им в системата нормални уравнения се преминава към система от 2 уравнения с две неизвестни, където неизвестните са търсените параметри. След решаване на системата се получават стойностите(оценките) на параметрите.

Статистическа значимост на регресионните коефициенти

Статистическата знаимост на всеки от регресионните коефициенти се доказва със СПХ е t-критерия

  • Hβ = 0 регресионният коефициент е статистиески незначим
  • Hβ =/ 0 регресионният коефициент е статистиески значим

Емпиричната характеристика се изчислява по следната формула Tem=β/µβ

Адекватност на регресионния модел е степента на достоверно представяне на изучаваната зависимост чрез модела въз основа на емпиричните данни.

Методи за оценка адекватността на регресионен модел

СПХ на адекватност на модела е F-критерий

H0^2 – Показва че модела е неадекватен

H1^2 – Регресионният модел е адекватен

Конкуриращи се модели

Предлага се за оценка на адекватност на два конкуриращи се модела- Анализа се провежда в два етапа

  • СПХ за адекватност на всеки от конкуриращите се модели
  • СПХ относно кой от конкуриращите се модели е по-адекватен

Стандартната грешка на модела Sy

Стандартната грешка на регресионния модел се използва като измерител на степента на адекватност на група модели

Моделът който е с най-малка стандартна грешка е с най-голяма степен на адекватност

 

Същност и видове корелационен анализ

Корелационният анализ е статистически метод и измерване силата на корелационната зависимост между две или повече масови явления. Това се осъществява чрез корелационни коефициенти

Според броя на участващите в зависимостта явления корелационните коефициенти биват:

  • Единични
  • Множествени – явленията са равнопоставени
  • Частно множествени – част от явленията третират част от други явления

Коефициент на Пирсън – основава се на оценения регресионен модел на зависимостта. Може да се използва за да се измерва силата на зависимост както при линейни зависимости така и при нелинейни зависимости. Също така може да се използва както за измерване силата на единични зависимости така и на множествени зависимости. Недостатъците – понеже е под корен може да приема само положителни стойности, т.е. не може да се определи посоката на зависимост.

Формула

Коефициентът на линейна корелация на Браве – коефициентът на Браве измерен достоверно силата на зависимост между две явления, само когато тя е линейна. Може да се изчислява преди да сме направили регресионен анализ. Освен че показва силата на зависимост показва и посоката на зависимост. Може да измерва сила само на единични зависимости. Достоверен е като числова стойност само ако връзката между явленията е линейна.

Скала на интерпретация на корелационните коефициенти

При 0<=0.3 корелационната зависимост се смята за слаба

При 0,3<=0.5 корелационната зависимост се смята за умерена

При 0,5<=0.7 корелационната зависимост се смята за средна

При 0,7<=0.9 корелационната зависимост се смята за силна

При 0,9<=1 корелационната зависимост се смята за много силна

 

Коефициент на детерминация – показва каква част от изменението на резултативната променлива се обяснява с факторите в регресиония модел. Обикновено се представя в проценти. Този коефициент се изменя в границите от 0% до 100%

Коефициент на индетерминация(коефициент на неопределеност) – показва каква част от изменението в Y се дължи на фактори и причини, които са извън изследвания модел.