Доверительные интервалы.

Как известно, выборочное среднее и выборочная дисперсия являются случайными величинами, оценками математического ожидания и дисперсии, причем их совпадение с теоретическими характеристиками имеет нулевую вероятность. Иногда бывает удобно указать интервал, внутрь которого недоступная для непосредственного измерения характеристика попадает с достаточно большой, близкой к единице, вероятностью. Такой интервал называют доверительным интервалом.

Определение 37. Если Q - неизвестный параметр, а α - достаточно малое число, то интервал [Q+,Q] называется доверительным интервалом для Q уровня 1α , если неравенство QQQ+ выполнено с вероятностью 1α , или в 100(1α) процентах случаев.

Доверительный интервал это такой интервал, который с заданной вероятностью накрывает неизвестный параметр Q : p[QQQ+]=1α. В таком случае 1α называют доверительной вероятностью. Желательным свойством можно считать условие: Q+Q0. Тогда при достаточно большом числе наблюдений можно как угодно точно локализовать параметр Q .

В качестве α обычно берут числа 0,01, 0,05, 0,1. Выбор доверительной вероятности зависит от практических последствий в случае, когда доверительный интервал не накроет Q .

Легко построить доверительный интервал для Q , если мы имеем для параметра точечную оценку Q* и хотя бы приближённо знаем закон её распределения. Именно в этом случае по закону распределения Q* , задавая α , мы можем находить такое ε , чтобы p(|Q*Q|<ε)=1α. Иногда 1α называют надёжностью оценки, а ε – её точностью или радиусом доверительного интервала. Здесь можно переписать неравенство под знаком вероятности в следующем виде: p(Q*εQQ*+ε)=1α, такой доверительный интервал симметричен и имеет длину 2ε .

Оценка, которую дает, например, выборочное среднее или среднеквадратичное отклонение, корень из выборочной дисперсии, называется точечной оценкой.

В отличие от точечной оценки доверительный интервал называют интервальной оценкой.


Проверка статистических гипотез.

Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (по результатам наблюдений). Процедура сопоставления высказанной гипотезы с выборочными данными называется проверкой гипотезы.

Гипотезы различают простые и сложные:

  • простая гипотеза полностью задает распределение вероятностей;
  • сложная гипотеза указывает не одно распределение, а некоторое множество распределений. Обычно это множество распределений, обладающих определенным свойством.

Проверка гипотез осуществляется с помощью критериев статистической оценки различий. ″Статистический критерий – это решающее правило, обеспечивающее надежное поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью″ (Суходольский Г.В.). Статистические критерии обозначают также метод расчета определенного числа и само это число. При проверке гипотезы экспериментальные данные могут противоречить нулевой гипотезе, тогда она отклоняется и принимается альтернативная гипотеза. Понятия нулевой гипотезы и альтернативной гипотезы будет подробно рассмотрено ниже. Среди возможных статистических критериев выделяют параметрические и непараметрические, более и менее мощные.

Параметрические критерии – это некоторые функции от параметров совокупности, они служат для проверки гипотез об этих параметрах или для их оценивания. Параметрические критерии включают в формулу расчета параметры распределения, то есть средние и дисперсии.

Непараметрические критерии – это некоторые функции от функций распределения или непосредственно от вариационного ряда наблюдавшихся значений изучаемого случайного явления. Они служат только для проверки гипотез о функциях распределения или рядах наблюдавшихся значений. Непараметрические критерии не включают в формулу расчета параметров распределения и основаны на оперировании частотами или рангами.

И те, и другие критерии имеют свои преимущества и недостатки. Важнейшей характеристикой любого статистического критерия является его мощность. Мощность критерия – это его способность выявлять различия, если они есть. Иначе, это его способность проверить гипотезу об отсутствии различий, и отклонить ее, если она неверна, или принять, когда она верна. Мощность определяется эмпирическим путем. Одни и те же задачи могут быть решены с помощью разных критериев, при этом обнаруживается, что некоторые критерии позволяют выявить различия там, где другие оказываются неспособными это сделать.

Статистические гипотезы подразделяют на нулевые и альтернативные.

Определение 38. Нулевой гипотезой называется гипотеза об отсутствии различий.
Она обозначается H0 и называется нулевой, потому что предполагает X1X2=0, где X1 и X2 сопоставляемые значения признака.

Чаще всего требуется доказать значимость различий, потому что это для нас более информативно в исследованиях. Таким образом, нулевая гипотеза, это то, что мы хотим опровергнуть, если перед нами стоит задача доказать значимость различий.

Определение 39. Альтернативная гипотеза – это гипотеза о наличии и значимости различий. Её обозначают H1 и иногда называют экспериментальной гипотезой.

Статистическая проверка гипотез, основанная на экспериментальных, выборочных данных, неизбежно связана с риском принять ложное решение. Общий подход в математической статистике состоит в следующем.

Выбирается некоторый уровень допустимой ошибки отвергнуть гипотезу H0 об отсутствии различий, в то время, когда они на самом деле незначимы. Такую ошибку называют ошибкой первого рода. Ошибка второго рода произойдет, если будет принято решение о принятии гипотезы H0 , когда на самом деле верна гипотеза H1 .
Ассоциативная связь

Рассмотрим наглядный пример. Пусть в общежитии установлена противопожарная система, которая подает сигнал тревоги, когда концентрация дыма достигает определенного уровня. Возможны четыре ситуации:

Ассоциативная связь

Еще один пример, наглядно показывающий отличие между гипотезами.

Пример 43. Сформулируйте H0 и H1, если вы изучаете:

1. Изменение состояния студентов при экзаменационном стрессе.
Ответ:
H0 : Изменение состояния студентов при экзаменационном стрессе не значимо.
H1 : Изменение состояния студентов при экзаменационном стрессе значимо.

2. Связь учебной мотивации старшеклассников с уровнем образования их родителей.
Ответ:
H0 : Взаимосвязь учебной мотивации старшеклассников с уровнем образования их родителей не значима.
H1 : Взаимосвязь учебной мотивации старшеклассников с уровнем образования их родителей значима.

Статистические критерии, которые используется с целью проверки нулевой гипотезы, называются соответственно по тому закону распределения, которому они подчиняются, так F - критерий подчиняется распределению Фишера, χ2 -критерий подчиняется χ2 - распределению, t - критерий подчиняется распределению Стьюдента, U - критерий подчиняется нормальному распределению.

Областью принятия гипотезы или областью допустимых значений называется множество возможных значений статистического критерия, при которых основная гипотеза принимается. Если наблюдаемое значение статистического критерия, рассчитанное по данным выборочной совокупности, принадлежит критической области, то основная гипотеза отвергается. Если наблюдаемое значение статистического критерия принадлежит области принятия гипотезы, то основная гипотеза принимается.

Уровни статистической значимости.

Уровень значимости – это вероятность того, что мы сочли различия существенными, а они на самом деле случайны. То есть это вероятность совершить ошибку первого рода, вероятность отклонения нулевой гипотезы, в то время как она верна.
Например, когда мы указываем, что различия достоверны на 5% уровне значимости, или при p0.05 , то мы утверждаем, что вероятность того, что они недостоверны, составляет 0,05. Если же мы указываем, что различия достоверны на 1% уровне значимости, или при p0.01 , то имеем ввиду, что вероятность того, что они все-таки недостоверны, равна 0,01.

Вероятность ошибки первого рода обычно обозначается как α . Поэтому правильнее указывать уровень значимости: α0.05 или α0.01 .
Если вероятность ошибки – это α , то вероятность правильного решения равна: 1α Чем меньше α , тем больше вероятность правильного решения.
Выбор уровня значимости, или, уровня вероятности ошибки первого рода, всегда зависит от внешних по отношению к статистике обстоятельств.

Всё выборочное пространство можно разделить, таким образом, на два множества ΩH и Ω¯H ,Ω=ΩHΩ¯H. При попадании выборочной точки в ΩH статистическая гипотеза H принимается, при попадании в Ω¯H гипотеза H отвергается. Множество ΩH называется областью принятия гипотезы. Множество Ω¯H называется критической областью для данной гипотезы H . Чтобы определить процедуру проверки гипотезы H , достаточно задать критическую область Ω¯H .

Чаще всего критическая область строится с помощью статистического критерия то есть некоторой функции от выборки K(x1,...,xn). Критическая зона определяется по критерию из неравенства K(x1,...,xn)>C , где C – пороговое значение критерия, и тогда вероятности ошибок выглядят так:

p(K(x1,...,xn)>C)=α. 

Максимально допустимую величину вероятности ошибки первого рода α называют уровнем значимости критерия; задав α, находят порог C из условия:
Обычные значения уровня значимости для практики: α=0.01;0.05;0.1. (В дискретном случае, правда, в качестве значений α могут быть не любые числа, и это надо учитывать, иначе уравнение окажется неразрешимым). Уравнение же решается по таблицам точного или приближённого закона распределения критерия K .
Например, построив критическую область для уровня значимости , мы должны считаться с тем, что в сотне применений критерия мы в среднем пять раз отвергнем гипотезу, которая на самом деле верна. Если фактические последствия этих ошибок нас не пугают, то можем пользоваться данной критической областью.

Правила отклонения H0 и принятия H1. 
Если эмпирическое значение критерия равняется критическому значению, соответствующему α0.05 , или превышает его, то H0 отклоняется. Но нельзя еще с определенностью принять H1. Если эмпирическое значение критерия равняется критическому значению, соответствующему α0.01, или превышает его, то H0 отклоняется и принимается H1. 
Для облегчения принятия решения можно вычерчивать ″ось значимости″.

Ассоциативная связь

Критические значения критерия обозначены как Q0.05 и Q0.01, эмпирическое значение критерия как Qem. Оно заключено в эллипс.

Замечание. В большинстве случаев для того, чтобы мы признали различия значимыми, необходимо, чтобы эмпирическое значение критерия превышало критическое, в некоторых критериях придерживаются противоположного правила. Эти правила оговариваются в описании каждого критерия.

В большинстве случаев, одно и то же эмпирическое значение критерия может оказаться значимым или незначимым в зависимости от количества наблюдений в выборке n или от так называемого числа степеней свободы, которое обозначается как ν. Число степеней свободы равно числу элементов вариационного ряда минус число условий, при которых он был сформирован. К числу таких условий относятся: объем выборки, средние и дисперсии.

Пример 44. Допустим, что наша выборка состоит из 50 человек. Мы делим их на три класса по критерию: ″Умеет работать на ПК – умеет выполнять лишь определенные операции – не умеет работать″. Если мы расклассифицировали наблюдения по классам и подсчитали количество наблюдений в каждой ячейке классификации, то мы получаем частотный вариационный ряд. В нашем случае он будет состоять из трех интервалов. Единственное условие, которое соблюдается при его формировании – объем выборки . Если в первом классе – 20 человек, во втором классе – 20 человек, то в третьем должны оказаться 10 человек. Мы не можем произвольно определить количество испытуемых в третьем классе, ″свобода″ простирается только на первые два класса .

Зная n и/или число степеней свободы ν, по специальным таблицам можно определить критические значения критерия и сопоставить с ними полученное эмпирическое значение.

Односторонние и двусторонние критерии.

Понятие одностороннего либо двустороннего критерия связано с формулировкой гипотез. Если ″нулевая″ гипотеза формулируется о равенстве (X1=X2 ), то для проверки используется двусторонний критерий. Если же ″нулевая″ гипотеза формулируется о неравенстве, то возможны варианты:
1) если X1X2, то используется двусторонний критерий;
2) если X1X2 или X1X2, то односторонний критерий.

Критерий Стьюдента

Пусть наша выборка состоит из n чисел (x1,...,xn), которые являются результатами испытания одной и той же случайной величины. Случайность результата обеспечивает равенство нулю её математического ожидания. Предположим дополнительно, что случайная величина X, представленная этой выборкой, нормально распределена. Таким образом, её математическое ожидание известно и равно нулю, а дисперсия представляет собой неизвестное число D. 
Рассмотрим новую случайную величину с заданными известными параметрами, вычисленным по выборке (x1,...,xn): 
t=x¯S2n, 
где это x¯ среднее арифметическое, S2 выборочная дисперсия, вычисляемая по формуле S2=1n1((x1x¯)2+...+(xnx¯)2). 

Пусть вместо выборочной дисперсии S2 в знаменателе стоит реальная дисперсия D случайной величины, единичное испытание которой мы наблюдаем, x¯Dn. . Тогда эта формула задает нормальную случайную величину, поскольку дисперсия среднего арифметического получается из дисперсии одного наблюдения делением на n. Деление на корень из выборочной дисперсии искажает нормальное распределение, выборочная дисперсия сама по себе случайно отклоняется от реальной. Но, тем не менее, график случайной величины t напоминает график плотности нормального распределения.

Ассоциативная связь

Для разных значений n распределения будут различными. Такое распределение называется распределением Стьюдента с n1 степенью свободы, или t -распределением. Оно не зависит от дисперсии слагаемых и критерий, основанный на распределении Стьюдента, является одним из самых распространенных, так как с его помощью решается задача о средних значениях эмпирических результатов.
Практическая задача для одной выборки из n наблюдений решается следующим образом:
1. По таблице распределения Стьюдента в строке, соответствующей (n1), и в столбце, «уровень значимости одностороннего критерия 0.05» находим число t0.05. 
2. По данной выборке вычисляем t=x¯S2n. 
3. Сравниваем t и t0.05. . Если t>t0.05, , то есть попадает правее, то на уровне значимости 0.05 отвергаем гипотезу о равенстве нулю математического ожидания наблюдаемой случайной величины.
С помощью критерия Стьюдента можно сравнивать две независимых выборки разного размера для одной и той же нормальной случайной величины. Пусть имеем (x1,...,xn) и (y1,...,yn). Тогда формула для расчетов выглядит следующим образом: t=x¯y¯Sx2Sy2(n+m2)nmn+m и число степеней свободы ν=(n+m2). 

Важно: ограничением для применения t -критерия Стьюдента является несоответствие эмпирического распределения нормальному.

Приведем пример использования распределения Стьюдента при построении доверительного интервала для математического ожидания некоторой нормально распределенной случайной величины заданной выборочными значениями (x1,...,xn) 
Пусть реальное математическое ожидание для этой случайной величины равно a Тогда (|x¯a)ns, где s=Sx2=1n1i(xix¯)2 имеет распределение Стьюдента с n степенями свободы.
Следовательно, для этой случайной величины справедлива оценка
p(tβ(n1)<(x¯a)ns<tβ(n1)=1β. 
Это неравенство можно записать в преобразованном виде
p(x¯stβ(n1)n<a<x¯+stβ(n1)n)=1β. 
Таким образом, величина ε=stβ(n1)n будет представлять радиус доверительного интервала.

Однако на практике иногда встречается неправильное применение критерия Стьюдента.

Пример 45. Студент-дипломник занимался развитием памяти детей подготовительной группы в детском саду в течение года. Он замерил показатели памяти у детей, с которыми проводил занятие, до и после развивающей программы. Затем применил t-критерий Стьюдента для зависимых групп и доказал, что показатели объема памяти достоверно увеличились. Однако, на защите дипломной работы рецензент указал, что эффективность программы нельзя считать доказанной, так как память могла улучшиться естественным образом, поскольку дети за год выросли. В чем ошибка студента?

Ответ: ошибка студента в том, что он, набрав некую выборку, до начала исследования (воздействия) должен был разделить (случайным способом) её на контрольную и экспериментальную. Учитывая, что начальные показатели объемов памяти у детей были одинаковыми, надо было по окончании эксперимента сравнить показатели объемов памяти между контрольной и экспериментальной группами с помощью t-критерий Стьюдента для независимых выборок. Если бы показатели объема памяти экспериментальной группы достоверно увеличились по отношению к контрольной, то только тогда эффективность программы можно было считать доказанной.

Критерий согласия (хи-квадрат)

Если (ξ1,...,ξn) независимые стандартные случайные величины N(0,1) 
то распределением χ2 с n степенями свободы называется случайная величина
χn2=ξ12+...+ξn2. 
Она принимает только положительные значения и
Mχn2=n,Dχn2=2n. 

Это распределение тесно связано с распределением Стьюдента. Если дополнительно имеется стандартная N(0,1) величина ξ0, то распределение случайной величины tn=ξ0nξn2 и называется распределением Стьюдента с n степенями свободы.

Когда речь шла об уточнении одного параметра, мы использовали t -критерий Стьюдента. Теперь рассмотрим другую ситуацию, когда требуется проверить гипотезу о равенстве определенным значениям нескольких вероятностей, то есть закон распределения в целом. Такие критерии называют критериями согласия. Наиболее часто применяют критерий согласия связанный с распределением χ2. 

Критерий хи-квадрат используется в двух вариантах:

  • Как расчет согласия эмпирического распределения и предполагаемого теоретического. Нулевой гипотезой в этом случае служит гипотеза об отсутствии различий.
  • Как расчет однородности двух независимых экспериментальных выборок. Тогда проверяется нулевая гипотеза об отсутствии различий между двумя эмпирическими распределениями.

Критерий построен так, что при полном совпадении распределений χ2=0. 
Чем больше расхождение между двумя сопоставляемыми распределениями, тем больше эмпирическое значение χ2. 


Приведем пример использования критерия «хи-квадрат».
Пусть в результате некоторого испытания может произойти одно изk событий A1,A2,...,Ak. Нулевая гипотеза имеет следующий вид:
p(A1)=p1,...,p(Ak)=pk. 
где p1,...,pk - некоторые положительные числа, в сумме дающие 1. Альтернативной гипотезой является невыполнение хотя бы одного из этих равенств. Исходными данными для проверки нулевой гипотезы являются результаты n независимых испытаний. Пусть в результате них событие
A1 произошло m1 раз,
A2 произошло m2 раз,
……
Ak произошло mk раз.
Очевидно, что m1+...+mk=n 

Величина (m1np1)2np1+(m2np2)2np2+...+(mknpk)2npk 


имеет распределение близкое к χ2 при достаточно больших n. . Таким образом, для проверки гипотезы надо вычислить величину
χ2=i=1k(minpi)2npi. 
Далее проверка гипотезы осуществляется уже обычным образом. Число степеней свободы на единицу меньше, чем количество возможных исходов ν=k1. . Затем выбираем уровень значимости (например, α=0.05 либо α=0.01 ). После чего находим критические значения по таблицам для распределения χ2 и строим ось значимости, чтобы принять или отвергнуть нулевую гипотезу.

Следующий пример на применение критерия «хи-квадрат» для расчета согласия эмпирического распределения и предполагаемого теоретического. Нулевой гипотезой в этом случае служит гипотеза об отсутствии различий.
χ2=i=1k(femft)2ft, 
где k - количество разрядов признака,
fem - эмпирическая частота,
ft - теоретическая частота.

Пример 46. Психолог решает задачу : будет ли удовлетворенность работой на данном предприятии распределена равномерно. Для этого произведен опрос по следующим параметрам :
1 – работой вполне доволен;
2 – скорее доволен, чем недоволен;
3 – трудно сказать, не знаю;
4 – скорее недоволен, чем доволен;
5 – совершенно недоволен.

Всего опрошено 65 человек. Полученные ответы представлены в таблице во втором столбце (эмпирические частоты). В третьем столбце представлены теоретические частоты, при этом психолог исходил из того, что распределение должно быть равномерным. То есть частоты должны бать равны между собой и равняться 655=13 каждая. В следующих столбцах приведены необходимые расчеты.

Ассоциативная связь

В нашем случае количество разрядов признака k=5, число степеней свободы ν=51=4. По таблице для критерия "хи-квадрат" находим χkr2=9.488 для p0.05, 

χkr2=13.277 для p0.01. 

Строим ось значимости

Ассоциативная связь

Величина χ2 попала в зону неопределенности. Можно считать, что полученные различия значимы на уровне 5%, и принять гипотезу H1 о различии теоретического и экспериментального распределений. То есть, психолог может предположить, что на уровне значимости 5% выбор альтернатив респондентами не равновероятен. Однако при уровне значимости 1% этот вывод уже нельзя подтвердить эмпирическими данными.

Таблица1. Доверительные границы для распределения Стьюдента

Ассоциативная связь

Таблица 2. Доверительные границы для критерия χ2 


Ассоциативная связь