Warning: session_start(): open(C:\Windows\temp\sess_e452k1ksod8c425kcefu3ls8c4, O_RDWR) failed: No space left on device (28) in C:\www\lemma4.1php\login.php on line 15 Warning: session_commit(): open(C:\Windows\temp\sess_e452k1ksod8c425kcefu3ls8c4, O_RDWR) failed: No space left on device (28) in C:\www\lemma4.1php\login.php on line 36 Warning: session_commit(): Failed to write session data (files). Please verify that the current setting of session.save_path is correct (C:\Windows\temp) in C:\www\lemma4.1php\login.php on line 36 Математика для Психологов

Точечные оценки параметров распределения

Любая функция от результатов наблюдений x1,x2,...,xn исследуемой случайной величины X называется статистикой (статистической оценкой).

Например, обозначим через Q неизвестный параметр распределения случайной величины. Тогда статистика Qn, используемая как приближенное значение неизвестного параметра Q, называется точечной статистической оценкой этого параметра. Так, например, по значениям x1,x2,...,xn можно вычислить их среднее арифметическое, дисперсию и так далее – все эти числа могут рассматриваться как точечные оценки соответствующих параметров неизвестной случайной величины .

Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям: оценка должна быть несмещенной, эффективной и состоятельной.

Определение 35. Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т. е. M(Q*)=Q. Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.


Определение 36. Эффективной называют статистическую оценку, которая (при заданном объеме выборки) имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема (n велико!) к статистическим оценкам предъявляется требование состоятельности.

Определение 37. Состоятельной называют статистическую оценку, которая при n стремится по вероятности к оцениваемому параметру.

Например, если дисперсия несмещенной оценки при стремится к нулю, то такая оценка оказывается и состоятельной.

Рассмотрим точечные оценки параметров распределения, то есть оценки, которые определяются одним числом Q*=f(x1,...,xn), где - (x1,...,xn) выборка из генеральной совокупности X К характеристикам распределения, описывающим количественно его структуру и строение, относятся:

  • характеристики положения;
  • рассеивания;
  • асимметрии и эксцесса.

Характеристики положения

К характеристикам положения относятся следующие оценки, называемые оценками центральной тенденции: мода Мо, медиана Ме, среднее арифметическое или выборочное среднее и квантили.

Мода
Большое значение имеет такая величина признака, которая встречается чаще всего в изучаемом ряду, в совокупности. Такая величина называется модой (Мо). В дискретном ряду Мо определяется без вычисления, как значение признака с наибольшей частотой.

Например, пусть дан вариационный ряд: 9, 10, 13, 13, 13, 13, 15, 18, 20, 25. Тогда его мода Мо = 13.

При расчете моды может возникнуть несколько ситуаций:
1. Два значения признака, стоящие рядом, встречаются одинаково часто. В этом случае мода равна среднему арифметическому этих двух значений. Например, в следующем ряду данных:
12, 13, 14, 14, 14, 16, 16, 16, 18, 19
Мо = (14+16)/2= 15.
2. Два значения, встречаются также одинаково часто, но не стоят рядом. В этом случае говорят, что ряд данных имеет две моды, т.е. он бимодальный.
3. Если все значения данных встречаются одинаково часто, то говорят, что ряд не имеет моды.
Чаще всего встречаются ряды данных с одним модальным значением признака. Если в ряду данных встречается два или более равных значений признака, то говорят о неоднородности совокупности.

Медиана.
Вторая числовая характеристика ряда данных называется медианой (Ме) – это такое
значение признака, которое делит ряд пополам. Иначе, медиана обладает тем свойством, что половина всех выборочных значений признака меньше её, половина больше. При нечетном числе элементов в ряду данных, медиана равна центральному члену ряда, а при четном среднему арифметическому двух центральных значений ряда.

В нашем примере 9, 10, 13, 13, 13, 13, 15, 18, 20, 25 получаем Ме=(13+13)/2=13. Вычисление медианы имеет смысл только для порядкового признака.

Среднее арифметическое значение признака.

Пусть имеется случайная величина X значения (реализации) которой x1,x2,...,xn каким-либо образом нам стали известны. Другими словами, для изучения генеральной совокупности относительно количественного признака X извлечена выборка x1,x2,...,xn объема n . Выборочной средней называют среднее арифметическое значение признака выборочной совокупности.

Если все значения признака выборки различны, то выборочное среднее

xn¯=x1+...+xnn. 

Для выборок с повторяющимися значениями xn¯=1nixini называют средней арифметической взвешенной. Выборочное среднее можно записать и так:
xn¯=ixiki, 
где ki=nin соответствующие частости. Для обозначения выборочного среднего также используют символы: x¯,M*(X),mx* .

Если выборка представлена интервальным вариационным рядом, то за принимают середины частичных интервалов, а – соответствующие им частоты.

Были определены операции над случайными величинами, а именно, сумма случайных величин и умножение случайной величины на константу. Каждое из значений xi является случайной величиной, имеющей одинаковое распределение с неизвестной X . Рассмотрим выборочную среднюю x¯n как функцию, составленную из одинаковых случайных величин, то есть имеющих одинаковое распределение с X :

x¯n=x1+x2+...+xnn. 

Это новая случайная величина. Вычислим ее математическое ожидание

M(x¯n)=M(1n(x1+x2+...+xn))=1n(Mx1+Mx2+...+Mxn)=MX. 

Таким образом, мы показали, что выборочное среднее xn¯ является несмещенной оценкой математического ожидания MX .

Рассмотрим дисперсию случайной величины x¯n , представляющей из себя выборочное среднее, как функцию, составленную из одинаковых случайных величин, то есть имеющих одинаковое распределение с X :
D(x¯n)=D(1n(x1+...+xn))=1n2(Dx1+Dx2+...+Dxn)=DXn. 

Очевидно, что с ростом n получаем Dx¯n0. .

Следовательно, выборочное среднее является состоятельной оценкой MX .

Квантиль – это такое значение признака, которое делит распределение в заданной пропорции: слева 0,5%, справа 99,5%; слева 2,5%, справа 97,5% и т.п. Обычно выделяют следующие разновидности квантилей:
1) Квартили Q1,Q2,Q3 – они делят распределение на четыре части по 25% в каждой;
2) Квинтили K1,K2,K3,K4 – они делят распределение на пять частей по 20% в каждой;
3) Децили D1,...,D9, , их девять, и они делят распределение на десять частей по 10% в каждой;
4) Процентили P1,P2,...,P99, , их девяносто девять, и они делят распределение на сто частей по 1% в каждой части.

Поскольку процентиль – наиболее мелкое деление, то все другие квантили могут быть представлены через процентили. Так, первый квартиль – это двадцать пятый процентиль, первый квинтиль – второй дециль или двадцатый процентиль, и т.п.

Характеристики рассеивания

Используя для описания ряда значений признака, только меру центральной тенденции, можно сильно ошибиться в оценке характера изучаемой совокупности.

Пример 39. Допустим, мы изучаем средний возраст в двух группах, состоящих каждая из 6-ти человек. Значения признака распределились следующим образом:
1 группа – 10, 10, 10, 50, 50, 50
2 группа – 30, 30, 30, 30, 30, 30
Подсчитав среднее значение в каждой из групп, получим, что они равны, тогда как совершенно очевидно, что выборки взяты из разных совокупностей. Ошибка произошла из-за разброса значений возраста в этих группах.

Существует несколько способов оценки степени разброса или рассеивания данных. Основными характеристиками рассеивания являются: размах R, выборочная дисперсия s2(n), среднеквадратическое (стандартное) отклонение s(n), коэффициент вариации V. 

Размах
Простейший из параметров распределения, размах – это разность между максимальным и минимальным значениями признака: R=xmaxxmin. 

Выборочная дисперсия
Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения. Если все значения признака выборки различны, то
s2(n)=1ni=1n(xix¯n)2. 

Для выборок с кратными значениями определяют дисперсию взвешенную

s2(n)=1ni=1n(xix¯n)2ni. 

Можно показать, что дисперсия может быть подсчитана также по формуле

s2(n)=1ni=1nxi2ni(x¯n)2. 

Для характеристики рассеивания значений признака выборки вокруг своего среднего значения пользуются сводной характеристикой - средним квадратическим отклонением. Выборочным средним квадратическим отклоненим называют квадратный корень из выборочной дисперсии s(n). 

Если подсчитать математическое ожидание s2(n), то нетрудно получить соотношение M(s2(n))=(11n)DX, из которого следует, что выборочная дисперсия является смещенной оценкой для DX. 

Поэтому в практических расчетах используют так называемую «исправленную» выборочную дисперсию, удовлетворяющую формуле
s2(n)=1(n1)i=1n(xix¯n)2. 

Такая оценка дисперсии является несмещенной и состоятельной.

Замечание: формулы для вычисления выборочной дисперсии и исправленной дисперсии отличаются только знаменателями. При достаточно больших n выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если n<30. 

Дисперсия показывает разброс значений признака относительно своего среднего арифметического значения, то есть насколько плотно значения признака группируются вокруг ; чем больше разброс, тем сильнее варьируются результаты испытуемых в данной группе, тем больше индивидуальные различия между испытуемыми.

Коэффициент вариации
Выборочная дисперсия и стандартное отклонение выражаются в единицах измерения рассматриваемого признака и непригодны для сравнения степеней рассеяния двух выборок различной природы. Для сравнения таких степеней рассеяния используется коэффициент вариации. Коэффициент вариации вообще не имеет размерности, что позволяет сравнивать вариативность случайных величин, имеющих различную природу:

V=s(n)x¯n100%. 

Выборочные коэффициенты асимметрии и эксцесса

Для подсчета асимметрии выборки существует несколько типов коэффициентов. Наиболее точным из них является выборочный коэффициент асимметрииA(n), подсчитываемый по формуле

A(n)=1ns3(n)i=1n(xix¯n)3. 

Асимметрия характеризует степень асимметричности распределения. Коэффициент
асимметрии изменяется от минус до плюс бесконечности<A(n)<. для симметричных распределений A(n)=0. 
Показатель асимметрии может быть использован для содержательной интерпретации полученных данных. Если наблюдаемый признак формируется под воздействием большого числа факторов, каждый из которых вносит свой небольшой вклад в величину этого признака, то мы вправе ожидать симметричного распределения. Однако, если получена значительная величина асимметрии (большая по абсолютной величине, чем 0.4 - 0,5), можно предположить, что присутствует значительное влияние одного или группы факторов.

Для одновершинного распределения используют еще одну характеристику это выборочный коэффициент эксцесса E(n). Эксцесс характеризует островершинность распределения. Мера эксцесса указывает на степень концентрации наблюдений около выборочного среднего значения x¯n. Так, величина эксцесса для нормальной (гауссовой) кривой распределения равна 3. Исходя из целого ряда соображений, заостренность этой кривой принимают за стандарт, поэтому в качестве показателя эксцесса используют величину Ex3. Собственно сам эксцесс может быть вычислен по формуле:

E(n)=Ex3=1ns4(n)i=1n(xix¯n)43. 

Коэффициент эксцесса также изменяется от минус до плюс бесконечности <E(n)<, и E(n)=0 для нормального распределения .

Пример 40. Порядок расчета характеристик выборки.

Порядок расчета характеристик выборки

Степени свободы

Число степеней свободы это число свободно изменяемых единиц в составе выборки. Так, если выборка состоит из n элементов и характеризуется средней x¯n, то любой элемент этой совокупности может быть получен как разность между величиной nx¯n и суммой всех остальных элементов, кроме самого этого элемента.

Например, рассмотрим вырезанный из картона треугольник. Его положение в пространстве целиком определено заданием координат трех его вершин(x1,y1,z1),(x2,y2,z2),(x3,y3,z3). Но, если задана одна вершина, то вторая не может удалиться от нее более чем на длину соединяющей их стороны. Тогда, для задания второй вершины достаточно уже двух координат. Для третьей вершины, после того, как заданы две первых, уже достаточно задать одну координату.
Таким образом, положение треугольника в пространстве может быть задано шестью координатами, или он имеет шесть степеней свободы.
Число степеней свободы системы равно числу степеней свободы ее элементов минус число наложенных связей.

Пример из психологии принадлежит Н.А.Бернштейну. Предположим, что надо прикоснуться кончиком пальца к дверному звонку. Тогда положение руки, обеспечивающей этот акт, имеет, по крайней мере, семь степеней свободы. Действительно, считаем положение плечевого сустава фиксированным, каждый из остальных пяти суставов добавляет две степени свободы минус три степени, заданные соотношением «кончик указательного пальца находится на звонке».

Рассмотрим случай оценки дисперсии. Известное свойство дисперсии:
s2(x1+x2)=s2(x1+C,x2+C). 
В силу этого свойства (связи) сумма

s2(x)=1n1((x1x¯)2+...+(xnx¯)2) 

имеет при независимых n координатах n1 степеней свободы.
Если в формулу выборочной оценки дисперсии поставить известное реальное математическое ожидание случайной величины X, равное a, то сумма

будет иметь n степеней свободы.