Задачи математической статистики.

Для того, чтобы установить закономерности, которым подчинены массовые случайные явления, результаты наблюдений в виде статистических данных изучают методами теории вероятностей
Задачи математической статистики:

  • указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.
  • разработать методы анализа статистических данных в зависимости от целей исследования.

К методам анализа относятся:

  • оценка неизвестной вероятности события; оценка неизвестной функции распределения;
  • оценка параметров распределения, вид которого известен;
  • оценка зависимости случайной величины от одной или нескольких случайных величин
  • проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения, вид которого известен.

Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирование эксперимента), в ходе исследования (последовательный анализ) и решает многие другие задачи. Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности.

Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов. Приведем общепринятую схему послдеовательности действий при применении статистических методов:

Ассоциативная связь

Данные наблюдений и их виды. Выборка.

Определение 32. Генеральной совокупностью называют множество всех мысленно возможных объектов, для которых в заданных условиях изучают один или несколько признаков или свойств. Элементы генеральной совокупности должны обладать некоторым общим свойством, качеством, типичностью или характеристикой.

Например, можно рассматривать генеральную совокупность всех школьников города Новосибирска. Если генеральная совокупность состоит из N элементов, то это число называется ее объемом. Будем предполагать, что признак или свойство, которое мы регистрируем в генеральной совокупности, представляет собой некоторую дискретную или непрерывную случайную величину.

Генеральная совокупность обычно содержит очень большое число объектов, тогда провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению.


Определение 33. Выборочной совокупностью (выборкой) называют часть отобранных объектов из генеральной совокупности.

Выборка должна правильно без искажений представлять всю генеральную совокупность, то есть быть как бы ее уменьшенной копией. Кроме того выборка должна быть однородной и репрезентативной (наиболее полно и с той же пропорцией представлять все свойства генеральной совокупности).

Простейший вариант выборки – измерение некоторых числовых характеристик. Выборкой объема n называют набор n независимых наблюдений какой-то случайной величины. Одно наблюдение называют элементом выборки или выборочным значением.

Принципы составления репрезентативной выборки:

  • Каждая единица генеральной совокупности должна иметь равную вероятность попадания в выборку.
  • Выборка переменных производится независимо от изучаемого признака.
  • Число единиц в выборке должно быть достаточно большим.
  • Выборка и генеральная совокупность должны быть статистически однородны

Выборки называются независимыми (несвязными) если процедура эксперимента и полученные результаты измерения у испытуемых одной выборки не оказывают влияния на особенности протекания этого же эксперимента и результаты измерения этого же свойства у испытуемых другой выборки. Одна и та же группа испытуемых, на которой исследование проводится второй раз, всегда будет зависимой.

Психологические переменные обычно не имеют собственных измерительных единиц, поэтому их значения определят с помощью специальных измерительных шкал. Однако, фактически, для всех шкал устанавливаются некоторые числовые значения. Для примера рассмотрим результаты какого-либо тестирования (в баллах), или число опознанных изображений. Близко к этому расположены данные оценки близости в ранговых шкалах «максимально похожи – максимально различны», или дихотомическая шкала «есть – нет».

К основным приемам, позволяющим получить достаточную для исследователя репрезентативность выборки, относятся:

  • Простой случайный отбор.
  • Систематический отбор.
  • Стратифицированный случайный отбор.

Простой случайный отбор. При простом случайном отборе каждая единица должна иметь равную возможность быть извлеченной из совокупности в каждом выборе, причем каждый выбор должен производиться независимо от всех других.

Систематический отбор. Выбор каждого n -го элемента из полного списка (основы выборки) — простой способ получения случайной выборки в том случае, когда последовательность элементов в списке является чисто случайной по отношению к изучаемому признаку. В противоположность этому, способ отбора, когда список элементов упорядочен относительно интересующего исследователей признака, обеспечивает репрезентативность выборки в отношении этой характеристики. Кроме того, он производит эффект стратификации (расслоения), который дает повышение точности оценок при том же объеме выборки.

Стратифицированный случайный отбор. Стратификация (расслоение, районирование) требует разбиения основы выборки на две или более части, исходя из некоторой характеристики, которая, будучи неадекватно представленной в выборке, могла бы привести к систематической ошибке в наших выводах.
Стратифицированный отбор требует, чтобы в дополнение к правильному перечню основы выборки исследователь располагал точной информацией о распределении единиц по стратам и о том, какую долю занимает каждая страта в полной совокупности. Если для извлечения единиц внутри страты применяется методика систематического отбора, проблема установления правильных пропорций страт в изучаемой совокупности снимается, так как в этом случае, благодаря выбору каждой n -ой единицы, страты будут представлены корректно.

Систематические и случайные ошибки статистического наблюдения.

При получении практической информации выборочным методом могут возникать ошибки различного рода. Причинами могут быть неточность данных, полученных исследователем, неправильная фиксация получаемых сведений или неправильное измерение переменных, характеризующих единицы наблюдения, и т. д. Эти ошибки, называемые иногда ошибками регистрации, могут быть разделены на два типа: случайные и систематические.

Определение 34. Систематической ошибкой регистрации называется ошибка, выра¬жающая некоторые существенные связи, возникающие в процессе регистрации между объектом, субъектом и условиями проведения наблюдения.

Систематическая ошибка может быть значительной по своей величине из-за одностороннего искажения (в сторону увеличения или уменьшения) исследуемой характеристики. Происходящее вследствие этого накопление ошибки по исследуемой совокупности в целом может зачеркнуть результаты всего исследования.
Систематическая ошибка регистрации может возникнуть при любом типе статистического наблюдения, в той числе и при проведении выборочного или сплошного обследования.

Пример 35. Характерным примером систематической ошибки являются данные о женатых мужчинах и замужних женщинах в переписи населения. По результатам переписи в целом часто оказывается, что число женатых мужчин значимо меньше числа замужних женщин. Эта систематическая ошибка образуется из-за погрешностей в ответах, возникающих от различной оценки своего семейного положения мужчинами и женщинами.

Случайные ошибки регистрации отражают менее существенные связи между объектом, субъектом и условиями регистрации и складываются из различных статистических погрешностей в процессе наблюдения.
Погрешности, имея различную направленность в отдельных единицах наблюдения, проявляют тенденцию к взаимному погашению при обобщении результатов регистрации по всей исследуемой совокупности. Таким образом, в отличие от систематической случайная ошибка вызывается при наблюдении причинами, носящими вероятностный характер.

Кроме того, в выборочном исследовании могут появиться ошибки, возникающие при различных отклонениях от планируемой выборки. Можно выделить два наиболее типичных вида отклонения от плана выборки.

  • Замена намеченных при планировании выборки единиц наблюдения другими, более доступными, которые, однако, оказываются неполноценными с точки зрения выработанного плана выборки.
  • Неполный охват выборочной совокупности, т. е. неполучение информации от части единиц наблюдения, включенных в выборку (например, недополучение анкет, не полностью заполненные анкеты).

Эти ошибки устанавливаются путем сравнения реально сформированной выборки с ее планом. Ошибки подобного рода «снимаются» так называемой процедурой «корректировки» выборки, т. е. путем специального пересчета значений изучаемого признака с учетом того, какая именно часть выборочной совокупности выпала из обследования.

Пример 36. Исследуя профессиональную ориентацию школьников в пределах одного города, можно в одну страту отнести 16 школ расположенных в районе старых застроек, во вторую - 20 школ, расположенных в районах новостроек. Для опроса можно выбрать выпускников из двух школ первой страты, а также из двух школ второй страты. Если такая группировка школ действительно отражает различия районов, которые существенно учитывать при исследовании профессиональной структуры, то, изменяемость изучаемых признаков внутри каждой группы школ должна быть меньше, чем между группами.

Дискретный вариационный ряд.

Обычно полученные наблюдаемые данные представляют собой множество расположенных в беспорядке чисел. Просматривая это множество чисел, трудно выявить какую-либо закономерность их варьирования (изменения). Для изучения закономерностей варьирования значений случайной величины опытные данные подвергают обработке.

Первый этап обработки выборки – составление вариационного ряда. Операция, заключающаяся в том, что результаты наблюдений над случайной величиной, т. е. наблюдаемые значения случайной величины, располагают в порядке неубывания, называется ранжированием опытных данных. После проведения операции ранжирования опытные данные группируют так, что в каждой отдельной группе значения случайной величины будут одинаковы. Расположив данные в порядке неубывания, и сгруппировав их, получают дискретный вариационный ряд данных наблюдения α1,α2,...,αn. 

Следующий этап обработки выборки - составление дискретной таблицы частот вариационного ряда.

Ассоциативная связь

k1 частота α1 , k2 частота α2 и так далее, причем k1+...+km=n. Величины ni=kin называются относительными частотами (частостью, долей варианта). Графической иллюстрацией является столбиковая диаграмма.

Ассоциативная связь

Пример 37. Поставим задачу: выявить картину успеваемости студентов, сдавших экзамен по курсу «Общая психология». Курс прослушало 56 человек. Полученные студентами оценки представляют собой (в порядке алфавитного списка) следующий набор чисел
3, 4, 5, 4, 3, 3, 5, 4, 3, 5, 5, 2, 3, 5, 3, 5, 3, 5, 4, 4, 3, 3, 4, 3, 4, 3, 3, 5,
3, 3, 4, 3, 4, 3, 5, 3, 4, 4, 3, 5, 3, 3, 5, 4, 2, 5, 3, 4, 2, 3, 5, 4, 3, 5, 3, 5.
Это и есть исходные данные, или выборка. Числа, составляющие выборку, представляют собой реализации случайной величины – оценки на экзамене.
Составим вариационный ряд: 2, 3, 4, 5 , и подсчитаем, сколько раз встретилась каждая из оценок. Таблица частот выглядит так

Ассоциативная связь

Столбиковая диаграмма

Ассоциативная связь

По данным дискретного вариационного ряда также строят полигон частот или относительных частот: ломаную, отрезки которой соединяют точки (αi,ki) или

(αi,ni). 

Ассоциативная связь

Если объем выборки большой, то переходят к так называемым группированным данным и получают интервальный вариационный ряд.

Группировка может быть достаточно произвольной, но есть некоторые требования, которые должны быть выполнены при ее проведении.

Определяем размах выборки T=αmaxαmin. Весь промежуток изменений значений выборки, от минимального до максимального, разбивают на интервалы. Если число интервалов заранее не было определено, то рекомендуют использовать формулу Стерджеса:
r=[log2n]+1, 
где квадратными скобками обозначена целая часть. Очевидно, что вместо вычисления r можно использовать таблицу

Ассоциативная связь

Определяем нижнюю границу группировки μ1. Это может быть либо , либо 0, либо αminε, где ε некоторое маленькое число. Основной принцип группировки: границы крайних интервалов не должны совпадать с выборочными значениями.

Затем строим остальные границы по формулам μ2=μ1+Tr и так далее, вплоть до последней границы μr=αmax+ε. 
Если некоторые из построенных границ попадают на выборочные значения, то границы рекомендуют сдвигать (на ε ) влево или вправо до тех пор, пока это не будет устранено.
Вычисляем количество элементов выборки, попавшее в каждую группу, то есть частоту. Второй основной принцип группировки: для всех групп 3ni19. Если хотя бы в одной из групп это условие не выполнено, то можно передвинуть границы интервалов или объединить слишком «пустые» группы, или разбить «слишком наполненные» на более мелкие интервалы. Интервалы не обязаны быть одинаковой длинны, и их число может измениться.

Следующий шаг – вычисление относительных частот.
В результате получим интервальную таблицу частот.

Ассоциативная связь

Столбиковая диаграмма, в которой каждый столбец опирается на конкретное значение признака или разрядный интервал, называется гистограммой.

Ассоциативная связь

Гистограмма это ступенчатая линия, основанием каждой ступеньки служит интервал [μi,μi+1], а площадь этой ступеньки равна ni, она служит графической иллюстрацией интервальной таблицы.