MedBookAide - путеводитель в мире медицинской литературы
Разделы сайта
Поиск
Контакты
Консультации

Аткинсон Р. и др. - Введение в психологию

117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
<<< Назад Содержание Дальше >>>

Мода — это самый часто встречающийся показатель в данной выборке. Самая частая величина в табл. П1 — это 75, следовательно, мода этого распределения равна 75.

При нормальном распределении, когда величины распределены поровну с каждой стороны от середины (как на рис. П1), среднее, медиана и мода одинаковы. Это не так для скошенных, или несимметричных, распределений. Предположим, нам надо проанализировать времена отправления утреннего поезда. Обычно поезд отправляется вовремя; случается, он отправляется позже, но он никогда не уходит раньше времени. У поезда с отправлением по расписанию в 08:00 время отправления в течение недели может оказаться таким:

Пн: 08:00 Вт: 08:04 Ср: 08:02 Чт: 08:19 Пт: 08:22 Сб: 08:00 Вс: 08:00 Это распределение времен отправления является скошенным из-за двух запоздавших отправлений; они увеличивают среднее время отправления, но не сильно влияют на медиану и моду.

Важно понять смысл скошенного распределения, поскольку иначе разницу между медианой и средним иногда трудно уловить (рис. П2). Если, например, руководство фирмы и ее профсоюз спорят из-за благосостояния работников, средняя величина расходов на зарплату и их медиана могут сдвинуться в противоположных направлениях. Предположим, фирма поднимает зарплату большинству сотрудников, но урезает зарплату высшим управленцам, которые были слишком высоко на шкале оплаты; тогда медиана зарплаты может подняться вверх, тогда как средняя величина зарплаты снизится. Сторона, стремящаяся показать, что зарплата возросла, выберет в качестве индикатора медиану, а сторона, стремящаяся показать снижение зарплаты, выберет среднее.

Рис. П2. Кривая скошенного распределения. Заметьте, что скос распределения имеет то направление, в котором спадает его хвост. Заметьте также, что у скошенного распределения среднее, медиана и мода не совпадают; медиана обычно находится между модой и средним.

Меры вариации

Как правило, о распределении нужно знать больше, чем могут показать меры среднего. Нужна, например, мера, которая может сказать, расположен ли пучок величин близко к их среднему или широко разбросан. Мера разброса величин относительно среднего называется мерой вариации.

Показатель вариации полезен как минимум в двух отношениях. Во-первых, он показывает репрезентативность среднего. Если вариация невелика, то известно, что отдельные величины будут близки к среднему. Если вариация большая, то такое среднее нельзя с большой уверенностью использовать в качестве репрезентативной величины. Предположим, что шьется партия готовой одежды без снятия конкретных мерок. Для этого полезно знать средний размер этой группы людей, но также важно знать и разброс их размеров. Зная вариацию, можно сказать, насколько должны варьироваться изготовляемые размеры.

Для иллюстрации посмотрим на данные рис. П3, где приведены частотные распределения показателей вступительных экзаменов для двух классов из 30 учащихся. В обоих классах средний показатель один и тот же — 75, но они очевидно различаются по степени вариации. Показатели всех учащихся из класса А расположены близко к среднему, тогда как показатели учащихся из класса Б разбросаны в широком диапазоне. Нужны какие-то меры, чтобы точнее определить, чем различаются эти распределения. Психологи часто используют три меры вариации: размах, дисперсия и стандартное отклонение.

Рис. П3. Пример разной вариации распределений. Как легко видеть, пучок показателей у класса А ближе к среднему, чем показатели класса Б, хотя само среднее в обоих классах идентично — 75. У класса А все показатели попадают между 60 и 89, причем большинство из них приходится на интервал от 70 до 79. У класса Б показатели распределены относительно равномерно по всему диапазону от 40 до 109. Это различие между двумя распределениями в разбросе можно оценить по показателю стандартного отклонения, которое у класса А меньше, чем у класса Б.

Чтобы упростить арифметические вычисления, предположим, что пять учащихся из каждого класса захотели поступить в колледж и что их суммарные оценки на вступительных экзаменах были такие:

Показатели учащихся из класса А:

73, 74, 75, 76, 77 (среднее = 75) Показатели учащихся из класса Б:

60, 65, 75, 85, 90 (среднее = 75) Теперь подсчитаем для этих двух выборок меры вариации.

Размах — это разброс между наивысшей и наинизшей величиной. Размах показателей у пяти учащихся из класса А равен 4 (от 73 до 77); размах показателей учащихся класса Б равен 30 (от 60 до 90).

Размах легче подсчитать, но дисперсия и стандартное отклонение используются чаще. Это более чувствительные меры вариации, поскольку они учитывают все величины, а не только крайние величины, как размах. Дисперсия показывает, насколько составляющие распределение величины отстоят от средней величины этого распределения. Чтобы вычислить дисперсию, сначала подсчитаем отклонения каждой величины (d) от среднего, вычтя из среднего каждую величину (табл. П3). Затем надо каждую разницу возвести в квадрат, чтобы не было отрицательных чисел. Наконец, эти отклонения складываются вместе и делятся на общее количество отклонений, давая в результате средний квадрат отклонения. Средний квадрат отклонения называется дисперсией. Проделав это с данными из рис. П3, мы обнаружим, что дисперсия у класса А равна 2,0, а у класса Б — 130. Очевидно, что у класса Б вариативность показателей значительно сильнее.

Таблица П3. Вычисление дисперсии и стандартного отклонения Оценки Класса А (Среднее = 75)

 

d2 

77-75 

76-75 

75-75 

74-75 

-1 

73-75 

-2 

Сумма d2 = 10 Дисперсия = среднее по d2 = 10 / 5 = 2,0 Стандартное отклонение (?) = = 1,4 Оценки Класса Б (Среднее = 75)

 

d2 

90-75 

15 

225 

85-75 

10 

100 

75-75 

65-75 

-10 

100 

60-75 

-15 

225 

Сумма d2 = 650 Дисперсия = среднее по d2 = 650 / 5 = 130 Стандартное отклонение (?) = = 11,4 Неудобство дисперсии состоит в том, что она выражена в единицах измерения, возведенных в квадрат. Поэтому величина дисперсии, равная 2 у класса А, не означает, что его усредненные показатели отличаются от среднего на 2 пункта. Она показывает, что 2 — это результат усреднения возведенных в квадрат значений, на которые показатели отличаются от среднего. Чтобы получить меру отклонения, выраженную в первоначальных единицах измерения (в данном случае это количество единиц, набранных на экзамене), надо просто извлечь из дисперсии квадратный корень. Результат называют стандартным отклонением. Оно обозначается греческой буквой ? (сигма), используемой также в некоторых других статистических вычислениях, которые мы обсудим вкратце. Стандартное отклонение вычисляется по следующей формуле:

Пример вычисления стандартного отклонения. (табл. П3). Показатели выборок из двух классов представлены в виде, удобном для вычисления стандартного отклонения. На первом этапе вычитаем среднее из каждого показателя (среднее = 75 в обоих классах). В результате получаем положительные величины d для показателей, которые больше среднего, и отрицательные для тех, которые меньше его. Когда полученные величины будут возведены в квадрат, знак минус пропадет (следующая колонка в табл. П3). Возведенные в квадрат разности складываются и делятся на N — количество элементов выборки, в нашем случае N = 5. Извлекая квадратный корень, получаем стандартное отклонение. [В этом ознакомительном изложении мы везде будем использовать ? (сигма). Однако в научной литературе для обозначения стандартного отклонения выборки используется маленькая буква s, а через а обозначают стандартное отклонение для всей группы. Кроме того, при вычислении стандартного отклонения для выборки (s) сумма всех d2 делится не на N, а на N-1. В случае достаточно больших выборок, однако, использование N-1 вместо N мало влияет на величину стандартного отклонения. Для упрощения объяснений мы не будем различать здесь стандартное отклонение выборки и группы и используем для них одну и ту же формулу. Обсуждение этого момента см. в: Phillips (1992).]

Статистические выводы

Теперь, познакомившись со статистикой как способом описания данных, мы готовы обратиться к интерпретации данных — тому, как из них делают выводы.

Группа и выборки

Прежде всего, необходимо различать группу и выборку из этой группы. Бюро переписи Соединенных Штатов пытается описать население в целом путем получения описательного материала по возрасту, семейному положению и т. д. обо всех жителях страны. Слово группа (population) годится для бюро переписи, поскольку оно представляет всех людей, живущих в США.

В статистике слово «группа» не ограничено людьми, животными или предметами. Группой могут быть все величины температур, зарегистрированные термометром в течение последнего десятилетия, все слова английского языка или любой другой определенный запас данных. Часто у нас нет доступа ко всей группе, и тогда мы пытаемся представить ее по выборке, взятой в случайном (непредвзятом) порядке. Можно задаться каким-либо вопросом о случайно отобранной части людей, как это сделало Бюро переписи в некоторых недавних переписях; можно вывести среднюю температуру, снимая показания термометра в определенное время и не ведя непрерывной записи; можно оценить количество слов в энциклопедии, подсчитав слова на случайно выбранных страницах. Во всех этих примерах делается выборка из группы. Если какие-либо из этих процессов повторить, результаты будут слегка различны вследствие того, что выборка не полностью отражает группу в целом и, следовательно, содержит ошибки выборки. Именно здесь вступают в игру статистические выводы.

Выборку данных из группы собирают, чтобы сделать вывод об этой группе. Можно изучить выборку данных переписи, чтобы узнать, стареет ли население, например, и существует ли тенденция миграции в пригородные зоны. Сходным образом, экспериментальные результаты изучаются, чтобы определить, какое воздействие экспериментальные манипуляции оказали на поведение — повлияла ли громкость на порог восприятия высоты звука, или оказывают ли особенности воспитания существенное влияние на последующую жизнь. Чтобы делать статистические выводы, надо оценить отношения, на которые указывают данные выборки. Такие выводы всегда имеют некоторую степень неопределенности из-за ошибок выборки. Если статистические испытания показывают, что величина эффекта, обнаруженная в данной выборке, достаточно велика (относительно оценки ошибки выборки), то можно быть уверенным, что наблюдаемый в данной выборке эффект существует и у группы в целом.

Таким образом, статистический вывод связан с необходимостью сделать вывод или суждение относительно некоторой характеристики группы, основываясь только на информации, полученной о выборке из этой группы. В качестве знакомства со статистическим выводом мы рассмотрим нормальное распределение и его применение при интерпретации стандартного отклонения.

Нормальное распределение

Когда большое количество данных собирают, представляют в табличном виде и отображают в виде гистограммы или огибающей, они часто образуют колоколообразное симметричное распределение, известное как нормальное распределение. Большинство его элементов располагаются вблизи среднего (верхняя точка колокола), и этот колокол резко спадает у самой большой и у самой малой величины. Такая форма кривой представляет особый интерес, поскольку она возникает и тогда, когда результат процесса основан на множестве случайных событий, все из которых происходят независимо. Демонстрационное устройство, показанное на рис. П4, позволяет увидеть, как из случайных событий складывается нормальное распределение. Случайный фактор — упадет ли стальной шарик влево или вправо каждый раз, когда он попадает в развилку, — приводит к симметричному распределению: больше шариков падают прямо посередине, но время от времени один из них достигает одного из крайних отделений. Это удобная визуализация того, что имеется в виду под случайным распределением, близким к нормальному распределению.

Рис. П4. Устройство для демонстрации нормального распределения случайной величины. Устройство держат вверх ногами, пока все стальные шарики не скатятся в резервуар. Затем устройство переворачивают и держат вертикально, пока шарики, пройдя по полю со штырьками, не скатятся в 9 колонок-выемок внизу. Точное количество шариков, попавших в каждую колонку, в разных демонстрациях будет неодинаковым. Однако в среднем высота колонок из шариков будет примерно повторять нормальное распределение, когда самая высокая колонка будет в центре, а высоты остальных колонок будут снижаться в направлении к краям.

Нормальное распределение (рис. П5) — это математическое представление идеализованного распределения, приближенно создаваемого устройством, показанным на рис. П4. Нормальное распределение показывает вероятность того, что элементы в группе с нормальным распределением будут отличаться от среднего на любую заданную величину. В процентах на рис. П5 показана доля площади, лежащей под кривой между указанными величинами шкалы; общая площадь под кривой соответствует группе в целом. Примерно две трети всех случаев (68%) попадают в интервал между плюс и минус одним стандартным отклонением от среднего (±1?); 95% всех случаев — в интервал ±2?; и практически все случаи (99,7%) — в ±3?.

Рис. П5. Нормальное распределение. Кривую нормального распределения можно построить, используя стандартное отклонение и среднее. Площадью под кривой, лежащей левее -3? и правее +3?, можно пренебречь.

Более подробный список площадей под частями кривой нормального распределения приведен в табл. П4.

Таблица П4. Площадь участков под кривой нормального распределения как часть общей площади под ней

Стандартное отклонение 

(1) Площадь левого участка от данного значения 

(2) Площадь правого участка от данного значения 

(3) Площадь участка между данным значением и средней 

-3,0 ? 

0,001 

0,999 

0,499 

-2,5 ? 

0,006 

0,994 

0,497 

-2,0 ? 

0,023 

0,977 

0,477 

-1,5 ? 

0,067 

0,933 

0,433 

-1,0 ? 

0,159 

0,841 

0,341 

-0,5 ? 

0,309 

0,691 

0,191 

0,0 ? 

0,500 

0,500 

0,000 

+0,5 ? 

0,691 

0,309 

0,191 

+1,0 ? 

0,841 

0,159 

0,341 

+1,5 ? 

0,933 

0,067 

0,433 

+2,0 ? 

0,977 

0,023 

0,477 

+2,5 ? 

0,994 

0,006 

0,494 

+3,0 ? 

0,999 

0,001 

0,499 

Давайте при помощи табл. П4 проследим, как получаются величины 68% и 95%, показанные на рис. П5. В табл. П4 в третьей колонке находим, что между -1? и средним лежит 0,341 общей площади и между +1? и средним тоже 0,341 общей площади. В сумме эти величины дают 0,682, что на рис. П5 показано как 68%. Сходным образом площадь от -2? до +2? составит 2 х 0,477 = 0,954, показанные как 95%.

Шкалирование данных

Чтобы интерпретировать показатель, часто нужно знать, высокий он или низкий по отношению к другим показателям. Если человеку, сдающему водительский экзамен, требуется 0,500 сек, чтобы нажать на тормоз после сигнала опасности, как определить, быстро это или медленно? Считать ли, что студент сдал курс по физике, если его показатель на экзамене равен 60? Для ответа на такие вопросы надо вывести шкалу, с которой эти показатели можно сравнивать.

Ранжирование данных. Располагая показатели по рангу от высокого к низкому, мы получаем одну из таких шкал. Отдельный показатель интерпретируется по тому, на каком месте он располагается среди группы показателей. Например, курсанты военной академии Вест Пойнт знают, где они находятся в своем классе — возможно, 35-ми или 125-ми в классе из 400.

Стандартный показатель. Стандартное отклонение — удобная единица шкалирования, поскольку мы можем оценить, насколько далеко от среднего располагаются 1? или 2? (табл. П4). Величину произведения, в котором один сомножитель — стандартное отклонение, называют стандартным показателем. Многие шкалы, применяемые в психологических измерениях, основаны на принципе стандартного показателя.

Пример вычисления стандартного показателя. В табл. П1 приведены показатели, полученные 15 студентами на вступительных экзаменах. Не имея дополнительной информации, мы не знаем, являются ли эти показатели репрезентативными для группы всех поступавших. Однако предположим, что средний показатель на этих экзаменах был 75, а стандартное отклонение 10.

Каким же будет стандартный показатель у студента, набравшего на экзаменах 90 баллов? Насколько выше среднего лежит этот показатель, надо выразить в количестве стандартных отклонений:

Стандартный показатель для студента, с оценкой 90 равен:

В качестве второго примера возьмем учащегося с оценкой 53.

Стандартный показатель для оценки 53 равен:

В этом случае показатель учащегося лежит ниже среднего на 2,2 стандартных отклонения. Таким образом, знак стандартного показателя (+ или -) говорит о том, выше или ниже среднего находится данный показатель, а его величина показывает, насколько далеко от среднего он расположен в единицах стандартных отклонений.

Насколько репрезентативно среднее?

Насколько хорошо среднее выборки отражает среднее всей группы? Если измерять рост у случайной выборки из 100 студентов колледжа, насколько хорошо среднее этой выборки предсказывает истинное среднее группы (то есть средний рост всех студентов колледжа)? Это все вопросы, связанные с выводом о группе на основе данных выборки.

Точность такого вывода зависит от ошибок выборки. Предположим, мы сделали две случайных выборки из одной и той же группы и для каждой из них подсчитали среднее. Какого различия между одним и другим средним можно ожидать в результате случая?

Последующие случайные выборки из той же группы будут давать разные средние, образуя распределение выборки средних вокруг истинного среднего данной группы. Эти выборки средних сами по себе являются величинами, для которых можно подсчитать стандартное отклонение. Это стандартное отклонение называется стандартной ошибкой среднего; оно обозначается sM и вычисляется по следующей формуле:

где ? — стандартное отклонение выборки, а N — количество случаев, по которым вычисляется каждое среднее.

<<< Назад Содержание Дальше >>>

medbookaide.ru