Проверка гипотез: двухвыборочные критерии
Проверка гипотез основана на подтверждающем подходе к анализу данных. В предыдущей заметке рассмотрены широко распространенные процедуры проверки гипотез на основе одной выборки, извлеченной из одной генеральной совокупности. В этой заметке описываются процедуры проверки гипотез на основе двух числовых выборок, извлеченных из двух генеральных совокупностей. Например, равны ли средние недельные объемы продаж BLK-колы, размещенной на специализированных стеллажах и на обычных полках? [1]
Применение статистики в этой заметке будет показано на сквозном примере «Зависит ли объем продаж от вида полок в магазине?» Представьте себе, что вы — региональный менеджер по продажам компании BLK Foods и хотите сравнить объемы продаж BLK-колы, выставленной на обычных полках и на специализированных стеллажах. Для этого вы создаете выборку, состоящую из 20 магазинов компании BLK Foods, в которых объявлена полная распродажа товаров. Затем вы случайным образом делите эту выборку пополам: 10 магазинов относите к первой группе, а остальные 10 — ко второй. Менеджеры магазинов из первой группы размещают бутылки с BLK-колой на обычных полках среди других прохладительных напитков. В то же время менеджеры магазинов из второй группы должны расположить бутылки с BLK-колой на специализированных стеллажах и разместить на них рекламу. Как определить, одинаковы ли объемы продаж BLK-колы в магазинах из этих двух групп? Совпадает ли изменчивость объемов продаж в этих магазинах? Как использовать ответы на эти вопросы, чтобы повысить объемы продаж BLK-колы?
Использование Z-критерия для оценки разности между двумя математическими ожиданиями
Предположим, что из первой генеральной совокупности извлекается случайная выборка, имеющая объем n1 а из второй — случайная выборка, объем которой равен n2. Требуется проанализировать данные, принадлежащие каждой выборке. Обозначим математическое ожидание первой генеральной совокупности через μ1, а стандартное отклонение — через σ1. Аналогично математическое ожидание второй генеральной совокупности обозначим символом μ1, а стандартное отклонение — σ2. Статистика, положенная в основу критерия для проверки равенства математических ожиданий двух генеральных совокупностей, основана на разности между выборочными средними 1 –
2. По центральной предельной теореме, сформулированной ранее, при достаточно больших объемах выборок эта статистика имеет стандартизованное нормальное распределение. Следовательно, для оценки разности между двумя математическими ожиданиями можно сформулировать следующий Z-критерий:
где 1 — среднее значение выборки из первой генеральной совокупности, μ1 — математическое ожидание первой генеральной совокупности,
— дисперсия первой генеральной совокупности, n1 — объем выборки, извлеченной из первой генеральной совокупности,
2 — среднее значение выборки из второй генеральной совокупности, μ2 — математическое ожидание второй генеральной совокупности,
— дисперсия второй генеральной совокупности, n2 — объем выборки, извлеченной из второй генеральной совокупности. Статистика Z имеет стандартизованное нормальное распределение.
Скачать заметку в формате Word или pdf, примеры в формате Excel2013
Применение t-критерия для оценки разности между математическими ожиданиями с помощью суммарной дисперсии
В большинстве ситуаций дисперсии и стандартные отклонения двух генеральных совокупностей неизвестны. Единственная информация, доступная исследователю, — выборочные средние, выборочные дисперсии и выборочные стандартные отклонения. Если выборки являются случайными, независимыми и извлечены из нормально распределенных генеральных совокупностей, имеющих одинаковую дисперсию (т.е. =
), для проверки гипотезы о значимом различии между математическими ожиданиями двух генеральных совокупностей можно применять t-критерий, использующий суммарную дисперсию. Нулевая гипотеза состоит в том, что математические ожидания двух независимых генеральных совокупностей не отличаются друг от друга:
Альтернативная гипотеза заключается в том, что математические ожидания не совпадают:
t-критерий для оценки разности между двумя математическими ожиданиями с помощью суммарной дисперсии
где — суммарная дисперсия,
1 — среднее значение выборки из первой генеральной совокупности, μ1 — математическое ожидание первой генеральной совокупности,
— дисперсия выборки из первой генеральной совокупности, n1 — объем выборки, извлеченной из первой генеральной совокупности,
2 — среднее значение выборки из второй генеральной совокупности, μ2 — математическое ожидание второй генеральной совокупности,
— дисперсия выборки из второй генеральной совокупности, n2 — объем выборки, извлеченной из второй генеральной совокупности. Статистика t имеет t-распределение Стьюдента с n1 + n2 – 2 степенями свободы.
При заданном уровне значимости α двусторонний критерий отклоняет нулевую гипотезу, если t-статистика больше верхнего критического значения или меньше нижнего критического значения (рис. 1). Ограниченный сверху критерий отклоняет нулевую гипотезу, если t-статистика больше верхнего критического значения, а ограниченный снизу критерий — если она меньше нижнего критического значения.
Рис. 1. Области принятия и отклонения гипотез при использовании двустороннего t-критерия для оценки разности между двумя математическими ожиданиями
Продемонстрируем применение t-критерия, использующего суммарную дисперсию, на примере сценария, описанного в начале заметки. Совпадают ли средние объемы продаж BLK-колы, размещенной на обычных полках и специализированных стеллажах. В этой задаче рассматриваются две генеральные совокупности. Первая генеральная совокупность состоит из всевозможных еженедельных объемов продаж BLK-колы, если все супермаркеты компании BLK используют обычные стеллажи. Во вторую генеральную совокупность входят всевозможные еженедельные объемы продаж BLK-колы, если все супермаркеты компании BLK используют специализированные стеллажи (рис. 2).
Рис. 2. Сравнение еженедельных продаж BLK-колы, размещенной на разных стеллажах (количество покупок)
Нулевая и альтернативная гипотезы формулируются следующим образом: H0: μ1 = μ2 или μ1 – μ2 = 0, H1: μ1 ≠ μ2 или μ1 – μ2 ≠ 0. Предполагая, что выборки извлечены из нормально распределенных генеральных совокупностей, имеющих одинаковую дисперсию (т.е. = ), применим t-критерий, использующий суммарную дисперсию. Эта статистика имеет t-распределение, имеющее 10 + 10 – 2 = 18 степеней свободы. Если уровень значимости двустороннего критерия α равен 0,05, критическая область разбивается на две части, каждая из которых соответствует вероятности, равной 0,025. Критические значения t-статистики: нижняя =СТЬЮДЕНТ.ОБР(0,025;18) = –2,1009, верхняя =СТЬЮДЕНТ.ОБР(0,975;18) = +2,1009 (рис. 3). Решающее правило имеет следующий вид: если t > +2,1009 или t 3,04 или t tn – 1 или t 0 (в среднем стандартный пакет работает медленнее, чем новый). Установим уровень значимости α равным 0,05 и предположим, что разности распределены нормально. Это позволяет применить t-критерий для парных выборок – формулу (5). Для выборки, состоящей из 10 задач, решающее правило имеет следующий вид: нулевая гипотеза Н0 отклоняется, если t > t9 =СТЬЮДЕНТ.ОБР(0,05;9) = 1,8331, в противном случае она не отклоняется.
Средняя разность между результатами, полученными в ходе попарных сравнений (рис. 10) D̅ = 0,084, а стандартное отклонение SD = 0,0844, t = +3,149. Поскольку значение t = +3,15 лежит в критической области (рис. 11), нулевая гипотеза Н0 отклоняется. Таким образом, в среднем новый пакет работает быстрее стандартного.
Рис. 10. Расчет t-критерия
Рис. 11. Критическая область одностороннего t-критерия с 5%-ным уровнем значимости и 9 степенями свободы
Для вычисления t-статистики (и р-значения) можно воспользоваться Пакетом анализа (рис. 12). Обратите внимание, что в этом случае можно не находить разности (столбец Разности (Di) не требуется). Пройдите по меню Данные → Анализ данных и выберите строку Парный двухвыборочный t-тест для средних. Поскольку р-значение равно 0,006 и меньше α 2 -статистика, аппроксимированная χ 2 -распределением с одной степенью свободы. Как мы убедимся, эти два критерия эквивалентны.
Для оценки различий между двумя генеральными совокупностями на основе независимых выборок можно применять Z-критерий. На основе разности между двумя выборочными долями признака Ps1 – Ps2 вычисляется Z-статистика, используемая для оценки разности между двумя долями признака в генеральных совокупностях. Если объем выборок достаточно велик, эта тестовая статистика имеет стандартизованное нормальное распределение. Z-критерий для оценки разности между двумя долями:
где ps1 — доля успехов в первой выборке, Х1 — количество успехов в первой выборке, n1 — объем выборки из первой генеральной совокупности, p1 — доля успехов в первой генеральной совокупности, ps2 — доля успехов во второй выборке, Х2 — количество успехов во второй выборке, n2 — объем выборки из второй генеральной совокупности, р2 — доля успехов во второй генеральной совокупности, р̅ – оценка доли успехов в объединенной генеральной совокупности.
При достаточно большом объеме выборок тестовая Z-статистика подчиняется стандартизованному нормальному распределению.
Нулевая гипотеза заключается в том, что доли признака в двух генеральных совокупностях одинаковы. Следовательно, проверку равенства долей признака в двух генеральных совокупностях можно свести к оценке доли признака в объединенной генеральной совокупности. Оценка объединенной доли равна результату деления количества успехов в обеих выборках Х1+Х2 на сумму объемов выборок n1+n2.
С помощью Z-критерия можно определить, существуют ли различия между долями успеха в двух группах (двусторонний тест), а также установить, превышает ли доля успехов в одной группе долю успехов в другой (односторонний критерий) (рис. 13).
Рис. 13. Три варианта Z-критерия
Чтобы проверить нулевую и альтернативные гипотезы H0: р1 = р2, H1: р1 ≠ р2, следует использовать тестовую Z-статистику – формулы (7). При заданном уровне значимости α нулевая гипотеза отклоняется, если вычисленная Z-статистика больше верхнего или меньше нижнего критического значения стандартизованного нормального распределения.
Для того чтобы проиллюстрировать Z-критерий для проверки гипотезы о равенстве двух долей, предположим, вы — менеджер компании Т. С. Resort Properties. На одном из островов компании Т. С. Resort Properties принадлежат два отеля: Beachcomer и Windsurfer. На вопрос «Планируете ли вы вернуться в наш отель снова?» 163 из 227 постояльцев отеля Beachcomer ответили: «Да», в то же время 154 из 262 постояльцев отеля Windsurfer на этот вопрос ответили: «Нет». Можно ли утверждать, что при уровне значимости, равном 0,05, между степенью удовлетворенности постояльцев обоих отелей (вероятностью, что в следующем сезоне они вернутся в отель) значимой разницы нет? Нулевая и альтернативная гипотезы формулируются следующим образом: H0: р1 = р2, H1: р1 ≠ р2.
Поскольку уровень значимости равен 0,05, критические значения ZL =НОРМ.СТ.ОБР(0,025) = –1,96 и ZU =НОРМ.СТ.ОБР(0,975) = +1,96 (рис. 14), а решающее правило имеет следующий вид: нулевая гипотеза Н0 отклоняется, если Z +1,96, в противном случае нулевая гипотеза Н0 не отклоняется.
Рис. 14. Проверка гипотезы о разности между двумя долями при уровне значимости α = 0,05
При уровне значимости, равном 0,05, нулевая гипотеза Н0 отклоняется, поскольку Z = +3,01 > +1,96. Если нулевая гипотеза является истинной, вероятность того, что Z-статистика будет больше +1,96 и меньше –1,96 стандартного отклонения от центра Z-распределения, равна 0,05. Наблюдаемый уровень значимости представляет собой вероятность того, что разность между двумя выборочными долями р(Z = 3,01) =(1-НОРМ.СТ.РАСП(3,01;ИСТИНА))*2 = 0,00262. Таким образом, можно утверждать, что два отеля значительно различаются по качеству обслуживания. Иначе говоря, доля гостей, планирующих вернуться, в отеле Beachcomer больше, чем в гостинице Windsurfer.
Использование F-критерия для оценки разности между двумя дисперсиями
Довольно часто возникает необходимость проверить, имеют ли две независимые генеральные совокупности одинаковую дисперсию. Например, это требуется для того, чтобы выбрать правильный t-критерий — использующий суммарную или раздельную дисперсию. Проверка разности между дисперсиями двух генеральных совокупностей основана на исследовании их отношения. Если каждая генеральная совокупность является нормально распределенной, отношение S1 2 /S2 2 подчиняется F-распределению, получившему свое название в честь знаменитого статистика Р. Фишера. Критическое значение F-распределения зависит от двух множеств степеней свободы. Степени свободы числителя относятся к первой выборке, а степени свободы знаменателя — ко второй. Для проверки равенства двух дисперсий в критерии используется F-статистика, вычисляемая по формуле:
где S1 2 — дисперсия выборки из первой генеральной совокупности, n1 — объем выборки, извлеченной из первой генеральной совокупности, S2 2 — дисперсия выборки из второй генеральной совокупности, n2 — объем выборки, извлеченной из второй генеральной совокупности, n1 – 1 — количество степеней свободы числителя, n2 – 1 — количество степеней свободы знаменателя.
F-статистика имеет F-распределение с n1 – 1 и n2 – 1 степенями свободы. При заданном уровне значимости α нулевая и альтернативная гипотеза: H0: σ1 2 = σ2 2 , H1: σ1 2 ≠ σ2 2 . Если F-статистика больше верхнего критического значения FU или меньше нижнего критического значения FL из F-распределения с n1 – 1 степенями свободы в числителе и n2 – 1 степенями свободы в знаменателе, нулевая гипотеза отклоняется. Таким образом, решающее правило выглядит следующим образом: нулевая гипотеза Н0 отклоняется, если F > FU или F 2 = σ2 2 , H1: σ1 2 ≠ σ2 2 .
Поскольку критерий является двусторонним, критическая область разбивается на две части, ограниченные левым и правым хвостом F-распределения. Если уровень значимости α = 0,05, каждая из этих областей соответствует вероятности, равной 0,025. Поскольку выборки содержат по 10 магазинов с разными видами полок, в первой и второй группах существуют 10 – 1 = 9 степеней свободы. Верхнее критическое значения F-распределения =F.ОБР(0,975;9;9) = 4,026; нижнее критическое значения F-распределения =F.ОБР(0,025;9;9) = 0,248 (рис. 16).
Рис. 16. Критическая область двустороннего F-критерия с уровнем значимости, равным 0,05, и 9 степенями свободы в числителе и знаменателе
Таким образом, решающее правило: нулевая гипотеза Н0 отклоняется, если F > FU =4,026 или F 2 этой выборки равна 56,0. Из второй распределенной генеральной совокупности, независимой от первой, извлечена выборка, имеющая объем n2 = 10. Дисперсия S2 2 этой выборки равна 24,0. Проверьте нулевую гипотезу, заключающуюся в том, что между дисперсиями этих генеральных совокупностей нет существенной разницы.
Верхнее критическое значения F-распределения FU =F.ОБР(0,975;7;9) = 4,197; нижнее критическое значения F-распределения FL =F.ОБР(0,025;7;9) = 0,207. F-статистика = S1 2 / S2 2 = 56 / 24 = 2,333. Решающее правило выглядит так: нулевая гипотеза Н0 отклоняется, если F > FU = 4,197 или F
[1] Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 579–640
[2] Если объем выборки достаточно велик, центральная предельная теорема утверждает, что средняя разность имеет нормальное распределение.
Источник