Доверительный интервал измерений как это сделать

Содержание
  1. Способы расчета доверительного интервала
  2. Способы расчета доверительного интервала
  3. Этап 1. Выборка данных
  4. Доверительный интервал
  5. Классификация доверительных интервалов
  6. Расчет средней ошибки выборки при случайном отборе
  7. Метод доверительных интервалов
  8. Доверительные интервалы
  9. Общий обзор
  10. Доверительный интервал для среднего
  11. Использование нормального распределения
  12. Использование t-распределения
  13. Доверительный интервал для пропорции
  14. Интерпретация доверительных интервалов
  15. Способы расчета доверительного интервала
  16. Способы расчета доверительного интервала
  17. Этап 1. Выборка данных
  18. Доверительные интервалы
  19. Определение
  20. Нормальное распределение
  21. Формула
  22. Пример
  23. Методы сужения доверительного интервала
  24. Построение доверительного интервала при распределении отличном от нормального
  25. Формула
  26. Пример
  27. Выборки большого объема
  28. Подведем итоги
  29. Доверительный интервал
  30. Классификация доверительных интервалов
  31. Расчет средней ошибки выборки при случайном отборе
  32. Метод доверительных интервалов

Способы расчета доверительного интервала

Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов – слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал. Цель данного исследования – провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.

Способы расчета доверительного интервала

Доверительный интервал – вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.

Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.

Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:

  • через медиану и среднеквадратическое отклонение;
  • через критическое значение t-статистики (коэффициент Стьюдента).

Этапы сравнительного анализа разных способов расчета ДИ:

1. формируем выборку данных;

2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;

3. рассчитываем доверительный интервал двумя способами;

4. анализируем очищенные выборки и полученные доверительные интервалы.

Этап 1. Выборка данных

Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».

Таблица 1. Исходная выборка

Источник

Доверительный интервал

Назначение сервиса . С помощью этого сервиса определяются:

  • доверительный интервал для генерального среднего, доверительный интервал для дисперсии;
  • доверительный интервал для среднего квадратического отклонения, доверительный интервал для генеральной доли;

Полученное решение сохраняется в файле Word . Ниже представлена видеоинструкция, как заполнять исходные данные.

  • Решение онлайн
  • Видеоинструкция
  • Примеры задач

Классификация доверительных интервалов

По типу выборки:

  1. Доверительный интервал для бесконечной выборки;
  2. Доверительный интервал для конечной выборки;
Генеральная совокупность Бесконечная Конечная объема N
Тип отбора Повторный Бесповторный
Средняя ошибка выборки

Выборка называется повторной, если отобранный объект перед выбором следующего возвращается в генеральную совокупность. Выборка называется бесповторной, если отобранный объект в генеральную совокупность не возвращается. На практике обычно имеют дело с бесповторными выборками.

Расчет средней ошибки выборки при случайном отборе

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называется ошибкой репрезентативности.
Обозначения основных параметров генеральной и выборочной совокупности.

Характеристики Генеральная совокупность Выборочная совокупность
Объем совокупности (численность единиц) N n
Численность единиц, обладающих обследуемым качеством (признаком) M m
Доля единиц, обладающих обследуемым качеством (признаком), выборочная доля
Формулы средней ошибки выборки
повторный отбор бесповторный отбор
для средней для доли для средней для доли

Соотношение между пределом ошибки выборки (Δ), гарантируемым с некоторой вероятностью Р(t), и средней ошибкой выборки имеет вид: или Δ = t·μ, где t– коэффициент доверия, определяемый в зависимости от уровня вероятности Р(t) по таблице интегральной функции Лапласа.

Формулы расчета численности выборки при собственно-случайном способе отбора

Способ отбора Формулы определения численности выборки
для средней для доли
Повторный
Бесповторный

Найти численность выборки можно, использовав калькулятор.

Метод доверительных интервалов

Пример №1 . При проверке годности партии таблеток (250 шт.) оказалось, что средний вес таблетки 0,3 г, а СКО веса 0,01 г. Найти доверительный интервал, в который с вероятностью 90% попадает норма веса таблетки.
Решение.

Определяем значение tkp по таблицам функции Лапласа.
В этом случае 2Ф(tkp) = 1 — γ
Ф(tkp) = γ/2 = (1- 0.05)/2 = 0.475
По таблице функции Лапласа найдем, при каком tkp значение Ф(tkp) = 0.475
tkp(γ) = Ф(0.475) = 1.96

(0.3 — 0.206;0.3 + 0.206) = (0.094;0.51)
С вероятностью 0.9 можно утверждать, что среднее значение при выборке большего объема не выйдет за пределы найденного интервала.

Пример №2 . На площади в 70 га, занятой пшеницей, определяется с помощью выборочного метода доля посева, пораженная насекомыми вредителями. Сколько проб надо взять в выборку, чтобы при вероятности 0,997 определить искомую величину с точностью до 4%, если пробная выборка показывает, что доля пораженной посевной площади составляет 9%?

Решение ищем по формуле определения численности выборки для повторного отбора.
Ф(tkp) = γ/2 = 0.997/2 = 0,4985 и этому значению по таблице Лапласа соответствует tkp =2.96.
w = 9% = 0,09
Δ = 4% = 0,04
Итого: n = 2.96 2 *0,09(1-0,09)/0,04 2 = 448,4844 ≈ 449

Пример . При проверке веса импортируемого груза на таможне методом случайной повторной выборки было отобрано 100 изделий. В результате был установлен средний вес изделия 5000 г при среднем квадратическом отклонении 40 г. С вероятностью 0,950 определить пределы, в которых находится средний вес изделия в генеральной совокупности.

Решение

Поскольку n>30, то определяем значение tkp по таблицам функции Лапласа.
В этом случае 2Ф(tkp) = γ
Ф(tkp) = γ/2 = 0.95/2 = 0.475
По таблице функции Лапласа найдем, при каком tkp значение Ф(tkp) = 0.475
tkp(γ) = (0.475) = 1.96

(5000 — 78.4;5000 + 78.4) = (4921.6;5078.4)
С вероятностью 0.95 можно утверждать, что среднее значение при выборке большего объема не выйдет за пределы найденного интервала.

Пример . С надежностью γ=0.954 построить доверительный интервал для генеральной доли
Пример №1

Пример . По результатам выборочного наблюдения (выборка В приложение) вычислите несмещенные оценки среднего значения, дисперсии и среднего квадратического отклонения генеральной совокупности.
Скачать решение

Пример . Найдите доверительные интервалы для оценки среднего значения и среднего квадратического отклонения генеральных совокупностей при доверительной вероятности y, если из генеральных совокупностей сделана выборка В и y.
Скачать решение

1. Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи собственно-случайного 10-ти процентного бесповторного отбора, определить:
а) пределы, за которые с доверительной вероятностью 0,954 не выйдет среднее значение признака, рассчитанное по генеральной совокупности;
б) как нужно изменить объем выборки, чтобы снизить предельную ошибку средней величины на 50%.
2. Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи повторного отбора, определить:
а) пределы, за которые в генеральной совокупности не выйдет значение доли предприятий, у которых индивидуальные значения признака превышают моду с доверительной вероятностью 0,954;
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20 %.
Методические указания

Задание. Поточная линия по производству однотипных деталей подвергалась реконструкции Заданы две выборки отображающие процент брака в партиях деталей выпускаемых на данной линии до и после реконструкции Можно ли достоверно утверждать, что после реконструкции процент брака в партиях деталей снизился?

Пример . Ниже приведены данные по затратам на бурение (у.е.) для 49 скважин Западно-Сибирской нефтяной базы России:

129 142 132 61 96 96 142 17 135 32
77 58 37 132 79 15 145 64 83 120
11 54 48 100 43 25 67 25 140 130
48 124 29 107 135 101 93 147 112 121
89 97 60 84 46 139 43 145 29

В целях оценки затрат на бурение новой скважины:

  1. провести выборку собственно случайным способом объемом n=5;
  2. определить интервальные значения среднего генеральной совокупности (X) по рассчитанным выборочным показателям (X, s 2 ) с помощью функции t-распределения Стьюдента при уровне значимости α=0.05;
  3. определить точечное значение среднего генеральной совокупности (X) по исходным данным;
  4. оценить правильность интервальных расчетов, сравнивая точечное значение (X) с интервальным значением, рассчитанным по выборке;

Решение проводим с помощью этого калькулятора:

1. Выбираем 5 значений из таблицы. Пусть это будет 3 столбец: 132, 37, 48, 29, 60.
В разделе «Вид статистического ряда» выбираем Дискретный ряд . В поле Количество строк указываем 5.

2. Вводим исходные данные.

Поле «Доверительный интервал генерального среднего, дисперсия и среднеквадратическое отклонения » указываем значение γ = 0.95 (что соответствует α=0.05).

В поле « Выборка » указываем значение 10 (поскольку из 49 значений выбрали 5, что соответствует 10,2% (5/49×100%)).

В разделе «Выводит в отчет» отмечаем первый пункт «Доверительный интервал для генерального среднего» .

Нажимаем кнопку Далее .

3. Полученное решение сохраняется в формате Word (скачать).
Перед расчетами создается предварительная таблица, в которой подсчитывается количество повторений значений Х.

x (x — x ср) 2
29 1036.84
37 585.64
48 174.24
60 1.44
132 5012.64
306 6810.8

В данном случае все значения X встречаются ровно один раз. Интервальные значения среднего генеральной совокупности рассчитываются в разделе «Интервальное оценивание центра генеральной совокупности».
Примечание: в данном случае в расчетах используется Оценка среднеквадратического отклонения.

Задание №2: В целях изучения затрат времени на изготовление одной детали рабочими завода проведена 10% -ная случайная бесповторная выборка, в результате которой получено распределение деталей по затратам времени, представленное в прил. Б.
На основании этих данных вычислите:
а) средние затраты времени на изготовление одной детали;
б) средний квадрат отклонений (дисперсию) и среднее квадратическое отклонение;
в) коэффициент вариации;
г) с вероятностью 0,954 предельную ошибку выборочной средней и возможные границы, в которых ожидаются средние затраты времени на изготовление одной детали на заводе;
д) с вероятностью 0,954 предельную ошибку выборочной доли и границы удельного веса числа деталей с минимальными затратами времени на их изготовление. Перед тем как производить расчеты, необходимо записать условия задачи и заполнить табл. 2.1

Решение.
Для получения решения указываем следующие параметры:

  • Вид статистического ряда: Задан дискретный ряд ;
  • Количество групп: не делать группировку ;
  • Для построения доверительного интервала генерального среднего, дисперсии и среднеквадратического отклонения: y= 0.954 ;
  • Для построения доверительного интервала генеральной доли: y= 0.954 ;
  • Выборка: 10 ;
  • Выводить в отчет: Доверительный интервал для генерального среднего , Доверительный интервал для генеральной доли ;

Задание №3: Используя результаты расчетов, выполненных в задании №2 и полагая, что эти данные получены при помощи повторного отбора, определить:
а) пределы, за которые в генеральной совокупности не выйдет значение доли предприятий, у которых индивидуальные значения признака превышают моду с доверительной вероятностью 0.954 ;
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20% .

Решение.
Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи повторного отбора, определить:
а) пределы, за которые в генеральной совокупности не выйдет значение доли предприятий, у которых индивидуальные значения признака превышают моду с доверительной вероятностью 0.954 ;
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20%.

Задание №4: Из партии электроламп взята 20% -ная случайная бесповторная выборка для определения среднего веса спирали. Результаты выборки следующие. Вес, мг:38-40;40-42;42-44;44-46. Число спиралей:15;30;45;10. Определить с вероятностью 0.95 доверительные пределы, в которых лежит средний вес спирали, для всей партии электроламп.

Решение.
Вводим следующие параметры:

  • Вид статистический ряда: Задан интервальный ряд ;
  • Для построения доверительного интервала генерального среднего, дисперсии и среднеквадратического отклонения: y = 0.95 ;
  • Выборка: 20 ;
  • Выводить в отчет: Доверительный интервал для генерального среднего .

Задание №5: На заводе электроламп из партии продукции в количестве 16000 шт. ламп взято на выборку 1600 шт. (случайный, бесповторный отбор), из которых 40 шт. оказались бракованными. Определить с вероятностью 0.997 пределы, в которых будет находиться процент брака для всей партии продукции.

Решение.
Здесь N = 16000 , n = 1600 , w = d / n = 40/1600 = 0.025.

Источник

Доверительные интервалы

Общий обзор

Взяв выборку из популяции, мы получим точечную оценку интересующего нас параметра и вычислим стандартную ошибку для того, чтобы указать точность оценки.

Однако, для большинства случаев стандартная ошибка как такова не приемлема. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции.

Это можно сделать, используя знания о теоретическом распределении вероятности выборочной статистики (параметра) для того, чтобы вычислить доверительный интервал (CI – Confidence Interval, ДИ – Доверительный интервал) для параметра.

Вообще, доверительный интервал расширяет оценки в обе стороны некоторой величиной, кратной стандартной ошибке (данного параметра); два значения (доверительные границы), определяющие интервал, обычно отделяют запятой и заключают в скобки.

Доверительный интервал для среднего

Использование нормального распределения

Выборочное среднее имеет нормальное распределение, если объем выборки большой, поэтому можно применить знания о нормальном распределении при рассмотрении выборочного среднего.

В частности, 95% распределения выборочных средних находится в пределах 1,96 стандартных отклонений (SD) среднего популяции.

Когда у нас есть только одна выборка, мы называем это стандартной ошибкой среднего (SEM) и вычисляем 95% доверительного интервала для среднего следующим образом:

Если повторить этот эксперимент несколько раз, то интервал будет содержать истинное среднее популяции в 95% случаев.

Обычно это доверительный интервал как, например, интервал значений, в пределах которого с доверительной вероятностью 95% находится истинное среднее популяции (генеральное среднее).

Хотя это не вполне строго (среднее в популяции есть фиксированное значение и поэтому не может иметь вероятность, отнесённую к нему) таким образом интерпретировать доверительный интервал, но концептуально это удобнее для понимания.

Использование t-распределения

Можно использовать нормальное распределение, если знать значение дисперсии в популяции. Кроме того, когда объем выборки небольшой, выборочное среднее отвечает нормальному распределению, если данные, лежащие в основе популяции, распределены нормально.

Если данные, лежащие в основе популяции, распределены ненормально и/или неизвестна генеральная дисперсия (дисперсия в популяции), выборочное среднее подчиняется t-распределению Стьюдента.

Вычисляем 95% доверительный интервал для генерального среднего в популяции следующим образом:

где — процентная точка (процентиль) t-распределения Стьюдента с (n-1) степенями свободы, которая даёт двухстороннюю вероятность 0,05.

Вообще, она обеспечивает более широкий интервал, чем при использовании нормального распределения, поскольку учитывает дополнительную неопределенность, которую вводят, оценивая стандартное отклонение популяции и/или из-за небольшого объёма выборки.

Когда объём выборки большой (порядка 100 и более), разница между двумя распределениями (t-Стьюдента и нормальным) незначительна. Тем не менее всегда используют t-распределение при вычислении доверительных интервалов, даже если объем выборки большой.

Обычно указывают 95% ДИ. Можно вычислить другие доверительные интервалы, например 99% ДИ для среднего.

Вместо произведения стандартной ошибки и табличного значения t-распределения, которое соответствует двусторонней вероятности 0,05, умножают её (стандартную ошибку) на значение, которое соответствует двусторонней вероятности 0,01. Это более широкий доверительный интервал, чем в случае 95%, поскольку он отражает увеличенное доверие к тому, что интервал действительно включает среднее популяции.

Доверительный интервал для пропорции

Выборочное распределение пропорций имеет биномиальное распределение. Однако если объём выборки n разумно большой, тогда выборочное распределение пропорции приблизительно нормально со средним .

Оцениваем выборочным отношением p=r/n (где r– количество индивидуумов в выборке с интересующими нас характерными особенностями), и стандартная ошибка оценивается:

95% доверительный интервал для пропорции оценивается:

Если объём выборки небольшой (обычно когда np или n(1-p) меньше 5), тогда необходимо использовать биномиальное распределение для того, чтобы вычислить точные доверительные интервалы.

Заметьте, что если p выражается в процентах, то (1-p) заменяют на (100-p).

Интерпретация доверительных интервалов

При интерпретации доверительного интервала нас интересуют следующие вопросы:

Насколько широк доверительный интервал?

Широкий доверительный интервал указывает на то, что оценка неточна; узкий указывает на точную оценку.

Ширина доверительного интервала зависит от размера стандартной ошибки, которая, в свою очередь, зависит от объёма выборки и при рассмотрении числовой переменной от изменчивости данных дают более широкие доверительные интервалы, чем исследования многочисленного набора данных немногих переменных.

Включает ли ДИ какие-либо значения, представляющие особенный интерес?

Можно проверить, ложится ли вероятное значение для параметра популяции в пределы доверительного интервала. Если да, то результаты согласуются с этим вероятным значением. Если нет, тогда маловероятно (для 95% доверительного интервала шанс почти 5%), что параметр имеет это значение.

Источник

Способы расчета доверительного интервала

Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов – слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал. Цель данного исследования – провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.

Способы расчета доверительного интервала

Доверительный интервал – вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.

Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.

Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:

  • через медиану и среднеквадратическое отклонение;
  • через критическое значение t-статистики (коэффициент Стьюдента).

Этапы сравнительного анализа разных способов расчета ДИ:

1. формируем выборку данных;

2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;

3. рассчитываем доверительный интервал двумя способами;

4. анализируем очищенные выборки и полученные доверительные интервалы.

Этап 1. Выборка данных

Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».

Таблица 1. Исходная выборка

Источник

Доверительные интервалы

Определение

Доверительные интервалы (англ. Confidence Intervals) одним из типов интервальных оценок используемых в статистике, которые рассчитываются для заданного уровня значимости. Они позволяют сделать утверждение, что истинное значение неизвестного статистического параметра генеральной совокупности находится в полученном диапазоне значений с вероятностью, которая задана выбранным уровнем статистической значимости.

Нормальное распределение

Когда известна вариация (σ 2 ) генеральной совокупности данных, для расчета доверительных пределов (граничных точек доверительного интервала) может быть использована z-оценка. По сравнению с применением t-распределения, использование z-оценки позволит построить не только более узкий доверительный интервал, но и получить более надежные оценки математического ожидания и среднеквадратического (стандартного) отклонения (σ), поскольку Z-оценка основывается на нормальном распределении.

Формула

Для определения граничных точек доверительного интервала, при условии что известно среднеквадратическое отклонение генеральной совокупности данных, используется следующая формула

где X – математическое ожидание выборки, α – уровень статистической значимости, Zα/2 – Z-оценка для уровня статистической значимости α/2, σ – среднеквадратическое отклонение генеральной совокупности, n – количество наблюдений в выборке. При этом, σ/√ n является стандартной ошибкой.

Таким образом, доверительный интервал для уровня статистической значимости α можно записать в виде

Пример

Предположим, что размер выборки насчитывает 25 наблюдений, математическое ожидание выборки равняется 15, а среднеквадратическое отклонение генеральной совокупности составляет 8. Для уровня значимости α=5% Z-оценка равна Zα/2=1,96. В этом случае нижняя и верхняя граница доверительного интервала составят

L = 15 — 1,96 8 = 11,864
√ 25
L = 15 + 1,96 8 = 18,136
√ 25

А сам доверительный интервал может быть записан в виде

Таким образом, мы можем утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности попадет в диапазон от 11,864 до 18,136.

Методы сужения доверительного интервала

Допустим, что диапазон [11,864; 18,136] является слишком широким для целей нашего исследования. Уменьшить диапазон доверительного интервала можно двумя способами.

  1. Снизить уровень статистической значимости α.
  2. Увеличить объем выборки.

Снизив уровень статистической значимости до α=10%, мы получим Z-оценку равную Zα/2=1,64. В этом случае нижняя и верхняя граница интервала составят

L = 15 — 1,64 8 = 12,376
√ 25
L = 15 + 1,64 8 = 17,624
√ 25

А сам доверительный интервал может быть записан в виде

В этом случае, мы можем сделать предположение, что с вероятностью 90% математическое ожидание генеральной совокупности попадет в диапазон [12,376; 17,624].

Если мы хотим не снижать уровень статистической значимости α, то единственной альтернативой остается увеличение объема выборки. Увеличив ее до 144 наблюдений, получим следующие значения доверительных пределов

L = 15 — 1,96 8 = 13,693
√ 144
L = 15 + 1,96 8 = 16,307
√ 144

Сам доверительный интервал станет иметь следующий вид

Таким образом, сужение доверительного интервала без снижения уровня статистической значимости возможно только лишь за счет увеличения объема выборки. Если увеличение объема выборки не представляется возможным, то сужение доверительного интервала может достигаться исключительно за счет снижения уровня статистической значимости.

Построение доверительного интервала при распределении отличном от нормального

В случае если среднеквадратичное отклонение генеральной совокупности не известно или распределение отлично от нормального, для построения доверительного интервала используется t-распределение. Это методика является более консервативной, что выражается в более широких доверительных интервалах, по сравнению с методикой, базирующейся на Z-оценке.

Формула

Для расчета нижнего и верхнего предела доверительного интервала на основании t-распределения применяются следующие формулы

где X – математическое ожидание выборки, α – уровень статистической значимости, tα – t-критерий Стьюдента для уровня статистической значимости α и количества степеней свободы (n-1), σ – среднеквадратическое отклонение выборки, n – количество наблюдений в выборке.

Сам доверительный интервал может быть записан в следующем виде

Распределение Стьюдента или t-распределение зависит только от одного параметра – количества степеней свободы, которое равно количеству индивидуальных значений признака (количество наблюдений в выборке). Значение t-критерия Стьюдента для заданного количества степеней свободы (n) и уровня статистической значимости α можно узнать из справочных таблиц.

Пример

Предположим, что размер выборки составляет 25 индивидуальных значений, математическое ожидание выборки равно 50, а среднеквадратическое отклонение выборки равно 28. Необходимо построить доверительный интервал для уровня статистической значимости α=5%.

В нашем случае количество степеней свободы равно 24 (25-1), следовательно соответствующее табличное значение t-критерия Стьюдента для уровня статистической значимости α=5% составляет 2,064. Следовательно, нижняя и верхняя граница доверительного интервала составят

L = 50 — 2,064 28 = 38,442
√ 25
L = 50 + 2,064 28 = 61,558
√ 25

А сам интервал может быть записан в виде

Таким образом, мы можем утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности окажется в диапазоне [38,442; 61,558].

Использование t-распределения позволяет сузить доверительный интервал либо за счет снижения статистической значимости, либо за счет увеличения размера выборки.

Снизив статистическую значимость с 95% до 90% в условиях нашего примера мы получим соответствующее табличное значение t-критерия Стьюдента 1,711.

L = 50 — 1,711 28 = 40,418
√ 25
L = 50 + 1,711 28 = 59,582
√ 25

В этом случае мы можем утверждать, что с вероятностью 90% математическое ожидание генеральной совокупности окажется в диапазоне [40,418; 59,582].

Если мы не хотим снижать статистическую значимость, то единственной альтернативой будет увеличение объема выборки. Допустим, что он составляет 64 индивидуальных наблюдения, а не 25 как в первоначальном условии примера. Табличное значение t-критерия Стьюдента для 63 степеней свободы (64-1) и уровня статистической значимости α=5% составляет 1,998.

L = 50 — 1,998 28 = 43,007
√ 64
L = 50 + 1,998 28 = 56,993
√ 64

Это дает нам возможность утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности окажется в диапазоне [43,007; 56,993].

Выборки большого объема

К выборкам большого объема относятся выборки из генеральной совокупности данных, количество индивидуальных наблюдений в которых превышает 100. Статистические исследования показали, что выборки большего объема имеют тенденцию быть нормально распределенными, даже если распределение генеральной совокупности отличается от нормального. Кроме того, для таких выборок применение z-оценки и t-распределения дают примерно одинаковые результаты при построении доверительных интервалов. Таким образом, для выборок большого объема допускается применение z-оценки для нормального распределения вместо t-распределения.

Подведем итоги

В таблице собраны рекомендации по выбору методики построения доверительных интервалов для различных ситуаций.

Источник

Доверительный интервал

Назначение сервиса . С помощью этого сервиса определяются:

  • доверительный интервал для генерального среднего, доверительный интервал для дисперсии;
  • доверительный интервал для среднего квадратического отклонения, доверительный интервал для генеральной доли;

Полученное решение сохраняется в файле Word . Ниже представлена видеоинструкция, как заполнять исходные данные.

  • Решение онлайн
  • Видеоинструкция
  • Примеры задач

Классификация доверительных интервалов

По типу выборки:

  1. Доверительный интервал для бесконечной выборки;
  2. Доверительный интервал для конечной выборки;
Генеральная совокупность Бесконечная Конечная объема N
Тип отбора Повторный Бесповторный
Средняя ошибка выборки

Выборка называется повторной, если отобранный объект перед выбором следующего возвращается в генеральную совокупность. Выборка называется бесповторной, если отобранный объект в генеральную совокупность не возвращается. На практике обычно имеют дело с бесповторными выборками.

Расчет средней ошибки выборки при случайном отборе

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называется ошибкой репрезентативности.
Обозначения основных параметров генеральной и выборочной совокупности.

Характеристики Генеральная совокупность Выборочная совокупность
Объем совокупности (численность единиц) N n
Численность единиц, обладающих обследуемым качеством (признаком) M m
Доля единиц, обладающих обследуемым качеством (признаком), выборочная доля
Формулы средней ошибки выборки
повторный отбор бесповторный отбор
для средней для доли для средней для доли

Соотношение между пределом ошибки выборки (Δ), гарантируемым с некоторой вероятностью Р(t), и средней ошибкой выборки имеет вид: или Δ = t·μ, где t– коэффициент доверия, определяемый в зависимости от уровня вероятности Р(t) по таблице интегральной функции Лапласа.

Формулы расчета численности выборки при собственно-случайном способе отбора

Способ отбора Формулы определения численности выборки
для средней для доли
Повторный
Бесповторный

Найти численность выборки можно, использовав калькулятор.

Метод доверительных интервалов

Пример №1 . При проверке годности партии таблеток (250 шт.) оказалось, что средний вес таблетки 0,3 г, а СКО веса 0,01 г. Найти доверительный интервал, в который с вероятностью 90% попадает норма веса таблетки.
Решение.

Определяем значение tkp по таблицам функции Лапласа.
В этом случае 2Ф(tkp) = 1 — γ
Ф(tkp) = γ/2 = (1- 0.05)/2 = 0.475
По таблице функции Лапласа найдем, при каком tkp значение Ф(tkp) = 0.475
tkp(γ) = Ф(0.475) = 1.96

(0.3 — 0.206;0.3 + 0.206) = (0.094;0.51)
С вероятностью 0.9 можно утверждать, что среднее значение при выборке большего объема не выйдет за пределы найденного интервала.

Пример №2 . На площади в 70 га, занятой пшеницей, определяется с помощью выборочного метода доля посева, пораженная насекомыми вредителями. Сколько проб надо взять в выборку, чтобы при вероятности 0,997 определить искомую величину с точностью до 4%, если пробная выборка показывает, что доля пораженной посевной площади составляет 9%?

Решение ищем по формуле определения численности выборки для повторного отбора.
Ф(tkp) = γ/2 = 0.997/2 = 0,4985 и этому значению по таблице Лапласа соответствует tkp =2.96.
w = 9% = 0,09
Δ = 4% = 0,04
Итого: n = 2.96 2 *0,09(1-0,09)/0,04 2 = 448,4844 ≈ 449

Пример . При проверке веса импортируемого груза на таможне методом случайной повторной выборки было отобрано 100 изделий. В результате был установлен средний вес изделия 5000 г при среднем квадратическом отклонении 40 г. С вероятностью 0,950 определить пределы, в которых находится средний вес изделия в генеральной совокупности.

Решение

Поскольку n>30, то определяем значение tkp по таблицам функции Лапласа.
В этом случае 2Ф(tkp) = γ
Ф(tkp) = γ/2 = 0.95/2 = 0.475
По таблице функции Лапласа найдем, при каком tkp значение Ф(tkp) = 0.475
tkp(γ) = (0.475) = 1.96

(5000 — 78.4;5000 + 78.4) = (4921.6;5078.4)
С вероятностью 0.95 можно утверждать, что среднее значение при выборке большего объема не выйдет за пределы найденного интервала.

Пример . С надежностью γ=0.954 построить доверительный интервал для генеральной доли
Пример №1

Пример . По результатам выборочного наблюдения (выборка В приложение) вычислите несмещенные оценки среднего значения, дисперсии и среднего квадратического отклонения генеральной совокупности.
Скачать решение

Пример . Найдите доверительные интервалы для оценки среднего значения и среднего квадратического отклонения генеральных совокупностей при доверительной вероятности y, если из генеральных совокупностей сделана выборка В и y.
Скачать решение

1. Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи собственно-случайного 10-ти процентного бесповторного отбора, определить:
а) пределы, за которые с доверительной вероятностью 0,954 не выйдет среднее значение признака, рассчитанное по генеральной совокупности;
б) как нужно изменить объем выборки, чтобы снизить предельную ошибку средней величины на 50%.
2. Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи повторного отбора, определить:
а) пределы, за которые в генеральной совокупности не выйдет значение доли предприятий, у которых индивидуальные значения признака превышают моду с доверительной вероятностью 0,954;
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20 %.
Методические указания

Задание. Поточная линия по производству однотипных деталей подвергалась реконструкции Заданы две выборки отображающие процент брака в партиях деталей выпускаемых на данной линии до и после реконструкции Можно ли достоверно утверждать, что после реконструкции процент брака в партиях деталей снизился?

Пример . Ниже приведены данные по затратам на бурение (у.е.) для 49 скважин Западно-Сибирской нефтяной базы России:

129 142 132 61 96 96 142 17 135 32
77 58 37 132 79 15 145 64 83 120
11 54 48 100 43 25 67 25 140 130
48 124 29 107 135 101 93 147 112 121
89 97 60 84 46 139 43 145 29

В целях оценки затрат на бурение новой скважины:

  1. провести выборку собственно случайным способом объемом n=5;
  2. определить интервальные значения среднего генеральной совокупности (X) по рассчитанным выборочным показателям (X, s 2 ) с помощью функции t-распределения Стьюдента при уровне значимости α=0.05;
  3. определить точечное значение среднего генеральной совокупности (X) по исходным данным;
  4. оценить правильность интервальных расчетов, сравнивая точечное значение (X) с интервальным значением, рассчитанным по выборке;

Решение проводим с помощью этого калькулятора:

1. Выбираем 5 значений из таблицы. Пусть это будет 3 столбец: 132, 37, 48, 29, 60.
В разделе «Вид статистического ряда» выбираем Дискретный ряд . В поле Количество строк указываем 5.

2. Вводим исходные данные.

Поле «Доверительный интервал генерального среднего, дисперсия и среднеквадратическое отклонения » указываем значение γ = 0.95 (что соответствует α=0.05).

В поле « Выборка » указываем значение 10 (поскольку из 49 значений выбрали 5, что соответствует 10,2% (5/49×100%)).

В разделе «Выводит в отчет» отмечаем первый пункт «Доверительный интервал для генерального среднего» .

Нажимаем кнопку Далее .

3. Полученное решение сохраняется в формате Word (скачать).
Перед расчетами создается предварительная таблица, в которой подсчитывается количество повторений значений Х.

x (x — x ср) 2
29 1036.84
37 585.64
48 174.24
60 1.44
132 5012.64
306 6810.8

В данном случае все значения X встречаются ровно один раз. Интервальные значения среднего генеральной совокупности рассчитываются в разделе «Интервальное оценивание центра генеральной совокупности».
Примечание: в данном случае в расчетах используется Оценка среднеквадратического отклонения.

Задание №2: В целях изучения затрат времени на изготовление одной детали рабочими завода проведена 10% -ная случайная бесповторная выборка, в результате которой получено распределение деталей по затратам времени, представленное в прил. Б.
На основании этих данных вычислите:
а) средние затраты времени на изготовление одной детали;
б) средний квадрат отклонений (дисперсию) и среднее квадратическое отклонение;
в) коэффициент вариации;
г) с вероятностью 0,954 предельную ошибку выборочной средней и возможные границы, в которых ожидаются средние затраты времени на изготовление одной детали на заводе;
д) с вероятностью 0,954 предельную ошибку выборочной доли и границы удельного веса числа деталей с минимальными затратами времени на их изготовление. Перед тем как производить расчеты, необходимо записать условия задачи и заполнить табл. 2.1

Решение.
Для получения решения указываем следующие параметры:

  • Вид статистического ряда: Задан дискретный ряд ;
  • Количество групп: не делать группировку ;
  • Для построения доверительного интервала генерального среднего, дисперсии и среднеквадратического отклонения: y= 0.954 ;
  • Для построения доверительного интервала генеральной доли: y= 0.954 ;
  • Выборка: 10 ;
  • Выводить в отчет: Доверительный интервал для генерального среднего , Доверительный интервал для генеральной доли ;

Задание №3: Используя результаты расчетов, выполненных в задании №2 и полагая, что эти данные получены при помощи повторного отбора, определить:
а) пределы, за которые в генеральной совокупности не выйдет значение доли предприятий, у которых индивидуальные значения признака превышают моду с доверительной вероятностью 0.954 ;
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20% .

Решение.
Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи повторного отбора, определить:
а) пределы, за которые в генеральной совокупности не выйдет значение доли предприятий, у которых индивидуальные значения признака превышают моду с доверительной вероятностью 0.954 ;
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20%.

Задание №4: Из партии электроламп взята 20% -ная случайная бесповторная выборка для определения среднего веса спирали. Результаты выборки следующие. Вес, мг:38-40;40-42;42-44;44-46. Число спиралей:15;30;45;10. Определить с вероятностью 0.95 доверительные пределы, в которых лежит средний вес спирали, для всей партии электроламп.

Решение.
Вводим следующие параметры:

  • Вид статистический ряда: Задан интервальный ряд ;
  • Для построения доверительного интервала генерального среднего, дисперсии и среднеквадратического отклонения: y = 0.95 ;
  • Выборка: 20 ;
  • Выводить в отчет: Доверительный интервал для генерального среднего .

Задание №5: На заводе электроламп из партии продукции в количестве 16000 шт. ламп взято на выборку 1600 шт. (случайный, бесповторный отбор), из которых 40 шт. оказались бракованными. Определить с вероятностью 0.997 пределы, в которых будет находиться процент брака для всей партии продукции.

Решение.
Здесь N = 16000 , n = 1600 , w = d / n = 40/1600 = 0.025.

Источник

Поделиться с друзьями
Моя стройка
Adblock
detector