3.
Точечные и интервальные оценки.
Уровень значимости α.
Уровень значимости обычно обозначают греческой буквой (альфа).
Статистическая значимость результата представляет собой меру уверенности в его истинности (в смысле репрезентативности выборки). Более точно, уровень значимости
α - это показатель, обратно пропорциональный надежности результата. Более высокий уровень
соответствует более низкому уровню доверия найденным в выборке результатам, например, зависимостям между переменными. А именно, уровень значимости
представляет собой вероятность ошибки, связанной с обобщением наблюдаемого результата на всю популяцию.
Например, α
= 0.05 (т.е. 1/20) показывает, что имеется 5% вероятность того, что найденная в выборке зависимость между переменными является лишь случайной особенностью данной выборки. Иными словами, если данная зависимость в популяции отсутствует, а вы многократно проводили бы подобные эксперименты, то примерно в одном из двадцати повторений эксперимента можно было бы ожидать такой же или более сильной зависимости между изучаемыми переменными. Во многих исследованиях α
=0.05 рассматривается как приемлемая граница уровня ошибки.
Параметр
Параметр
– это величина, обычно неизвестная и, следовательно, подлежащая оценке, которая представляет определенную характеристику генеральной совокупности. Например, математическое ожидание
μ
распределения – это параметр, характеризующий центральную тенденцию. По имеющейся у нас выборке мы можем посчитать значение статистики, используемой для оценки параметра
.
Например
, среднее выборки дает информацию о среднем μ
генеральной совокупности, из которой была сделана эта выборка. Поскольку выборка случайна, это значение также случайно. Параметры часто обозначают греческими буквами (например, ), а соответствующие статистики – латинскими (например, s
).
Точечные и интервальные оценки.
Оценки неизвестных параметров бывают двух видов – точечные и интервальные
. Точечная оценка
- оценка имеющая конкретное числовое значение. Например, среднее арифметическое:
= (x1+x2+...+xn)/n,
где: - среднее арифметическое (точечная оценка математического ожидани
я
μ
); x1,x2,...xn - выборочные значения; n - объем выборки.
Интервальная оценка
- оценка представляемая интервалом значений, внутри которого с задаваемой исследователем вероятностью 1- α
находится истинное значение оцениваемого параметра. Интервал в интервальной оценке называется доверительным интервалом
, задаваемая исследователем вероятность, 1- α,
называется доверительной вероятностью
. В практике статистических вычислений применяются стандартные значения доверительной вероятности: 0,95, 0,98 и 0,99 (95%, 98% и 99% соответственно).
Например, пусть интервальная оценка математического ожидани
я
μ
равна (3; 8) при доверительной вероятности 0,95. Это означает, что μ
лежит в пределах от 3 до 8 с вероятностью 0,95, следовательно вероятность того, что μ
меньше 3 или больше 8 не превышает α
=0.05.
Выборочное среднее
Перечень всех значений, которые может принимать среднее выборки (или выборочное среднее), а также указание того, как часто эти значения встречаются, называется выборочным распределением
выборки. В соответствии с центральной предельной теоремой,
при увеличении размера выборкиn
выборочные средние начинают подчиняться нормальному распределению вероятностей и концентрироваться вокруг среднего значения генеральной совокупности. Это утверждение оказывается верным независимо от распределения совокупности, из которой была получена выборка.
Распределение всех возможных выборочных средних является приблизительно нормальным для выборок достаточно большого размера.
Изменчивость (стандартное отклонение) выборочного распределения измеряется стандартными ошибками. Стандартная ошибка среднего рассчитывается по формуле:
.
По мере увеличения размера выборки из
Доверительный интервал
- это допустимое отклонение наблюдаемых значений от истинных. Размер этого допущения определяется исследователем с учетом требований к точности информации.
Доверительные интервалы для среднего
задают область вокруг среднего, в которой с заданным уровнем доверия содержится "истинное" среднее популяции. Если среднее в вашей выборке равно 23, а нижняя и верхняя границы для =0.05 равны 19 и 27 соответственно, то вы можете заключить, что с 95% вероятностью среднее выборки больше 19 и меньше 27.
Говоря более точно, если вы последовательно вычисляете доверительный интервал по большому количеству независимых случайных выборок одинакового размера, то 95% этих интервалов будут, действительно, включать в себя истинные значения среднего, т. е. в 95% случаев вы окажетесь правы, утверждая, что истинное значение среднего содержится внутри данного доверительного интервала.
Если вы установите меньшее значение -уровня, то интервал будет шире, и увеличится "уверенность" в оценке, и наоборот; как мы знаем из прогнозов погоды, чем "неопределеннее" прогноз (т.е. шире доверительный интервал), тем скорее он сбудется. Заметим, что ширина доверительного интервала зависит от размера выборки и дисперсии наблюдений. Вычисление доверительных интервалов основывается на предположении, что переменная в совокупности нормально распределена
.
A. Маленькая выборка (n
<60).
Для нахождения доверительных интервалов для среднего значения используем следующие формулы:
,
нижняя граница верхняя граница
где среднее по выборке;
s
выборочное стандартное отклонение;
n
объём выборки;
- стандартная ошибка
уровень значимости;
- t
-значение Стьюдента.
В
Excel
е для нахождения доверительных интервалов можно использовать специальные функции. Прежде всего надо найти выборочное среднее и стандартное отклонение (используя STDEV-
функцию), после этого использовать формулы:
нижняя граница
= - TINV(
a;
n-1)
*/SQRT(
n)
верхняя граница =
+ TINV(
a;
n-1)
*/SQRT(
n)
B. Болшая выборка (n
³ 60)
Для нахождения доверительных интервалов для среднего значения используем следующие формулы:
,
нижняя граница
верхняя граница
где - z-значение из стандартного нормального распределения, соответствующее желаемому доверительному интервалу.
Excel
: Аналогично, как и в предыдущем пункте находим прежде всего стандартное отклонение (используя не STDEV
-функцию, а STDEVP
). Далее:
нижняя граница
= - CONFIDENCE(
a;
s
;
n
)
верхняя граница
= + CONFIDENCE(
a;
s
;
n
)
Задачи.
1) В течении 124 дней учитывали количество заказов. Откройте файл Orders.xls.
Используя уровень значимости α
= 0.01
; 0.05
, найдите доверительный интервал для среднего значения.
2) Автобаза проявляет интерес к времени потраченному на ремонт машин. Анализ эксплуатации 9-ти машин показал, что машины в течение года были в ремонте 16, 10, 21, 22, 8, 17, 19, 14, 19 дней соответственно. Найти доверительный интервал для среднего времени ремонта машин на уровне доверия 95%.
3) В обслуживающей фирме каждый день регистрировали число поступивших жалоб. Для исследования среднего числа заявлений были случайно выбраны 7 дней. Число жалоб в эти дни: 10, 12, 8, 5, 11, 9, 14, соответственно. Вычислить доверительный интервал для среднего числа ежедневных заявлений на уровне доверия 99%.