microbik.ru
1 2 3 4


Федеральное агентство по образованию

Бийский технологический институт (филиал)

государственного образовательного учреждения

высшего профессионального образования

«Алтайский государственный технический университет
им. И.И. Ползунова»

А.В. Фролов
Методы проверки статистических гипотез

в Excel
Методические рекомендации по выполнению лабораторной работы

по дисциплине «Статистические методы в управлении качеством»

для студентов специальности 220501.65 «Управление качеством»



Бийск

Издательство Алтайского государственного технического университета

им. И.И. Ползунова

2010

УДК 658.5(076)
Рецензент: к.т.н., доцент кафедры ПБиУК БТИ АлтГТУ

А.Ю. Козлюк
Работа подготовлена на кафедре производственной безопасности и управления качеством.
Фролов, А.В.

Методы проверки статистических гипотез в Excel: методические рекомендации по выполнению лабораторной работы по дисциплине «Статистические методы в управлении качеством» для студентов специальности 220501.65 «Управление качеством» / А.В. Фролов; Алт. гос. техн. ун-т, БТИ. – Бийск: Изд-во Алт. гос. техн. ун-та, 2010. – 27 с.

Методические рекомендации содержат основные сведения о статистических гипотезах и методах их проверки. Проверка гипотез является статистической процедурой для проверки обоснованности гипотезы, рассматривающей параметры качества одной или нескольких выборок с определенным уровнем доверия. Такая проверка дает возможность сделать вывод о верности гипотезы на основании рассмотрения параметров совокупности данных о качестве продукции с определенным уровнем доверия. Tакая же процедура может быть применена и для проверки соответствия параметров совокупности данных о качестве продукции определенному стандарту или для проверки отличий в двух или нескольких совокупностях данных.

Методические рекомендации могут быть использованы при изучении и закреплении теоретического курса дисциплины «Управление процессами».
УДК 658.5(076)

Рассмотрены и одобрены на заседании кафедры производственной

безопасности и управления качеством.

Протокол № 07/09 от 25.09.2009 г.
© А.В. Фролов, 2010

© БТИ АлтГТУ, 2010




СОДЕРЖАНИЕ

1 Понятие статистической гипотезы………………………………

4

1.1 Двухвыборочный z-тест для средних………………………..

5

1.2 Двухвыборочный t-тест с одинаковыми и различными дисперсиями……………………………………………………........

12

1.3 Двухвыборочный F-тест для дисперсий…………………….

17

2 Дисперсионный анализ…………………………………………...

20

3 Порядок выполнения работы…………………………………….

25

4 Контрольные вопросы……………………………………………

25

Литература…………………………………………………………..

26



1 ПОНЯТИЕ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (по результатам наблюдений). Процедуру сопоставления высказанной гипотезы с выборочными данными называют проверкой статистической гипотезы.

По прикладному содержанию можно выделить следующие неосновные виды высказываемых в ходе статистической обработки выданных гипотез:

  • о типе закона распределения исследуемой случайной величины;

  • об однородности двух или нескольких обрабатываемых выборок или некоторых характеристик анализируемых совокупностей;

  • о числовых значениях исследуемой генеральной совокупности;

  • о типе зависимости между компонентами исследуемого многомерного признака;

  • о независимости и стационарности обрабатываемого ряда наблюдений.

Проверяемую статистическую гипотезу принято называть основной (или нулевой) гипотезой (обозначается H0), а противоречащую ей гипотезу – альтернативной (или конкурирующей) гипотезой (обозначается Н1).

Поскольку при проверке статистических гипотез приходится иметь дело со статистическим материалом, то, отвергая или принимая нулевую гипотезу, всегда рискуем совершить ошибку. Ошибку, заключающуюся в том, что нулевая гипотеза отвергается, тогда как она в действительности верна, называют ошибкой первого рода. Ошибку, состоящую в том, что нулевая гипотеза не отвергается, тогда как она в действительности неверна, называют ошибкой второго рода.

Проверка статистических гипотез осуществляется с помощью различных статистических критериев. В качестве критерия используется некоторая случайная величина, значения которой могут быть вычислены на основе имеющихся данных. В множестве возможных значений критерия выбирается подмножество, называемое критической областью. Если вычисленное значение критерия принадлежит критической области, то нулевая гипотеза отвергается. Критическая область выбирается таким образом, чтобы вероятность совершить ошибку первого рода не превосходила некоторого заранее определенного положительного числа . Это число  называют уровнем значимости и говорят: «нулевая гипотеза отвергается на уровне значимости », в качестве  обычно берут одно из чисел: 0,05; 0,01; 0,001.

Вероятность совершить ошибку второго рода обозначается . Величина 1– называется мощностью критерия; она равна вероятности отвергнуть неверную гипотезу.

Чаще всего множество возможных значений критерия принадлежит некоторому интервалу. Интервалом является и критическая область. Граничные точки критической области называются критическими точками. Критические точки выбираются таким образом, чтобы при выбранном уровне значимости  мощность критерия (1–) была наибольшей.

Возможны три вида расположения критической области (в зависимости от вида нулевой и альтернативной гипотез, вида и распределения статистического критерия ):

1) правосторонняя критическая область, состоящая из интервала , где точка определяется из условия и называется правосторонней критической точкой, отвечающей уровню значимости ;

2) левосторонняя критическая область, состоящая из интервала
(– ; ), где точка определяется из условия и называется левосторонней критической точкой, отвечающей уровню значимости ;

3) двусторонняя критическая область, состоящая из следующих двух интервалов: (–;) и (;+), где точки и определяются из условий и и называются двусторонними критическими точками.

Наиболее распространенными являются критерии, в основе которых лежат известные распределения: 2, Стьюдента, Фишера.
1.1 Двухвыборочный z-тест для средних
Режим работы «Двухвыборочный z-тест для средних» служит для проверки гипотезы о различии между средними (математическими ожиданиями) двух нормальных распределений с известными дисперсиями.

В диалоговом окне данного режима (рисунок 1) задаются следующие параметры:


  • интервал переменной 1. Вводится ссылка на ячейки, содержащие результаты наблюдений величины X. Диапазон данных должен состоять из одного столбца или одной строки;

  • интервал переменной 2. Вводится ссылка на ячейки, содержащие результаты наблюдений величины Y. Диапазон данных должен состоять из одного столбца или одной строки;

  • гипотетическая средняя разность. Вводится число, равное предполагаемой разности средних (математических ожиданий) изучаемых генеральных совокупностей. Значение 0 указывает на то, что проверяется гипотеза Н0: axy;

  • дисперсия переменной 1 (известная). Вводится известное значение дисперсии генеральной совокупности величины X;

  • дисперсия переменной 2 (известная). Вводится известное значение дисперсии генеральной совокупности величины Y;

  • метки;

  • альфа. Вводится уровень значимости , равный вероятности возникновения ошибки первого рода (отвержение нулевой гипотезы);

  • выходной интервал/ Новый рабочий лист/ Новая рабочая книга.



Рисунок 1 – Диалоговое окно режима

«Двухвыборочный z-тест для средних»
Пример 1. Выборочные данные о диаметре валиков (мм), изготовленных автоматом 1 и автоматом 2, приведены в таблице 1, сформированной на рабочем листе Microsoft Excel.
Таблица 1 – Выборочные данные

 

С

D

E

23

Номер

Автомат 1

Автомат 2

24

1

182,30

185,30

25

2

183,00

185,60

26

3

181,80

184,80

27

4

181,40

186,20

28

5

181,80

185,80

29

6

181,60

184,00

30

7

183,20

184,20

31

8

182,40

185,20

32

9

182,50

184,20

33

10

179,70

 

34

11

179,90

 

35

12

181,90

 

36

13

182,80

 

37

14

183,40

 

38

Среднее

182,00

185,00


По выборке объема n = 14 найден средний размер = 182,0 мм диаметра валиков, изготовленных автоматом 1 (ячейка D38 содержит формулу =CP3HAЧ(D24:D37)). По выборке объема m = 9 найден средний размер =185,0 мм диаметра валиков, изготовленных автоматом 2 (ячейка E38 содержит формулу =СРЗНАЧ(Е24:Е32)).

Кроме того, предварительным анализом установлено, что размер диаметра валиков, изготовленных каждым автоматом, имеет нормальный закон распределения с дисперсией х2 = 5 мм2 для автомата 1 и у2 = 7 мм2 для автомата 2. Можно ли при уровне значимости  = 0,05 объяснить различие выборочных средних случайной величиной? Или, иными словами, при уровне значимости  = 0,05 требуется проверить гипотезу H0: ax = ay.

Для решения задачи используем режим работы «Двухвыборочный z-тест для средних». Значения параметров, установленных в одноименном диалоговом окне, представлены на рисунке 2, а рассчитанные в данном режиме показатели – в таблице 2.


Рисунок 2 – Диалоговое окно режима с заданными параметрами
Таблица 2 – Результаты расчета для режима «Двухвыборочный

z-тест для средних»

 

С

D

E

41

Двухвыборочный z-тест для средних

42

 

 

 

43

 

Автомат 1

Автомат 2

44

Среднее

181,98

185,03

45

Известная дисперсия

5

7

46

Наблюдения

14

9

47

Гипотетическая разность средних

0




48

z

–2,867




49

P(Z<=z) одностороннее

0,002




50

z критическое одностороннее

1,645




51

P(Z<=z) двухстороннее

0,004




52

Z критическое двухстороннее

1,960





Так как значение zp попадает в критическую область (|zp |>| zкр |; 2,867 > 1,96), то гипотеза H0:ax = ay отвергается, т.е. считаем, что различие выборочных средних неслучайно.

Дадим более подробное пояснение проведенным расчетам, на основании которых и строился сформулированный вывод.

Так как нулевая гипотеза имеет вид H0: ax = ay, то альтернативная ей гипотеза будет иметь соответственно вид H1: axay, т.е. включать в себя два условия: ах<ay и ах>ay. В этом случае критическая область будет определяться двумя интервалами (–;) и (;+), где критические точки и определяются из условий и , которые с учетом равенства zкр = N(0,1) запишем в следующем виде: и .

По данной схеме находятся критические точки = –1,96 и = 1,96 (показатель z критическое двустороннее в таблице 2), задающие критическую область (–; –1,96)(1,96; +). Модуль значений критических точек рассчитывается по формуле

=НОРМСТОБР(1–0,05/2) в ячейке D52.

Расчетное значение критерия zp вычисляется в ячейке D48 по формуле =(D44–Е44)/КОРЕНЬ(D45/D46+Е45/Е46), где в ячейках D44 и Е44 рассчитываются средние значения выборок с помощью функции СРЗНАЧ; в ячейках D45 и Е45 содержатся значения дисперсий, установленные в диалоговом окне Двухвыборочный z-тест для средних; в ячейках D46 и Е46 рассчитываются объемы выборок с помощью функции СЧЕТ.

Расчетное значение критерия zp=–2,867 попадает в критический интервал (–; –1,96), поэтому нулевая гипотеза H0:ax = ay отвергается на уровне значимости  = 0,05.

следующая страница >>