См. также: Прикладная математическая статистика (материалы к семинарам)

 

Заводская лаборатория. Диагностика материалов. 2001. Т. 67. - № 7. - С. 62-71.

 

УДК 519.24

 

О ЗАВИСИМОСТИ РАСПРЕДЕЛЕНИЙ СТАТИСТИК НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ И ИХ МОЩНОСТИ ОТ МЕТОДА ОЦЕНИВАНИЯ ПАРАМЕТРОВ

 

Б.Ю. Лемешко, С.Н. Постовалов

 

Введение

 

            Известно, что непараметрические критерии согласия (Колмогорова, Смирнова,  и  Мизеса) при оценивании по той же выборке пара­метров распределений вероятностей, то есть при проверке сложных гипотез, теряют свойство “свободы от распределения”. В такой ситуации предельные распре­деления статистик этих критериев будут зависеть от закона, которому подчи­нена наблюдаемая выборка. Точкой отсчета, с которой начались исследования предельных (и допредельных) распреде­лений статистик непараметрических критериев согласия при сложных гипотезах, послужила работа [1].

В литературе научного характера изложен ряд подходов к использова­нию непараметрических критериев согласия в этом случае.

            При достаточно большой выборке ее можно разбить на две части и по одной из них оценивать параметры, а по другой проверять согласие. В случае больших объемов выборки такой подход оправдан [2]. Но если объем вы­борки относительно невелик, то способ разбиения ее на две части будет отра­жаться и на оценках параметров, и на распределениях статистик критериев со­гласия.

            Для случая принадлежности выборки нормальному закону предельные распределения статистики критерия типа  Мизеса при оценивании одного или обоих параметров по методу максимального правдоподобия получены анали­тически и табулированы [3].

            В некоторых частных случаях проверки сложных гипотез, например, при оценивании параметров распределений экспоненциального, нормаль­ного, экстремальных значений, Вейбулла и некоторых других законов, таблицы процентных точек для предельных распределений статистик непарамет­ри­че­ских критериев получены методом статистического моделирования [4-7].

            В работах [8-11] для статистик типа Колмогорова для некото­рых за­конов, соответствующих гипотезе , получены формулы для при­ближен­ного вычисления вероятностей “согласия” вида , где  - вычисленное по выборке значение соответствующей статистики . Эти фор­мулы дают достаточно хорошие приближения при малых значениях соответ­ствующих вероятностей. С помощью таких формул вычисляются вероятности вида  в пакете STADIA [12].

            Нами в результате компьютерного моделирования распределений стати­стик непараметрических критериев для ряда законов, соответствующих гипо­тезе , найдены аналитически простые модели, которые хорошо аппрокси­мируют предельные распределения статистик непараметрических критериев согласия в случае проверки сложных гипотез, когда при оценивании по вы­борке параметров используется метод максимального правдоподобия [13, 14].

Тем не менее, полученные более чем за 40 лет исследований таблицы процентных точек и предельные распределения статистик непарамет­ри­ческих критериев ограничены относительно узким кругом сложных гипотез. В самом деле, распределения статистик (или их процентные точки) при проверке слож­ных гипотез получены лишь для порядка 15 законов, в то время как множе­ство вероятностных моделей, используемых в прило­жениях для описания ре­альных случайных величин, существенно шире.

Более того, для многих исследователей очевиден факт зависимости рас­пределений статистик непараметрических критериев согласия от метода оце­нивания параметров. Следует также учитывать, что распределения статистик существенно зависят от объёма выборки. В настоящий момент вопросы при­менения непараметрических критериев согласия при проверке сложных гипо­тез в связи с различием в методах оценивания вообще не отражены в научных публикациях.

            Исходя из вышесказанного, понятно, почему в отечественных и меж­ду­народных стандартах, регламентирующих применение статистических мето­дов, нет указаний по использованию непараметрических критериев в случае проверки сложных гипотез. Тем более, нет указаний по учету нюансов, свя­занных с используемым методом оценивания.

            Игнорирование на практике того, что проверяется сложная гипотеза, не учет фактов различия в сложных гипотезах, приводит к некорректному при­менению непараметрических критериев согласия и неверным статис­тическим выводам в приложениях. Предостережения против неаккуратного применения критериев согласия при проверке сложных гипотез неодно­кратно звучали на страницах “Заводской лаборатории” [15-17].

            В работе [18], используя методы статистического моделирования, мы исследовали, как отражается объем наблюдаемой выборки на распреде­лениях статистик непараметрических критериев согласия при простых и сложных ги­потезах и как влияет на эти распределения приме­няемый метод оценивания параметров.

            В данном случае мы попытаемся дать более полную картину того, что и как влияет на распределения статистик непараметрических критериев согла­сия. Полученное представление, надеемся, будет способствовать корректному применению непараметрических критериев согласия при любых сложных ги­потезах и любых методах оценивания.

С использованием критериев согласия могут проверяться простые ги­потезы вида : , где  – функция распределения веро­ятностей, с которой проверяется согласие наблюдаемой выборки, а  – из­вестное значение параметра (скалярного или векторного), и сложные гипотезы : , где  – пространство параметров и оценка параметра  вычисляется по этой же самой выборке. Если оценка  вычисляется по другой выборке, то гипотеза про­стая. В процессе проверки по выборке вычисляется значение  статистики используемого критерия. Далее, для того, чтобы сделать вывод о том, при­нять или отклонить гипотезу , необходимо знать условное распределение  статистики  при справедливости . И если вероятность

достаточно большая, по крайней мере , где  – условная плотность, а  – задаваемый уровень значимости (вероятность ошибки пер­вого рода – отклонить справедливую гипотезу ), то принято считать, что нет оснований отклонять гипотезу .

Если в процессе анализа выборки рассматривается некоторая альтер­на­тива : , то с ней связывают условное распределение  и вероятность ошибки второго рода  (принять гипотезу , в то время как верна гипотеза ). Задание  для применяемого критерия согла­сия однозначно определяет и :

,   .

При этом, чем больше мощность критерия , тем лучше он различает соот­ветствующие гипотезы.

Как уже говорилось, распределения статистик непараметрических кри­териев согласия при проверке сложных гипотез зависят от характера этой сложной гипотезы. На закон распределения статистики  влияет целый ряд факторов, определяющих “сложность” гипотезы: вид наблюдаемого за­кона распределения , соответ­ству­ющего истинной гипотезе ; тип оцениваемого пара­метра и количество оцениваемых параметров; в некоторых ситуациях конкретное значение параметра, как, например, в случае гамма-рас­пре­деления; используемый метод оценивания параметров. При малых объемах выборки  распределение  зависит и от . Правда, существенная за­виси­мость от  наблюдается только при небольших объемах выборки. Уже при  распределение  достаточно близко к предельному , и зависимостью от  можно пренебречь.

            В случае задания конкретной альтернативы (конкурирующей гипо­тезы , которой соответствует распределение ), функция распре­деления статистики  также зависит от всех перечисленных факто­ров. Но в от­личие от  распределение статистики  при спра­ведливой ги­потезе  очень сильно зависит от объема выборки . Именно благодаря этому с ростом  возрастает способность критериев различать гипотезы, возрастает мощность критериев.

            Как и в [14], в данной работе исследовались распределения статистик критериев типа Колмогорова, Смирнова,  и  Мизеса. При изложении материала и использовании терминов, относящихся к рассматриваемым критериям, мы старались следовать рекомендациям работы [19]. При исследовании и моделировании эмпирических распределений статистик , , во всех приводимых ниже примерах, иллюстрирующих распределения стати­стик критериев, количество моделируемых выборок  объема  выбиралось равным 2000. Мы выбрали графическую форму иллюстрации материала, так как она наиболее наглядно отображает изменения в законах распределения статистик в зависимости от различных факторов. Цель данной работы еще раз заострить внимание специалистов, использующих статистические методы в приложениях, на особенностях применения непараметрических критериев при проверке сложных гипотез. В дальнейшем мы планируем представить результаты аппроксимации законов распределений исследуемых статистик для различных сложных гипотез, уточняющие результаты, приведенные в [14], и расширяющие их в соответствии с излагаемыми в данной статье новыми фактами.

 

Распределения статистик непараметрических критериев согласия при простых гипотезах

 

Распределение статистики

,

где  – эмпирическая функция распределения,  – теоретическая функция распределения,  – объём выборки, было получено Колмогоровым в [20]. При  распределение статистики  сходится рав­но­мер­но к распределению Колмогорова с функцией распре­деления  [21]. Наиболее часто в критерии Колмогорова (Колмогорова-Смир­нова) используется стати­стика вида [21]

,

где  

 - объем выборки,  - упорядоченные по возрастанию вы­бо­роч­ные значения,  - функция закона распределения, согласие с которым про­веряется. Распределение величины  при простой гипотезе в пределе подчиняется закону Колмо­горова.

            Статистика критерия Смирнова [21]

 

при простой гипотезе в пределе подчиняется распределению  с числом степеней свободы, равным 2.

            Статистика критерия  Мизеса (Крамера-Мизеса-Смирнова)

при простой гипотезе подчиняется распределению  [21], а статистика критерия  Мизеса (Андерсона-Дарлинга)

– распределению  [21].

 

Влияние объёма выборки на распределения статистик непараметрических критериев при простых и сложных гипотезах

 

            Методами статистического моделирования нами была исследована зави­симость распределений статистик непараметрических критериев от объема выборки при проверке различных простых и сложных гипотез.

            Например, на рис. 1 показано, как при увели­чении объёма выборки (=5,10,20) меняется распреде­ле­­ние  статис­тики Колмогорова  в случае проверки простой гипотезы о принадлежности выборки нормальному закону. На рисунке отражена также предельное распределение статистики – функция распределения Колмогорова . Эмпирические распределения  при больших  практически сливаются с  и на рисунке не показаны. Как видим, при малых  рас­пре­де­ле­ние существенно отли­чается от предельного, но уже при  ошибка при вычислении вероят­ности “согласия”  оказывается достаточно малой. Та же самая картина наблюдается в случае проверки сложных гипотез о согласии. На рис. 2 при = 5, 10, 20, 1000 представлены распределения  статистики типа Колмогорова  в случае проверки аналогичной, но уже сложной, гипотезы о нормальности, ко­гда по выборке вычисляются оценки максимального правдоподобия (ОМП) параметров нормального закона.

 

Рис. 1. Зависимость от  распределений  статистики  Колмогорова при простой гипотезе ( - нормальное распределение): = 5, 10, 20, .

 

Рис. 2. Зависимость от  распределений  статистики критерия типа  Колмогорова  при сложной гипотезе ( - нормальное распределение, ОМП): = 5, 10, 20, 1000.

 

            Следует отметить, что при малых  наибольшие отклонения от предель­ных рас­пре­деле­ний наблюдаются на “хвостах”. И при простых, и при сложных гипотезах с ростом  распределения  равномерно сходятся к пре­дельному. Но если в случае простых гипотез с ростом  увеличивается веро­ятность больших зна­чений статистик, то в случае сложных возрастают веро­ятности и больших, и малых значений статистик. Последнее замечание спра­ведливо для распреде­лений статистик , , .

Рис. 3 иллюстрирует изменения с ростом  распределений  статис­тики типа  Мизеса  при проверке сложной гипотезы о нормаль­ности и использовании при оценивании параметров метода мак­си­мального правдопо­добия. Чтобы подчер­кнуть разницу в распределениях ста­тистик при простых и сложных гипотезах, на рисунке приведены  при = 5, 20, 1000 и  – предельная функция распределения статистики  при проверке простой гипотезы.

 

Рис. 3. Зависимость от  распределений  статистики типа  Мизеса  при сложной гипотезе ( - нормальное распределение, ОМП): = 5, 20, 1000.

 

            Таким образом, проведенные исследования позволяют утверждать, что распределения  статистик непараметрических критериев (и типа Колмогорова, и типа  Мизеса) при про­с­тых и сложных гипотезах очень быстро сходятся к предельным законам, и уже при  можно, не опасаясь больших ошибок, пользоваться этими пре­дельными законами при анализе данных.

Однако последний вывод не означает, что при малых объемах выборок с помощью этих критериев можно успешно различать близкие гипотезы. О труд­ности различения близких законов распределения, в частности, с помо­щью критерия согласия Колмогорова подчеркивалось в работе [22].

 

Влияние объема выборки на мощность непараметрических критериев при простых и сложных гипотезах

 

Способность различать близкие гипотезы зависит от того, насколько сильно отличаются распределения  и .

Рассмотрим две близкие гипотезы:  - нормальное распределение с плотностью  и параметрами , ;  - логистическое с такими же параметрами ,  и плотностью . О бли­зос­ти этих за­конов распределения можно судить по рис. 4, на котором представлены их функции распределения. Рис. 5. иллюстрирует зависимость от  рас­пре­деле­ний  статистики  Колмогорова при проверке простой гипо­тезы  (= 20, 100, 500, 1000), а рис. 6 – при проверке сложной (при использова­нии ОМП).

 

Рис. 4. Функции распределения нормального и логистического законов

 

Рис. 5. Зависимость от  распределений  статистики  Колмогорова при простой гипотезе ( - нормальное распределение,  - логистическое): = 20, 100, 500, 1000.

 

Рис. 6. Зависимость от  распределений  статистики критерия типа Колмогорова  при сложной гипотезе ( - нормальное распределение,  - логистическое, ОМП):

= 20, 100, 500, 1000.

 

Подчеркнем два очевидных момента, которые подтверждаются резуль­татами исследований и отражены на рис. 5-6. Во-первых, ясно, что при малых выборках пытаться различать с помощью непараметрических критериев со­гласия близкие гипотезы (особенно простые) абсолютно бесполезно. Во-вто­рых, мощность непараметрических критериев при проверке сложных гипотез при тех же объемах выборок  всегда на порядок выше, чем при проверке простых.

Для сравнения на рис. 7-8 представлены распределения  стати­стики  при проверке простой (рис. 7) и сложной гипотезы (рис. 8) для тех же самых альтернатив  и . Интересно отметить, что для данной пары альтернатив в случае проверки сложной гипотезы критерий согласия типа  Мизеса обладает несколько большей мощностью при раз­личении близких гипотез, чем критерий типа Кол­мо­го­рова, а в случае простых – наоборот.

 

Рис. 7. Зависимость от  распределений  статистики  Мизеса   при простой гипотезе ( - нормальное распределение,  - логистическое):

= 20, 100, 500, 1000.

 

Рис. 8. Зависимость от  распределений  статистики типа  Мизеса  при сложной гипотезе ( - нормальное распределение,  - логистическое, ОМП): = 20, 100, 500, 1000.

 

Отметим попутно, что при проверке простых гипотез непара­мет­ри­че­ские критерии типа Колмогорова, Смирнова,  и  Мизеса уступают по мощности критериям типа , особенно, если в последних используется асимптотически оптимальное группирование [23-25], но при проверке слож­ных – непараметрические критерии оказываются более мощными. Для того, чтобы воспользоваться их преимуществами, надо только знать распределение  при проверяемой сложной гипотезе.

 

Влияние метода оценивания на распределения статистик непараметрических критериев при сложных гипотезах

 

Распределения статистик критериев согласия существенно зависят от метода оценивания параметров. Строго говоря, каждому типу оценок при конкретной сложной проверяемой гипотезе соответствует своё предельное распределение  статистики. Нами исследовалось влияние на распределения статистик различных методов оценивания. В данном случае по следующим причинам при проверке сложных гипотез сравниваются результаты ис­поль­зо­ва­ния ОМП и MD-оценок. Оценки максимального правдоподобия наиболее предпочтительны благодаря своим асимптотическим свойствам [26,27]. В случае MD-оценок может минимизироваться значение статистики, исполь­зуе­мой в критерии, то есть будет получено распределение минимума соответствующей статистики.

ОМП вычисляются в результате максимизации по  функции прав­до­по­добия

или её логарифма

.

Чаще всего ОМП определяются в случае скалярного параметра как решение уравнения, а в случае векторного параметра как решение системы уравнений правдоподобия вида

,                          (1)

где  – размерность вектора параметров . В общем случае эта система ока­зывается нелинейной и, за редким исключением, решается только численно.

Сделаем важное замечание, которое следует иметь ввиду. В данном слу­чае, как и в [14], при проведении исследований ОМП вычислялись как решение системы (1). Использование же различных приближений ОМП соот­ветственно отразится на распределениях статистик и свойствах критериев. В частности, вопросом отдельного исследования является проверка того, насколько сильно будут меняться распределения статик критериев согласия в случае применения одношаговых оценок [28], являющихся приближениями ОМП.

При вычислении MD-оценок минимизируется соответствующее рассто­яние между эмпирическим и теорети­ческим распределениями. При исполь­зо­вании статистики Колмогорова  в качестве оценки вектора параметров  выбираются значения, минимизирую­щие эту статистику:

(MD-оценки ). Аналогично, при использовании статистики  миними­зи­ру­ется по  статистика :

(MD-оценки ).

Влияние метода оценивания на распределение статистики иллюстрирует рис. 9, на котором показаны полученные в результате моделирования плотно­сти распределения  статистики критерия типа Колмогорова  при вычислении оценок параметра сдвига нормального распределения тремя раз­личными методами: минимума статистики  (график отмечен цифрой “1”), минимума статистики  (“2”) и максимального правдоподобия (“3”). На ри­сунке через  обозначена функция плотности распределения Колмо­го­рова.

 

Рис. 9. Плотности распределения  статистики  критерия типа Колмогорова  при проверке сложной гипотезы ( - нормальное распределение, оценивается параметр сдвига: 1 - с исполь­зо­ванием MD-оценок , 2 - с использованием MD-оценок , 3 - с использованием ОМП)

 

Рис. 10. Распределения  статистики критерия типа Колмо­горова  при оценивании двух параметров закона, соответствую­щего гипотезе  (1 – нор­маль­ного, 2 – логистического, 3 – Лапласа, 4 – наименьшего значения, 5 – Коши). При использовании ОМП.

 

            На рис. 10 представлены распределения  статистики типа Колмо­го­рова  при проверке сложной гипотезы с использованием метода мак­си­ма­ль­­ного правдоподобия для оценивания двух параметров закона, соот­ветст­вую­щего гипотезе  (1 – нормального, 2 – логистического, 3 – Лапласа с плотностью , 4 – наименьшего значения с плотностью , 5 – Коши с функцией плот­ности . На рис. 11 представлены распре­деления  той же статистики  при проверке тех же гипотез, но с использованием MD-оценок параметров, полученных минимизацией по параметрам статистики .

            На рис. 12 приведены распределения статистики типа  Мизеса    для аналогичных гипотез  при использовании ОМП, а на рис. 13 – при использовании MD-оценок, минимизирующих по параметрам статистику .

 

Рис. 11. Распределения  статистики критерия типа Колмо­горова  при оценивании двух параметров закона, соответствую­щего гипотезе  (1 – нор­маль­ного, 2 – логистического, 3 – Лапласа, 4 – наименьшего значения, 5 – Коши). При использовании MD-оценок .

 

Рис. 12. Распределения  статистики критерия типа  Мизеса  при оценивании двух параметров закона, соответствую­щего гипотезе  (1 – нор­маль­ного, 2 – логистического, 3 – Лапласа, 4 – наименьшего значения, 5 – Коши). При использовании ОМП.

 

Рис. 13. Распределения  статистики критерия типа  Мизеса  при оцени­ва­нии двух параметров закона, соответствую­щего гипотезе  (1 – нор­маль­ного, 2 – логис­ти­ческого, 3 – Лапласа, 4 – наименьшего значения, 5 – Коши). При MD-оценках .

 

            При использовании MD-оценок, минимизирующих по параметрам ста­тистику , эмпирические распределения смоделированных распределений  практически совпадают для законов нормального, логистического, Лапласа, наименьшего значения, максимального значения с плотностью , распределения Вейбулла с плот­нос­тью  и хорошо аппроксимируются логарифми­чес­ки нормальным законом с плотностью  и пара­метрами , .

            На рис. 14 представлены распределения  статистики типа  Мизеса  при использовании MD-оценок  и оценивании мас­штабного параметра закона, соответствую­щего гипотезе  (1 – нор­маль­ного, 2 – логистического, 3 – Лапласа, 4 – наименьшего значения, 5 – Коши, 6 – максималь­ного значения, 7 – Вейбулла при оценивании параметра формы). На рис. 15 представлены аналогичные распределения статистик при оценивании параметра сдвига тех же распределений, что и на рис. 14. Распределения ста­тистик в случае оценивания параметра сдвига распределения максимального значения и масштабного параметра распределения Вейбулла совпадают с рас­пределением статистики для распределения минимального значения.

 

Рис. 14. Распределения  статистики критерия типа  Мизеса  при оценивании масштабного параметра закона, соответствую­щего гипотезе  (1 – нор­маль­ного, 2 – логистического, 3 – Лапласа, 4 – наименьшего значения, 5 – Коши, 6 –максималь­ного значения, 7 – Вейбулла, параметр формы). При использовании MD-оценок .

 

Рис. 15. Распределения  статистики критерия типа  Мизеса  при оце­нивании параметра сдвига, соответствую­щего гипотезе  (1 – нор­маль­ного, 2 – логис­тического, 3 – Лапласа, 4 – наименьшего значения, 5 – Коши). При MD-оценках .

 

Если обратить внимание на рис. 16, на котором отображены распре­де­ления  статистики  при проверке согласия с распределениями экспоненциальным , полунор­маль­ного , Рэ­лея , Максвелла , модуля -мерного () нор­мального вектора  при оценивании масштабного параметра соответствующего закона с использованием MD-оце­нок , то заметим, что распределения статистик близки к приведенным на рис. 15. Распределения статистик, приведенные на рис. 16 достаточно хорошо аппроксимируются логарифми­чес­ки нормальным законом с пара­метрами , .

 

Рис. 16. Распределения  статистики критерия типа  Мизеса  при оценивании масштабного параметра закона, соответствую­щего гипотезе  (1 – экспоненциального, 2 – полунор­маль­ного, 3 – Рэлея, 4 – Максвелла, 5 – модуля 5-мерного нормального вектора). При использовании MD-оценок .

 

 

Метод оценивания и мощность непараметрических критериев согласия

 

            При использовании MD-оценок, минимизирующих статистику критерия, эмпирические распределения , соответствующие различным гипо­те­зам , имеют минимальный разброс, что позволяет говорить об опре­делен­ной «свободе от распределения» критериев. Если опираться только на этот факт, то казалось бы, что только такие методы оценивания и следует приме­нять при проверке сложных гипотез. Но если исследовать мощность рассмат­риваемых критериев при различных методах оценивания, то оказывается, что максимальную мощность непараметрические критерии при близких альтерна­тивах имеют в случае оценивания параметров методом максимального прав­доподобия.

Рис. 17 иллюстрирует зависимость от  распределений  ста­ти­стики  критерия типа Колмо­горова при проверке сложной гипотезы при паре аль­тернатив  - нормальное распре­деление,  - логистическое и исполь­зовании MD-оценок  при объеме выборок = 20, 100, 500, 1000.

Рис. 18 таким же образом характеризует зависимость от  распре­де­ле­ний  статистики  критерия типа  Мизеса  при проверке слож­ной гипо­тезы и тех же альтернативах  и  при использовании MD-оценок  и = 100, 500, 1000.

Сравнивая рис. 17 с рис. 6, а рис. 18 с рис. 8, можем убедиться, что в случае использования метода максимального правдоподобия мощность кри­териев типа Колмогорова и типа  Мизеса много выше, чем при исполь­зо­вании соответствующих MD-оценок. Аналогичная картина справедлива и для критерия типа  Мизеса со статистикой  Андерсона-Дарлинга.

 

Рис. 17. Зависимость от  распределений  статистики критерия типа Колмо­горова  при сложной гипотезе ( - нормальное распределение,  - логистическое, MD-оценки ): = 20, 100, 500, 1000.

 

Рис. 18. Зависимость от  распределений  статистики критерия типа  Мизеса  при сложной гипотезе ( - нормальное распределение,  - логистическое, MD-оценки ): = 100, 500, 1000.

 

Для того чтобы сравнить по мощности непараметрические критерии согласия для рассматриваемой пары близких гипотез  и  при ис­пользовании ОМП на рис. 19 приведены распределения  и  при = 20, 100, 500, 1000 для статистики , а на рис. 20 для статистики  критерия типа Смирнова. Анализируя распределения на рисунках 6, 8, 19 и 20, можно заметить, что наиболее мощным для данной пары гипотез является критерий типа  Мизеса со статистикой , затем критерий типа  Мизеса со статистикой , далее критерий типа Колмогорова со статистикой  и на последнем месте критерий типа Смирнова со статистикой . Данное наблюдение о порядке предпочтения критериев хорошо согласуется с опытом их применения.

 

Рис. 19. Зависимость от  распределений  статистики критерия типа  Мизеса   Андерсона-Дарлинга при сложной гипотезе ( - нормальное распределение,  - логистическое, ОМП): = 20, 100, 500, 1000.

Рис. 20. Зависимость от  распределений  статистики критерия типа Смирнова  при сложной гипотезе ( - нормальное распределение,  - логистическое, ОМП):

= 20, 100, 500, 1000.

 

Интересно, что при проверке этих же, но простых гипотез мощность критерия Колмогорова выше мощности критерия  Мизеса.

Почему мощность рассматриваемых критериев при проверке близких гипотез в случае ОМП выше, чем при MD-оценках, достаточно логично объясняет следующая версия. Использование MD-оценок, минимизирующих статистику критерия, приводит к распределению  с меньшим параметром масштаба (к более крутой функции распределения), чем в случае ОМП. Но с другой стороны MD-оценки в отличие от ОМП являются робастными, они менее чувствительны к малым отклонениям выборки от предполагаемого закона распределения. Поэтому функция распределения  оказывается еще более крутой по отношению к аналогичному распределению при использовании ОМП.

 

Методика компьютерного анализа статистических закономерностей

 

            Очевидно, что бесконечное множество случайных величин, с которым мы можем столкнуться на практике, не может быть описано ограниченным подмножеством моделей законов распределений, наиболее часто исполь­зуе­мых для описания реальных наблюдений в приложениях. Вообще говоря, лю­бой исследователь для конкретной наблюдаемой величины может предложить (построить) свою параметрическую модель закона, наиболее адекватно, с его точки зрения, описывающего эту случайную величину. Естественно, после оценки по данной выборке параметров модели возникает необходимость про­верки сложной гипотезы об адекватности выборочных наблюдений и постро­енного закона с использованием критериев согласия.

            Понятно, что множество всех сложных гипотез бесконечно и заранее иметь распределения  для любой сложной гипотезы  практически невозможно. Именно поэтому найденные различным образом предельные распределения статистик непараметрических критериев согласия представ­лены в литературе лишь для ограниченного ряда распределений, наиболее часто используемых в приложениях, особенно в задачах контроля качества и исследования надежности. Что же делать, если для описания выборки исполь­зуется закон распределения вероятностей  и найдена оценка его пара­метра , а для проверки сложной гипотезы :  исследо­вателю неизвестно распределение  статистики соответству­ющего критерия согласия?

Наиболее целесообразно, на наш взгляд, воспользоваться методикой компьютерного анализа статистических закономерностей. Мы настойчиво ре­комендуем этот подход, хорошо зарекомендовавший себя в наших иссле­дова­ниях. Для этого следует в соответствии с законом  смоделировать  выборок того же объема , что и выборка, для которой необходимо прове­рить гипотезу : . Для каждой из  выборок вычислить оценки тех же параметров, а затем значение статистики  соответствующего критерия согласия. В результате получим выборку значений ста­тистики с законом распределения  для проверяемой гипотезы . По этой выборке при достаточно большом  можно построить достаточно гладкую эмпирическую функцию распределения , которой можно непосредственно воспользоваться для вывода о том, следует ли принимать гипотезу . А можно, при желании, по  построить приближенную аналитическую модель, аппрокси­ми­рующую , и тогда уже, опира­ясь на эту модель, принимать решение по поводу проверяемой гипотезы. Хо­рошей аналитической моделью для  может оказаться функция распределения одного из знакомых законов, часто используемых в приложе­ниях, как было получено в [14]. Во всяком случае, всегда можно, опираясь на ограниченное множество законов распределения, построить модель в виде смеси законов [29-31].

Реализация такой процедуры компьютерного анализа распределения статистики в настоящий момент не содержит ни принципиальных, ни практи­ческих трудностей. Уровень вычислительной техники позволяет очень быстро получить результаты моделирования, а реализация алгоритма под силу инже­неру, владеющему навыками программирования. По крайней мере, примене­ние методики не вызывает особых затруднений у студентов факультета при­кладной математики и информатики.

Вместе с тем нельзя не согласиться с тем, что такая методика анализа распределений статистик имеет и недостатки, связанные с ограниченной точностью построения закона распределения статистики и возможным влиянием качества используемого датчика псевдослучайных чисел, о чем предупреждает А.И. Орлов [32]. Поэтому при ее реализации обязательно следует контролировать, как в нашем случае, качество датчиков, генерирующих числа в соответствии с требуемыми законами «наблюдаемых» случайных величин.

Отдельно следует коснуться точности построения закона распределения статистики на основании . Конечно, точность можно повышать, увеличивая . По нашим оценкам отклонения смоделированного распределения от теоретического при  обычно имеют порядок . Если поставить такую цель, то, аппроксимируя эмпирические распределения теоретическими законами и усредняя их по реализациям (при многократном моделировании), можно при необходимости добиться более высокой точности построения закона распределения исследуемой статистики. Вопрос только в том, есть ли в этом необходимость. Как видим, опираясь на построенное распределение , можно достаточно точно оценить величину , но значения процентных точек, полученные по , могут оказаться с существенной погрешностью. На практике же, к сожалению, проверяя различные гипотезы, чаще сравнивают полученное значение статистики  с соответствующей процентной точкой предельного распределения, от чего, по нашему мнению, давно следует отказаться и принимать решение по достигнутому уровню значимости .

 

Выводы

 

Таким образом, на основании проведенных исследований можно сделать следующие выводы и рекомендации.

 Распределения статистик непараметрических критериев согласия при про­с­тых и сложных гипотезах очень быстро сходятся к предельным законам. Уже при , не опасаясь больших ошибок, можно пользоваться этими пре­дельными законами для вычисления достигаемого уровня значимости .

В то же время, следует иметь ввиду, что различать близкие гипотезы (особенно простые) при малых выборках с помощью непараметрических критериев со­гласия невозможно.

Мощность непараметрических критериев при проверке сложных гипотез при тех же объемах выборок  всегда существенно выше, чем при проверке простых.

Следует помнить, что при проверке сложных гипотез, распределения статистик  непараметрических критериев зависят не только от закона распределения , соответствующего гипотезе , числа и вида оцениваемых параметров (иногда, конкретного значения параметра), но и от используемого метода оценивания параметров. Ни в коем случае нельзя использовать (предельный) закон распределения статистики, построенный для одного метода оценивания, применяя другой.

В случае применения MD-оценок, минимизирующих статистику критерия, распределения статистик непараметрических критериев в меньшей степени подвержены зависимости от вида , соответствующего гипотезе . Однако, наиболее мощными эти критерии оказываются при использовании ОМП.

В случае простых гипотез и близких альтернативах непараметрические критерии согласия уступают по мощности критериям типа . В случае проверки сложных гипотез – преимущество за непараметрическими критериями согласия. В то же время, мы рекомендуем при проверке гипотез о согласии не останавливаться на использовании одного из критериев согласия, так как каждый из критериев по-разному улавливает различные отклонения эмпирического распределения от теоретического.

Изложенная и апробированная методика моделирования распределений статистик при корректном ее применении может быть рекомендована для построения статистических закономерностей в ситуации, когда аналити­чес­кими методами не удается решить задачу.

 

 

ЛИТЕРАТУРА

 

1.       Kac M., Kiefer J., Wolfowitz J. On tests of normality and other tests of goodness of fit based on distance methods // Ann. Math. Stat., 1955. V.26. - P.189-211.

2.       Durbin J.  Kolmogoriv-Smirnov test when parameters are estimated  // Lect. Notes Math. 1976. V. 566. P. 33-44.

3.       Мартынов Г.В. Критерии омега-квадрат. – М.: Наука, 1978. – 80 с.

4.       Pearson E.S., Hartley H.O. Biometrica tables for Statistics. V.2. – Cambridge: University Press, 1972. – 634 p.

5.       Stephens M.A. Use of Kolmogorov-Smirnov, Cramer - von Mises and related statistics – vithout extensive table // J. R. Stat. Soc., 1970, B. 32. – P. 115-122.

6.       Stephens M.A. EDF statistics for goodness of fit and some comparisons // J. Am. Statist. Assoc., 1974, v.69. – P. 730-737.

7.       Chandra M., Singpurwalla N.D., Stephens M.A. Statistics for Test of Fit for the Extrem-Value and Weibull Distribution // J. Am. Statist. Assoc., 1981, v.76. – P. 375.

8.       Тюрин Ю.Н. О предельном распределении статистик Колмогорова-Смирнова для слож­ной гипотезы // Изв. АН СССР. Сер. Матем., 1984, т. 48, № 6. – C. 1314-1343.

9.       Тюрин Ю.Н., Саввушкина Н.Е. Критерии согласия для распределения Вейбулла-Гнеденко. // Изв. АН СССР. Сер. Техн. кибернетика, 1984, № 3. – C. 109-112.

10.   Тюрин Ю.Н. Исследования по непараметрической статистике (непа­рамет­рические методы и линейная модель). Автореф. дисс. на соиск. учен. степени д-ра физ.-мат. наук. – М., 1985. - 33 с. – (МГУ).

11.   Саввушкина Н.Е. Критерий Колмогорова-Смирнова для логистического и гамма-распре­деления // Сб. тр. ВНИИ систем. исслед. – 1990, № 8.

12.   Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. // М.: ИНФРА-М, Финансы и статистика, 1995. – 384 с.

13.   Лемешко Б.Ю., Постовалов С.Н. Прикладные аспекты использования кри­те­риев согласия в случае проверки сложных гипотез // Надежность и кон­троль качества. 1997. –  № 11. – С. 3-17.

14.   Лемешко Б.Ю., Постовалов С.Н. О распределениях статистик непара­метрических крите­риев согласия при оценивании по выборкам параметров наблюдаемых законов // Заво­дская лаборатория. 1998. – № 3. – С. 61-72.

15.   Орлов А.И. Распространенная ошибка при использовании критериев Кол­мо­горова и омега-квадрат // Заводская лаборатория, 1985. Т. 51. №1. - С. 60-62.

16.   Бондарев Б.В. О проверке сложных статистических гипотез // Заводская лаборатория. 1986. Т. 52. № 10. - С. 62-63.

17.   Кулинская Е.В., Саввушкина Н.Е. О некоторых ошибках в реализации и применении не­па­раметрических методов в пакете для IBM PC // Заводская лаборатория, 1990. Т. 56. № 5. - С. 96-99.

18.   Лемешко Б.Ю., Постовалов С.Н. Исследование допредельных распре­делений статистик критериев согласия при проверке сложных гипотез // Тр. IV международной конференции “Актуальные проблемы элек­трон­ного приборостроения”. Новосибирск, 1998. Т.3. – С. 12-16.

19.   Орлов А.И. О критериях Колмогорова и Смирнова // Заводская лаборатория. 1995. Т. 61. № 7. С. 59-61.

20.   Kolmogoroff A.N. Sulla determinazione empirica di una legge di distribuzione. // G. Ist. Ital. attuar., 1933, vol. 4., № 1. – P. 83-91.

21.   Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1983. - 416 с.

22.   Орлов А.И. Неустойчивость параметрических методов отбраковки рез­ко выделяющихся наблюдений // Заводская лаборатория. 1992. Т. 58. № 7. С. 40-42.

23.   Денисов В.И., Лемешко Б.Ю., Цой Е.Б. Оптимальное груп­пи­рование, оценка параметров и планирование регрессионных экспериментов: В 2 ч. / Новосиб. гос. техн. ун-т. - Новоси­бирск, 1993. - 346 с.

24.   Лемешко Б.Ю. Асимптотически оптимальное группирование наблю­де­ний - это обеспече­ние максимальной мощности критериев // Надеж­ность и контроль качества. - 1997. - № 8. - С. 3-14.

25.   Лемешко Б.Ю. Асимптотически оптимальное группирование наблю­де­ний в критериях со­гласия // Заводская лаборатория, 1998. Т. 64. – №1. – С. 56-64.

26.   Rao C.R. Criteria of estimation in large samples // Sankhua, 1962. - V. 25. -  P. 189-206.

27.   Рао С.Р. Линейные статистические методы и их применения. - М.: Наука, 1968. - 548 с.

28.   Орлов А.И. О нецелесообразности использования итеративных процедур нахождения оценок максимального правдоподобия // Заводская лаборатория. 1986. Т. 52. № 5. С. 67-69.

29.   Лемешко Б.Ю., Постовалов С.Н. Статистический анализ одномерных наблюдений по час­тично группированным данным // Изв. вузов. Фи­зика. -  Томск, 1995. - № 9. - С. 39-45.

30.   Лемешко Б.Ю., Постовалов С.Н. Статистический анализ смесей рас­пределений по час­тично группированным данным // Сб. научных тру­дов НГТУ. - Новосибирск: изд-во НГТУ. 1995. - №1. -С. 25-31.

31.   Лемешко Б.Ю., Постовалов С.Н. Вопросы обработки выборок одно­мерных случайных ве­личин // Научный вестник НГТУ. - Ново­си­бирск, 1996. № 2. - C. 3-24.

32.   Орлов А.И. Методы оценки близости допредельных и предельных распределений статистик // Заводская лаборатория. 1998. Т. 64. – № 5. – С. 64-67.

 

 

[Содержание]