Сведения из теории надежности и математической статистики
При решении эксплуатационных задач на основе априорной информации приходится в основном иметь дело с анализом случайных величин (оценками параметров законов распределения времени безотказной работы, времени восстановления и. другими оценками). При переходе к апостериорным моделям возникает необходимость обратиться к анализу случайных процессов. При этом сильно возрастают требования к объему исходной информации.
Если при анализе случайных величин приходится иметь дело с одномерными законами распределения, то при анализе случайных процессов необходимо изучать многомерные распределения. В реальных ситуациях удается выбрать такие модели процессов изменения параметров авиационных систем, для анализа которых требуется меньший объем статистических данных. Поэтому особое внимание впредь будем уделять марковским, полумарковским и гаусовским процессам.
Случайные величины и законы их распределения. Одним из основных понятий теории вероятностей является понятие случайной величины. Случайной называют такую величину, которая в результате опыта (испытания) принимает одно из. своих возможных значений, заранее неизвестное и зависящее от случайных обстоятельств.
Чтобы полностью охарактеризовать случайную величину, необходимо указать, во-первых, какие значения она может принимать, т. е. множество возможных ее значений, и, во-вторых, вероятности этих значений. Законом1 распределения случайной величины называется соотношение, устанавливающее связь между возможными значениями случайной. величины и соответствующими им вероятностями. Закон ‘распределения .полностью характеризует случайную величину. Про случайную величину говорят, что она подчинена данному закону распределения или распределена по такому-то закону распределения.
Универсальный способ представления закона распределения, пригодный как для непрерывных случайных величин, так и для дискретных — использование понятия функции распределения. Функция. распределения случайной величины F(x) —■ вероятность того, что случайная величина X примет значения, меньшие, чем х:
F(x)=P{X<x). (1.3)
Для непрерывной случайной величины закон распределения часто задается в виде плотности вероятности
f (х) =lim[F(x+Ax) —F (x)]jAx.
Ac
Между функцией распределения и плотностью вероятности существуют такие соотношения:
f(x)=F'{x)-, F{x)= UWdx.
— СО
Хорошим примером случайной величины является наработка авиационной системы до отказа. Принято характеризовать эту величину функцией ненадежности F(t), т. е. вероятностью того, что наработка до отказа Т меньше заданной наработки t. Ясно, что такое определение F(t) полностью совпадает с определением (1.3) функции распределения случайной величины Т. Часто применяют также функцию надежности Е(£).=11—F (£) для характеристики
вероятности безотказной работы авиационной системы в течение заданной наработки (О, t).
Помимо плотности вероятности f(t), *в теории надежности для описания распределения случайной величины Т часто используют интенсивность отказов X(t)=f(t)IF(t). Величина Ц£) характеризует условную вероятность того, что произойдет отказ на интервале (t, t+dt) при условии, что ,в начале интервала объект был работоспособен.
Если объект после возникновения отказа восстанавливается (такой случай типичен для эксплуатации авиационных систем), то последовательные моменты отказов (и следовательно, восстановлений) образуют поток случайных событий. Этот поток характеризуется параметром потока отказов о>(£). Если случайные значения наработки между отказами одинаково распределены и независимы
(так бывает,-например, при замене отказавшего объекта — на новый), то параметр потока со (() может быть вычислен по плотности распределения наработки между отказами f(t) с помощью уравнения восстановления:
t
со (t) =,f (t) + f f (t — т) со и
Параметр потока отказов по своей физической природе — среднее число отказов в единицу времени .наработки, взятое для рассматриваемого момента t. Обычно закон распределения — случайной величины (в виде функции распределения и плотности вероятности) определяется одной или большим числом постоянных, называемых параметрами, которые характеризуют центр распределения, масштаб и форму кривой распределения.
Числовые характеристики случайных величин. Случайная величина — с, вероятностной точки зрения полностью характеризуется законом распределения. Однако при решении ряда практических задач нет необходимости знать все возможные значения случайной величины и соответствующие им вероятности. В этом случае удобнее пользоваться некоторыми постоянными числами, которые дают в сжатой форме наиболее существенную информацию о случайной величине. Такие постоянные числа называются числовыми характеристиками случайной величины.
Многие числовые характеристики выражаются через так называемые моменты случайной, величины p, s.
Математическое ожидание (центр распределения, среднее значение случайной величины) представляет собой первый начальный — момент случайной — величины.
Дисперсия случайной величины есть второй центральный мо-
ОО
мент ц2—[ЩХ]=$ (х—M[X])3f(x)dx. Ввиду исключительной важности дисперсии среди других моментов для нее обычно вводится специальное обозначение Ь[Х]. Очень часто дисперсию обозначают как а2, где а — среднее квадратическое отклонение.
Среднее квадратическое отклонение -— положительное значение корня квадратного из дисперсии: a=^D[X.
Коэффициент асимметрии Sk=i3l’os — ‘При Sfc>0 правая ветвь кривой f(x) более пологая, чем левая, при 5*<0 — наоборот.
Коэффициент эксцесса Ex=i4сг4 — ІЗ. При £х>0 кривая f(x) ‘более островершинная по сравнению с кривой f(x) для нормального закона, при Ех<IQ кривая f(x) более плосковершинная, чем кривая f{x) для — нормального закона.
Нормальный закон распределения. Главная особенность, выделяющая .нормальный закон среди других, состоит в том, что он •является предельным законом, к которому приближаются другие законы распределения при часто встречающихся типичных условиях. Так, согласно центральной предельной теореме (Ляпунова), плотность вероятности суммы независимых или с-лабозависимых равномерно малых (играющих примерно одинаковую роль) слагаемых при неограниченном увеличении их числа как угодно близко приближается « нормальному закону распределения независимо от того, какие законы распределения имеют эти слагаемые. Указанные условия обычно выполняются в процессе измерений, поэтому в большинстве случаев погрешности измерений распределены по нормальному закону.
Нормальный закон распределения характеризуется .плотностью вероятности
1 2з*
f(x)^ —— — е ; — оосжоо,
а у 2%
где а—математическое ожидание (—оо<а<оо); о — среднее квадратическое отклонение (ст>0).
Функция ‘распределения нормального закона
х (х—а)-
F{x) = —— 1—~ J е 2°2 dx.
Случайная величина, распределенная по нормальному закону с параметрами а=Ю и ст=і1, называется центрированной и нормированной нормальной величиной (часто ее называют нормированной нормальной величиной). Если случайная величина х подчинена нормальному закону, то это обозначается так: x~N(a, а2). Укажем еще одно свойство нормального знакона. Пусть x~N (aXj a2i); Y—kX+b, где k и b — неслучайные коэффициенты, то. да Y~N (kcix + b, &%2i), т. е. линейная функция от аргумента, подчиненного нормальному закону, также подчинена нормальному закону.
Некоторые другие законы распределения. Распределения Стью — дента и хи-квадрат широко используются в теории надежности для построения доверительных интервалов параметров нормального распределения по выборке.
Гамма-распределение описывает время, необходимое для появления. ровно т] независимых событий, если они происходят с постоянной интенсивностью X. Это свойство обеспечивает широкое применение гамма-распределению. Отметим, что распределение хи-квадрат — частный случай гаміма-іраспределения (при т)=я/2, где п — целое число, и Л=и1/2). Частными случаями гамма-распределения являются также закон Эрланга (при т|=|1, 2,…) и экспоненциальное (показательное) распределение (при г) =11-). Экспоненциальное распределение наиболее широко используется для описания времени безотказной работы. Оно играет основную роль в теории надежности подобно тому, как нормальное распределение играет основную роль в других областях.
Распределение Вейбулла часто принимается в качестве модели для времени безотказной работы .некоторых элементов, если интенсивность их отказов изменяется во времени (см. гл. 4). Частным случаем распределения Вейбулла является распределение Релея (при а—2 и X— 1/о2), для которого интенсивность отказов — линейно. возрастающая функция времени.
Логарифмически нормальное распределение описывает время безотказной работы некоторых элементов (например, транзисторов определенного типа). Р-распределение описывает распределение так называемого дисперсионного отношения, играющего роль при проверке статистических гипотез. Бета-распределение — основное распределение для случайных величин, ограниченных с обеих сто-
рои. Частным случаем бета-распределения является закон равномерной плотности (при а=Ь=її).
Усеченное нормальное распределение применяется для нормально распределенных случайных величин с ограниченным диапазоном изменения и потому широко используется в различных приложениях.
Дискретные распределения: биномиальное, Пуассона, геометрическое, отрицательное биномиальное часто используются в теории надежности, при статистическом контроле качества и в других технических приложениях.
Многомерные случайные величины. Состояние авиационной системы обычно описывается несколькими числовыми параметрами. Поэтому при изучении состояния авиационной техники приходится использовать математические модели на основе многомерных случайных величин {Хь Х2,… , Хм). Как и одномерная, многомерная случайная величина {Кь . . . , Хм} полностью характеризуется своим законом распределения:
F(xu х2,…, Хм) =Р…, Хм<Схм). (1-4)
Только в одном частном случае, когда все составляющие Xk взаимно независимы, вместо многомерного распределения (1.4) достаточно иметь М одномерных распределений F(xu). Многомерная функция распределения содержит много больше информации, чем распределения всех составляющих вследствие того, что в ней ‘ дается описание взаимных влияний этих составляющих.
В частном случае многомерной нормальной случайной величины выражение (1.4) можно записать в явном виде:
Xdxь dx2,…. dxм,
где x={xi, х2,…, Хм) — вектор-строка размерности М; х= = {МХі, МХ2 МХм}—вектор математических ожиданий состав
ляющих многомерной величины; 2 — матрица ковариаций, элементы которой подсчитываются по формуле аы—Cov(Xh, X;j=2(x4—
_ /
— MXi) (х%ь — MX к)] (х — х)’ — вектор, транспонированный относительно вектора (х — х); 2-1 — матрица, обратная матрице 2; ]2| — определитель матрицы 2.
Как и в одномерном случае, многомерная нормально распределенная случайная величина описывается двумя матричными параметрами: К и Б.
Случайные процессы. Обобщением понятия многомерной величины при М->оо является случайный процесс x(ti), наблюдаемый в дискретные моменты времени ti = iM при t= 1,2… Не вдаваясь в некоторые теоретико-множественные проблемы, можно считать, что так же определяется случайный ‘Процесс и с непрерывным временем x(t). При эксплуатации авиационных систем даже непрерывные процессы изменения их параметров воспринимаются как дискретные, так как их измерение проводится через определенные интервалы времени At.
Хорошо согласующимися с практикой моделями случайных процессов являются гауссовские процессы. Действительный случайный процесс £,(t) называется гауссовским [21], если конечномерные распределения для значений £(£,) этого случайного процесса нормальны. Такой процесс полностью описывается математическим ожиданием рД)=М£(‘£) и корреляционной функцией R(t, s) =мш — ц(5)].
Изменением масштаба и сдвигом начала отсчета любой гауссовский процесс можно привести к процессу с нулевым средним и постоянной по времени дисперсией §(^)=![х(<)—ц (;t)]lai{t). Такое приведение часто исключает всю зависимость характеристик случайного процесса от времени, т. е, позволяет рассматривать его как стационарный. Важный класс образуют стационарные процессы с рациональными спектральными плотностями
1 2 где р6, — постоянные коэффициенты; 0 — индекс суммиро вания, принимающий максимальные значения U и h X—переменная частота. |
Спектральная плотность f(X) имеет физический смысл средней энергии, приходящейся на составляющую с частотой % в разложении стационарного процесса на сумму гармонических колебаний. Функция }(%) однозначно определяется через корреляционную функцию процесса I (t). Любую спектральную плотность процессов, наблюдаемых при эксплуатации авиационных систем, можно как угодно точно аппроксимировать моделью
(1.5) . Эта модель имеет удобную интерпретацию при изучении процессов не через их спектр, а во временной Й’О
области. Дискретный процесс {t) со спектральной плотностью (1.5) при t=i№ подчиняется уравнению [13]:
Ь h
S Ре — в)At] =! 2 Pfo 6 — 0) ДА. (1 .б>
в=о е=о
где e[(i — 0)At] — случайный процесс с некоррелированными, значениями.
Процесс e{t) является в некотором смысле простейшим, случайным процессом, иногда его называют белым шумом. Такой процесс принимает независимые значения при всех iAt и, следовательно, его значения непредсказуемы.
Уравнение i(1.6) часто используют как математическую модель изучаемых практических явлений. Коэффициенты li, l2, pj, в ней имеют физический смысл. Так, число 1 показывает, сколько рядом стоящих значений процесса t,{iAt) связано между собой. Тесноту связи характеризует коэффициент авторегрессии рг0. Числа 12 и р0 —■ коэффициенты скользящего суммирования показывают, сколько независимых белых шумоа принимают участие в формировании наблюдаемого процесса и как долго влияние каждого из них ощущается в наблюдениях g (/).
На модели (1.6) и в представлении (1.5) для /(X) молено проследить валшое свойство случайного процесса, называемое марковским. Оно состоит в следующем: если точно известно состояние процесса в настоящий момент, то будущее состояние не зависит от прошлого, состояния. Иными словами, случайный процесс x(t) называется марковским, если для любых п моментов; времени tx<t2<. ,. . . , tn условная функция распределения последнего значения x(tn) при фиксированных значениях x(ti), x(t2) x(tn-1) зависит только от x{tn-і),.
т. e. при заданных значениях х, х2,, хп справедливо; соотношение:
P{x(tn)^XnJx(tl)=Xi, …. Ж (t„_,) =*„_,} =
= P{x(tn) S^Xnlxtfn-i) =Xn-i}.
Другими словами, процесс, задаваемый моделью (1,24), будет марковским, если равны нулю Р0 при ©>1 и при ©^1. Такой процесс иногда называют простым марковским процессом.
Однако понятие СОСТОЯНИЯ В ‘Момент времени ti можно расширить, считая, что оно описывается ‘многомерной характеристикой — значениями процесса в моменты ti-ъ ‘.при 0 = 0, 1, .. ., 1. Тогда марковское свойство следует понимать как независимость будущих состояний от прошлых, имевших место При t^Lti — ш. Именно в таком расширенном понимании используется в .дальнейшем понятие «марковский процесс». Для него характерно равенство нулю всех i|3g при 0^1 в представлении (1.6) и запись спектральной плотности (1.5) ;в виде постоянной, деленной «а полином по степеням
Цепь Маркова. Если марковский случайный процесс может принимать конечное число состояний г = 1,2… F и переходы его из состояния в состояние осуществляются в дискретные моменты времени, то говорят, что такой процесс r(ii) задает цепь Маркова. Полное вероятностное описание цепи Маркова состоит в задании совместных вероятностей Р (г о, Г, . . . , г і) при разных І. Для вычисления их нужно знать начальное состояние (распределение вероятностей Р(г0) пребывания в состоянии г в нулевой момент времени) и физический механизм смены состояний, определяющий вероятности qЦ (г0, Гр. ) перехода за р шагов (для всех O^p^t) из состояния г0 в состояние Гр. Если изучается простая (т. е. с. зависимостью всего на один шаг) цепь Маркова, то
І
Р(Г0, П,…, /Д=Р(го) П ^(‘■р./Д-і^-
Н=1
Вероятности перехода за р шагов могут быть вычислены последовательным перемножением вероятностей перехода за один шаг q(r/s).
Цепь Маркова, для которой — вероятности перехода не зависят *от номера шага (остаются неизменными), называется однородной. .Для простой однородной цепи Маркова исчерпывающее вероятностное описание задается матрицей одношаговых вероятностей перехода {<7rs}, где qrs=q(r/s) — вероятность перехода за один шаг из •состояния г (г=<1, 2 ,…, F) в состояние s-(s=il, 2, …,Д). Действительно, в этом случае
{<7р. (ф)) = (дф».
Для ряда цепей Маркова при i-s-oo существуют предельные ■стационарные вероятности л (г) пребывания в г-и состоянии, независимые от начального распределения Р(г0). Такие цепи называют
эргодичеокими. Финальные вероятности я; (г) могут быть определены из системы уравнений:
F
я (г) =2 я (я)?™; г=л… F. (1.7).
.5=1
Система (1.7) обычно дополняется условием нормировки 2я(г) = 1^
г
так как из F уравнений (11.17) только (Я—>1) уравнений линейно- независимы.
Выборка. Исходным пунктом любого статистического исследования случайной величины X является совокупность из п наблюдений, в результате которых величина X принимает значения х^ Х2 Хп.
Впоследствии предполагается, что опыты (испытания), в результате которых случайная величина принимает определенные значения, являются взаимно независимыми и производятся в неизменных условиях.
Значения xi, Х2,…, х„ называются выборкой из генеральной; совокупности или иросто выборкой, каждое отдельное значением-элементом. выборки (t=lL, 2,…, и), а общее количество элементов п — объемом выборки.
Предполагается, что число членов N в генеральной совокупности велико, а объем выборки п ограничен. При достаточно большом N свойства выборочных (статистических) распределений и характеристик практически не зависят от N. Отсюда вытекает математическая идеализация; состоящая в том, что генеральная совокупность считается бесконечной. При этом отличают точные характеристики (закон распределения, математическое ожидание, дисперсию и другие моменты), относящиеся к генеральной совокупности,, от аналогичных им выборочных (статистических) характеристик, (статистических оценок). Выборочные характеристики отличаются от соответствующих характеристик генеральной совокупности вследствие ограниченности объема выборки п. При неограниченном увеличении п все выборочные характеристики приближаются (сходятся по вероятности) к соответствующим характеристикам генеральной совокупности. Выборочные характеристики в отличие от характеристик генеральной совокупности — случайные величины.
Опытное распределение и его числовые характеристики. Выборку иногда называют простой статистической совокупностью или простым статистическим рядом. При большом1 числе наблюдений; (более 30]) простая статистическая совокупность неудобна для. записи статистического материала: запись становится слишком громоздкой и малонаглядной. Поэтому на основе простой статистической совокупности строится так называемый статистический (сгруппированный) ряд. Весь диапазон наблюденных значений случайной величины делится на интервалы (разряды), и подсчитывается частота (количество) значений случайной величины ГПі, приходящихсяі на каждый 1-й интервал.
Отношение частоты т, к общему числу наблюдений п называется частостью (относительной частотой), соответствующей данному разряду: р,=т(/п. Очевидно, что сумма частостей всех интервалов равняется единице.
Число интервалов, в которые следует сгруппировать статистический материал, не должно быть слишком большим, так как при; большом числе интервалов ряд распределения становится яевыра-
зительным и частоты в нем’ имеют незакономерные колебания. Но число интервалов не должно быть слишком малым, тогда свойства распределения описываются рядом слишком грубо. Группировка в 10—20 интервалов, в каждый из которых попадает не более 15—
20 % значений случайной величины, обычно оказывается достаточной для полного выявления всех существенных свойств распределения и надежного вычисления основных числовых характеристик — случайной величины.
Статистический ряд часто изображается графически в виде гистограммы, которая строится следующим образом. По оси абсцисс откладываются значения интервалов. На каждом из интервалов строится прямоугольник, площадь которого равна частости данного *■ интервала. Для этого частость каждого интервала необходимо разделить на ширину интервала и полученное число взять в качестве высоты прямоугольника. В случае равных по ширине интервалов высоты прямоугольника пропорциональны соответствующим частостям.
Из способа построения гистограммы следует, что полная площадь гистограммы равна единице.
Выборка Хі, Хг,…, хп может быть описана функцией распределения или числовыми характеристиками, которые в этом случае ■называются статистическими или выборочными. Любой характеристике генеральной совокупности может быть поставлена в соответствие статистическая характеристика. Функции распределения F(x) соответствует статистическая функция раопределения F*(x)
(другие названия: выборочная функция. распределения, экспериментальная функция распределения, функция опытного распределения), -плотности вероятности f(x) — гистограмма, моментам распределения as и ps — статистические (выборочные) моменты as и tns-
Статистическая функция раопределения любой случайной величины (дискретной или непрерывной) представляет собой ступенчатую функцию, скачки которой соответствуют экспериментальным значениям случайной величины и равны частостям этих значений.
Если каждое отдельное значение случайной — величины X встретилось.1-. раз, то все скачки F*(x) равны 1 /я.
Статистические (выборочные) начальные и центральные моменты опытного распределения определяются соответственно следующим образом:
, " , « _
asm= _L 2 ms[X= — 2 (*; — х)‘,
п (=i п г=і
_______ п
где х=аіИ=’2хі/я — среднее арифметическое эксперименталь — i=i
ных значений.
Для статистических моментов справедливы те лее свойства, что ■и для моментов теоретического распределения. Наибольшее значение для оценки опытного раопределения (так же, как ранее для теоретического) имеют, первый начальный момент (выборочное вреднее или просто среднее) и второй центральный момент (выборочная диоперсия) —
В заключение этого вводного раздела по математической статистике укансем на несколько значений термина, «статистика».
Прежде — всего статистика есть одна из научных дисциплин, изучающая данные, .полученные исчислением или измерением свойств генеральных совокупностей явлений материального мира. В этом смысле различают статистику социальную, экономическую, математическую и др. Тем же словом «статистика» называют совокупность числовых данных о каком-либо явлении или процессе, и в этом смысле статистика означает множество данных (напомним часто употребляющееся словосочетание «набрать статистику»). В этих двух смыслах «статистика» употребляется только в единственном числе. Есть и еще одно значение термина «статистика» — так называют функцию от элементов выборки из некоторой генеральной совокупности. В этом омысле «статистика» употребляется как в единственном, так и во множественном числе.
В дальнейшем слово статистика будет употребляться именно в этом смысле.
Выбор вида закона распределения. Подгонка закона распределения случайной величины на основе опытных данных, т. е. по выборке, включает три этапа: выбор
предполагаемого вида закона — распределения; проверку согласия выборки с принятым законом распределения, т. е. согласованности опытного распределения с теоретическим; оценку параметров выбранного закона распределения.
Подбор для данного статистического ряда теоретической кривой распределения и нахождение ее параметров в статистике часто называют выравниванием (сглаживанием) статистических рядов. Основой выравнивания является выбор вида теоретической кривой распределения. Главное в выборе вида теоретического распределения — это понимание характера рассматриваемого явления. Другими словами, вид теоретического распределения, как правило, должен выбираться заранее из соображений, связанных с существом рассматриваемого явления. Бели нет веских соображений в пользу какого — либо теоретического распределения, то можно воспользоваться следующим приближенным способом. По опытным данным находят оценки коэффициентов асимметрии gi и эксцесса g2′
gi=m3/(/пн)3′, g2=mjm22 — З, (1.8)
Точку с координатами (g2i, g2) наносят на график (рис. 1.1). Бели эта точка будет лежать достаточно близко от точки, прямой или области, соответствующих определенным теоретическим распределениям, то это распределение может быть использовано для описания опытного распределения. Следует заметить, что данный
Рис. її Л. Области, соответству-
ющие разным типам распреде-
лений в зависимости от асим-
метрии эксцесса:
Л —закол >р&1вламефлой плотности; Б—-нормальный закон; В — экспо — •ненщиаль’ный закон; I — критическая область ; II — бета-раагвреде — ление;
1 — ігаїміма-раюп. ределен’ие; 2 — лога-
рифмически. нормальный закон; 3 —
•распределение Стьюдента
способ не гарантирует правильности выбора — вида теоретического распределения, поскольку форма кривой распределения не определяется однозначно коэффициентами асимметрии и эксцесса, да и вместо последних в формулах (1.8) используются их оценки.
Опытное распределение часто можно аппроксимировать одинаково хорошо разными теоретическими распределениями. .Критическая область представляет такие сочетания g2i и g2, при которых невозможно существование закона распределения. Нормальный закон распределения, закон равномерной плотности и экспоненциальной представлены на графике одной точкой, поскольку они не имеют параметра формы и вследствие этого всегда имеют единственную форму. Гамма-распределение, логарифмически-нормальное распределение и закон Стьюдента представлены прямыми, так как они имеют по одному параметру формы. Бета-распределение, имеющее два параметра формы, занимает на графике определенную область. После выбора тем или иным способом теоретического распределения возникает задача нахождения оценок неизвестных параметров закона распределения. Оценкой параметра называется его значение, найденное по ограниченному числу наблюдений (по выборке). Существуют несколько методов получения оценок неизвестных параметров 0 закона распределения Генеральной СОВОКУПНОСТИ ПО Выборке Х, х2,. . ., хп. Наиболее распространены из них метод моментов и метод максимального правдоподобия.
Этот метод требует применения предварительного предположения о виде закона распределения, который считается известным, кроме значений параметров 0, входящих в аналитическое выражение этого закона. 26
В соответствии с методом максимального правдоподобия следует построить функцию правдоподобия £(0), зависящую только от неизвестных параметров ©, и найти значения 0, при которых функция L(0) обращается в, максимум. Найденные значения 0 и принимают в качестве оценок параметров распределения.
■В качестве оценки математического ожидания а (генерального среднего) используется среднее выборочное х:
Для нормального закона распределение оценки х является нормальным N (а, а2/п) независимо от объема, выборки.
В качестве оценки дисперсии а2 генеральной совокупности обычно используют две оценки (в случае неизвестного генерального среднего): выборочная диспер — 1 п —
сия 2 =— V (х; — л)2; несмещенная оценка дисперсии « іГі
— —- ‘}) (х,—xf. При известном генеральном среднем.
n~h=i
а несмещенная оценка дисперсии о2 находится по формуле S2о = — (** — аУ-
п jti
Проверка статистических гипотез. Статистической: гипотезой называют любое предположение относительно свойств генеральных совокупностей, сделанное на. основании выборок из этих совокупностей. Практически, большей частью эти предположения сводятся к некоторым утверждениям относительно параметров закона, распределения. Возможны и другие гипотезы, например,, о равенстве параметров двух или нескольких распределений, независимости выборок, возрастании интенсивности отказов и т. д.
Проверка статистической гипотезы заключается в выборе решения: принять гипотезу или отвергнуть ее.. Принятие решения обычно основывается на выборочных характеристиках, которые в этом случае называются критериями (статистиками) для проверки статистической гипотезы. Критерии статистической гипотезы В; силу того, что они являются выборочными характери-
тг
стиками, представляют собой случайные величины, законы распределения которых в общем случае определяются законами распределения генеральной совокупности и объемом выборки п. Числовое значение критериев полностью определяется выборкой.
Проверяемую гипотезу называют нулевой, а противоречащую ей — альтернативной гипотезой. Нулевую гипотезу обычно обозначают Н0, альтернативные гипотезы — Н, #2 и т. д. Если нулевая гипотеза отвергается, то это одновременно означает, что принимается альтернативная гипотеза. При проверке статистической гипотезы возможны следующие случаи: гипотеза Я0 верна и принимается; гипотеза Я0 неверна и отвергается; гипотеза Я0 верна, но отвергается; гипотеза Я0 неверна, но принимается. Таким образом, при проверке гипотезы возможны ошибки двух типов. Разница между указанными ошибками весьма существенна вследствие того, что различна значимость этих ошибок.
Ошибку, заключающуюся в неоправданном отклонении верной проверяемой гипотезы, называют ошибкой 1-го рода. Ошибку, заключающуюся в принятии неверной проверяемой гипотезы, называют ошибкой 2-го рода. Обычно вероятность ошибки 1-го рода (эту вероятность называют уровнем значимости) обозначают через а, а вероятность ошибки 2-го рода — через р.
Естественно желание сделать так, чтобы вероятности ошибок а и іР при проверке гипотез были как можно меньше. Однако при фиксированном объеме выборки п это сделать невозможно. За уменьшение уровня значимости приходится «расплачиваться» увеличением вероятности ошибки 2-го рода и наоборот. В связи с этим сначала назначают уровень значимости а (обычно 0,01 — 0,1), а затем выбирают такую процедуру проверки, которая обеспечивает минимальное значение р. Единственный способ одновременного уменьшения вероятностей ошибок аир — увеличение объема выборки п.
Процедура проверки статистической гипотезы заключается в сравнении вычисленного по выборке критерия с возможными значениями критерия для проверяемой гипотезы. Важнейшей принципиальной особенностью проверки статистических гипотез является то, что в результате проверки нельзя доказать ни одной гипотезы. Проверяемая гипотеза или отвергается, как явно несовместимая с опытными данными, или принимается. Од
нако принятие гипотезы ни в коем случае не может считаться доказательством ее справедливости. Оно означает только то, что гипотеза не противоречит опытным данным.
Проверка согласия опытного распределения с теоретическим. Пусть опытное распределение, заданное выборкой объемом п, выравнено с помощью некоторой теоретической кривой f (x). Однако между теоретической кривой и опытным распределением неизбежны расхождения. Следует выяснить, объясняются ли они только случайными обстоятельствами, вызванными ограниченным числом наблюдений п, или они существенны и связаны с тем, что подобранная теоретическая кривая плохо выравнивает данное опытное распределение. Для ответа на такой вопрос служат так называемые «критерии согласия».
В качестве критериев согласия в статистической практике обычно применяют критерии Колмогорова, %2, со2 и некоторые другие. Приведем в качестве примера один из них.
Критерий %2 основан на том, что величина
Г
X2=S (Wt — npi)2/npu (1.9)
где pi — теоретическая вероятность попадания случайной величины в і-ц. интервал; при п->-оо асимптотически подчинена распределению %2 с числом степеней свободы г — 1.
Критерий %2 может применяться для проверки любого теоретического распределения, при этом результаты наблюдений обязательно должны быть сгруппированы в интервалы.
Проверка нормальности распределения. Гипотезу о нормальности распределения можно проверить с помощью многих статистических критериев, в том числе и рассмотренных критериев Колмогорова, %2 и ш2. Однако для приближенной проверки можно использовать свойство нормального распределения, заключающееся в том, что для него коэффициенты асимметрии и эксцесса равны нулю.
Случайными (не систематические или статистически незначимые) отклонениями от нуля можно считать лишь те значения выборочных коэффициентов асимметрии и эксцесса, которые не превышают 1,5—2 средних квадратических отклонений соответствующего выборочного
коэффициента. Нормальность распределения проверяют следующим образом.
1.Определяют выборочный коэффициент асимметрии gi и выборочный коэффициент эксцесса g2 по формулам (1.8).
2.Определяют средние квадратические отклонения выборочных коэффициентов асимметрии и эксцесса:
s I / &(п — 6) . = 1 / ’24га(я—2) (л—3)
V (я+11)-(я+0) ’ Si V (я-Н1)а(л-МЗ)(я+5)
(1 10)
3.
При выполнении одновременно неравенств
можно считать, что опытные данные не противоречат нормальному распределению.
Если же выполняется хотя бы одно из неравенств
то предположение о нормальности распределения следует отвергнуть. Если l,5Sg]< |gi | <25^; l,5Sg2< 1^2 +
<2Sgs, то необходимо провести дополнительную
проверку с помощью каких-либо других критериев. Проверка гипотез о средних. Два выборочных сред
них сравнивают в случае, — когда имеются две независимые выборки объемом П и «2 из нормально распределенных генеральных совокупностей. При этом по выборочным средним Xi и х2 проверяют гипотезу: равны ли генеральные средние рі = рг — Вид критерия проверки гипотез зависит от того, известны ли заранее дисперсии или нет, а также от того, равны они или неравны. Уровень значимости а считается заданным. Например, если дисперсии известны, то проверка гипотезы Я0: pi = p2> Я і.: р, і=?Ні2 проводятся следующим образом.
Вычисляют значение критерия
С*1 — Х2) V «1«2 — — •
V Я2021+Я1022
Гипотеза Я0 принимается, если |u|<«i-a/2, отвергается, , есліг I и] > «1-0/2.
Проверка гипотез о дисперсиях. Одной из важнейших задач статистической обработки опытных данных является проверка гипотез о дисперсиях. Рассмотрим гипотезы, основанные на сравнении двух выборочных дисперсий о21 и <т22- Предполагается, что генеральная совокупность распределена по нормальному закону.
Сравнение двух выборочных дисперсий проводят в случае, если имеются независимые выборки объемом п и п2 из нормально распределенных генеральных совокупностей. В общем случае гипотезу можно сформулировать следующим образом: Н0: cr2i/a22=i&, где к— заданное число. Здесь для простоты рассматривается случай, когда k=.
Проверку выполняют следующим образом.
1. Вычисляют отношение
F=sys. (4.12)
В качестве S2i берут большую из сравниваемых оценок дисперсии.
2. Из таблиц для F-распределения находят квантиль
; л,—1, г2-1 ■
2
Гипотеза #0 принимается, если Fs^Fх_ „,_i; „„_i,
2
и отвергается, если F>Fі_ 1_; Лі_і; /Ia_i.
2
На рассмотренных приемах проверки гипотез базируется методика анализа надежности авиационной техники, излагаемая в дальнейшем.
Во многих прикладных задачах для проверки выдвигаемых гипотез по исходным данным ограниченного объема используют статистики, основанные на %2-рас- пределении. Тесты такого типа применяются, в частности, в данной книге при оценке структуры случайных последовательностей по полученным экспериментально их реализациям и при анализе наборов цифровых показателей методами многомерной математической статистики. При этом считается, что распределение наблюдаемых случайных величин, относительно которых проверяются выдвигаемые гипотезы, нормальное.
Практически предположение о нормальности не снижает общности решения, так как оно обычно подтверждается вескими интуитивными соображениями или статистической проверкой. Тем не менее оценка ошибки, которую вносит это начальное предположение, пред-
ставляет немалый интерес, так как — с сомнениями относительно устойчивости к изменениям вида распределения исходных данных (крепости) теста типа %2 часто бывают связаны возражения по его применению во многих конкретных приложениях. Известно, что тесты на основе х2 не очень мощные. Иными словами, чтобы вероятность ip2 отвергнуть проверяемую гипотезу, если она неверна, была значительна, необходимо, чтобы построенная для проверки данной гипотезы статистика и была заметно меньше (на 6х) границы х2 (“. п) ■
Граница х2 (<х, я) выбирается из условия малости вероятности (її = а отвергнуть проверяемую гипотезу, если она верна. По таблицам нецентрального распределения х2 можно оценить мощность теста, построенного на основании статистики и, и указать такие отклонения бх от граничного значения х2 (а, я), которые обеспечат вероятность отвергнуть неверную гипотезу не ниже заданной. Удовлетворительную уверенность при принятии проверяемой гипотезы удается получить, если контрольная статистика и на 30—40 % меньше, чем граничное значение х2 (а, я) при а=5 %.
Если несправедливость начального предположения о нормальности наблюдаемых случайных чисел приведет к изменению статистики и менее чем на 6х=30-Е 4-40 %, то можно полагать тест на основе х2 «крепким», так как на окончательном решении о принятии проверяемой гипотезы распределение х не скажется. Проверка крепости теста х2 путем прямого численного эксперимента на цифровых вычислительных машинах позволяет считать, что статистика и слабо меняется при изменениях начального распределения. Даже для таких распределений, как экспоненциальное и логарифмически нормальное, тест типа х2 применять можно, хотя эксцесс и асимметрия этих распределений весьма значительны.
Некоторое представление о деформации распределения статистики типа х2 при применении ее к негауссовским распределениям помогает получить проводимое в дальнейшем аналитическое исследование [22],
Случайная величина и, распределенная по х2 с 11 степенями свободы, получается при суммировании квадратов я независимых случайных чисел с нормальным распределением f(x), нулевым математическим ожиданием М[х] = 0 и единичной дисперсией D[x] = сг2 = 1. Если производить суммирование квадратов я центрирован
ных и нормированных (M[x] = 0, D[x] = 1) случайных чисел с произвольным распределением р{х), то получим
П
число н=2х2г с некоторым распределением р{и). От — і=і
личие р(и) от ^-распределения р[%2(и, п)] будет определяться моментами (ВЫСШИХ порядков Цз, Ц4, . .. исходного распределения р{х).
Можно показать [22], что
И 21 f a. l k
Ж=Р[хН«, п)] 2 2 С"А f П —— ■ (.1.13)
1=0 к — о V 8 / у=і п+2і;
В выражении (1.13) второй сомножитель характеризует влияние эксцесса £г исходного распределения на вид плотности распределения статистики и. На рис. 1.2 приводится характер поправки h=p (и)/р>[%2 (и, п) ] в зависимости от числа степеней свободы п и величины эксцесса. Сплошные ЛИНИН соответствуют значениям £2 = 2, а штриховые — £2 = 4. Нечетные моменты распределения р{х), в частности коэффициент асимметрии, никакого влияния на распределение статистики и не оказывают.
Практический интерес представляет вид плотности распределения статистики и для тех значений и, при которых р(и) заметно отличается от нуля. Первый сомножитель в (1.13) отличен от нуля при М[уР — — 1,бУД%2]<ц<М[%2]+ 1,буН[х2]. Именно для таких и.
Рис. 1..2. Поправка к плотности
распределения суммы квадра-
тов независимых случайных
величин
Т>(Щ
~2ft -16 -0,8 0 0,8 1,6 и
■ ‘ й
на рис. 1.2 дается значение отношения распределения р(и) к р[%2{и, и)]. По оси абсцисс откладывается значение аргумента и в относительных единицах: и=
= (ц-ми)7№1
На рис. 1.3 показана деформация распределения суммы квадратов независимых случайных величин: сплошной линией — плотность распределения %2> штриховой вид р (и) для случайных величин х с плосковер — шинным распределением (^2>0), а штрихпунктирной — вид р(и) в случае, если распределение р(х) островершинное (g2<0). Для концентрированных (плосковершинных) распределений изменение р (и) относительно р[%2(и, п)] не может быть большим, так как ^/8^0,25. Это позволяет надеяться, что в большинстве практически интересных случаев отличие р(и) от p'[%2(w, я)] бу- дует невелико, так как в реальных экспериментах редко встречается такой разброс результатов, чтобы за пределами M{x]±2PjDx лежало больше 0,3 % опытных данных.
Для островершинных распределений деформация р(и) относительно р[%2(и, п)] может быть гораздо более существенной при большом эксцессе распределения р (х). Однако в этом случае деформация р (и) такова, что применение к статистике квантилей %2(а, п) будет только ужесточать критерий. При а=5 % слева от %2( а, п) в случае справедливости гипотезы М[х = 0 будет лежать более 95 % значений и, если g%>0.
Таким образом, для большинства практических задач критерий типа х2 оказывается мало чувствительным к отклонениям исходных распределений от’ нормального.