Статистический анализ посредством малых выборок. Малые выборки Аппроксимация стандартной ошибки выборочной оценки

А.М. Носовский1*, А.Э. Пихлак2, В.А. Логачев2, И.И. Чурсинова3, Н.А. Мутьева2 СТАТИСТИКА МАЛЫХ ВЫБОРОК В МЕДИЦИНСКИХ ИССЛЕДОВАНИЯХ

"Государственный научный центр Российской Федерации - Институт медико-биологических проблем Российской академии наук, 123007, Москва, Россия; 2ГБОУ ВПО «Московский государственный медико-стоматологический университет имени А.И.Евдокимова» Минздрава России, 127473, Москва, Россия; 3АНО «Артрологическая больница НПО СКАЛ», 109044, Москва, Россия

*Носовский Андрей Максимович, E-mail: [email protected]

♦ Экспериментально найдены характеристики статистических критериев. В результате вычисляли значение статистик W. Ансари-Бредли (Ansari-Bradly) и К. Клотца (Klotz). Для каждой исходной статистики вычисляется нормальная аппроксимация (Z-статистика) и уровень значимости p нулевой гипотезы об отсутствии различий в разбросе значений двух выборок. Если p>

Предлагаемые методы математической статистики позволяют подтверждать достоверность различий полученных результатов даже в небольших группах наблюдений, если различия достаточно значимы. Иллюстрацией служили клинические примеры пациентов с костно-суставной патологией. Ключевые слова: малая выборка, мощность критерия, коксартроз, подагрический полиартрит

A.M. Nosovskiy1, A.E.Pikhlak2, V.A. Logachev2, I.I. Chursinova3, N.AMuteva2 SMALL-DATA STATISTICS ANALYSIS IN MEDICAL STUDIES

1The state research center-institute of medical biological problems of the Russia academy of medical sciences, 123007 Moscow, Russia; 2Moscow State University of Medicine and Dentistry named after A.I. Evdokimov, 127473 Moscow, Russia; 3Arthrology hospital of scientific and practical association SKAL, 109044 Moscow, Russia

♦ The experimentally was found characteristics of statistical criteria. As a result, calculated the value of the statistics by W. An-sari-Bradly and K. Klotz. For each source of statistics calculated normal approximation (Z-statistics) and the significance level of p of the null hypothesis of no difference in the spread of the values of the two samples. Atp>0.05 the null hypothesis can be accepted. Suggested methods of mathematical statistics can be confirming the accuracy of the differences of the results, even in small groups of observations, if the differences are significant enough.

We used medical cases of patients with joint and bone pathology.

Key words: small data analysis, power of criteria, coxarthrosis, gouty arthritis

Принципы доказательной медицины предъявляют высокие требования к достоверности сравнительной оценки полученных результатов исследований. Это становится тем более важным, что большинство врачей имеет весьма поверхностное представление о методиках статистической обработки, ограничиваясь в своих публикациях помимо вычисления процентов, в лучшем случае /-критерием Стьюдента.

Однако для проведения полноценного анализа результатов исследования в ряде случаев этого бывает недостаточно. Не вызывает обычно сомнений достоверность выявленных закономерностей, когда число наблюдений составляет несколько тысяч или даже сотен. А если это - несколько десятков? А если мы имеем лишь несколько случаев? Ведь в медицине встречаются достаточно редкие заболевания, хирурги порой выполняют уникальные операции, когда количество наблюдений совсем невелико. Где та грань, тот необходимый и достаточный объем исследований, позволяющий утверждать о несомненном наличии той или иной закономерности?

Этот вопрос имеет важнейшее значение не только при оценке уже проведенных исследований, но и при планировании научной работы. Достаточно ли провести наблюдение за 20 пациентами или необходимо минимум 40? А может быть, хватит и 10 случаев? От своевременного и правильного ответа на этот вопрос зависит не только достоверность сделанных выводов, но и сроки проведения исследований, их стоимость, потребность в кадрах, оснащении и т.д.

Современная статистика знает довольно много приемов, с помощью которых можно определять достоверность результатов даже при небольшом числе наблюдений. Это - методы «малой выборки». Принято считать, что начало статистике малых выборок было положено в первом десятилетии XX века публикацией работы У Гос -

сета, где он под псевдонимом «Стьюдент» (студент) постулировал так называемое /-распределение. В отличие от теории нормального распределения, теория ^распределения для малых выборок не требует априорного знания или точных оценок математического ожидания и дисперсии генеральной совокупности, а также не требует допущений относительно параметров. В /-распределении одно из отклонений от выборочного среднего всегда фиксировано, так как сумма всех таких отклонений должна равняться нулю. Это сказывается на сумме квадратов при вычислении выборочной дисперсии как несмещённой оценки дисперсии генеральной совокупности и ведёт к тому, что число степеней свободы df получается равным числу измерений минус единица для каждой выборки. Отсюда, в формулах и процедурах вычисления /-статистики для проверки нулевой гипотезы df=w-1. Известны также классические работы крупнейшего английского статистика Р.А. Фишера (в честь которого получило свое название ^-распределение) по дисперсионному анализу - статистическому методу, явно ориентированному на анализ малых выборок. Из многочисленных статистик, которые можно обоснованно применять к малым выборкам, можно упомянуть: критерий точной вероятности Фишера; двухфак-торный непараметрический (ранговый) дисперсионный анализ Фридмана; коэффициент ранговой корреляции / Кендалла; коэффициент конкордации Кендалла; Я-критерий Краскела-Уоллеса для непараметрического (рангового) однофакторного дисперсионного анализа; ^/-критерий Манна-Уитни; медианный критерий; критерий знаков; коэффициент ранговой корреляции г Спирме-на; /-критерий Уилкоксона.

Определённого ответа на вопрос, какой объем должна иметь выборка, чтобы её можно было считать малой, не существует. Однако условной границей между малой и большой выборкой принято считать df=30. Основанием

для этого в какой-то мере произвольного решения служит результат сравнения /-распределения (для малых выборок) с нормальным распределением (г). Расхождение значений / и г имеет тенденцию возрастать с уменьшением и снижаться с увеличением Фактически, 1 начинает тесно приближаться к ъ задолго до предельного случая, когда /=г. Простое визуальное изучение табличных значений / позволяет увидеть, что это приближение становиться довольно быстрым, начиная с ^=30 и выше. Сравнительные величины / (при ^=30) и г равны соответственно: 2,04 и 1,96 для р=0,05; 2,75 и 2,58 для р=0,01; 3,65 и 3,29 для р=0,001.

В математической статистике употребляют коэффициент доверия /, значения функции табулированы при разных его значениях, при этом получают соответствующие уровни доверительной вероятности (табл. 1) .

Коэффициент доверия позволяет вычислить предельную ошибку выборки АХ, вычисляемую по формуле АХср=1цср, т.е. предельная ошибка выборки равна /-кратному числу средних ошибок выборки .

Таким образом, величина предельной ошибки выборки может быть установлена с определённой вероятностью. Как видно из последней графы таблицы 1, вероятность появления ошибки равной или большей утроенной средней ошибки выборки, т. е. АХс =3цс крайне мала и равна 0,003 (1-0,997). Такие маловероятные события считаются практически невозможными, а потому величину АХ =3цс можно принять за предел возможной ошибки выбо рки р3].

Интервал, в который с данной степенью вероятности будет заключена неизвестная величина оцениваемого параметра, называют доверительным, а вероятность Р - доверительной вероятностью . Чаще всего доверительную вероятность принимают равной 0,95 или 0,99, тогда коэффициент доверия 1 равен соответственно 1,96 и 2,58.

Это означает, что доверительный интервал с заданной вероятностью заключает в себе генеральную среднюю.

Чем больше величина предельной ошибки выборки, тем больше величина доверительного интервала и тем, следовательно, ниже точность оценки .

Применение данного подхода может быть проиллюстрировано наблюдением за 20 пациентами с коксартрозом, находившихся на лечении в Артрологической больнице НПО «СКАЛ» (Научно-производственное объединение «Специализированное курсовое амбулаторное лечение») г. Москвы.

При проверке статистической гипотезы возможны ошибки. Есть два рода ошибок. Ошибка первого рода заключается в том, что отвергают нулевую гипотезу, в то время как в действительности эта гипотеза верна. Ошибка второго рода состоит в том, что принимают нулевую гипотезу, в то время как в действительности эта гипотеза неверна.

Вероятность ошибки первого рода называется уровнем значимости и обозначается а. Таким образом, а=Р{Ш¥ | Н0}, т.е. уровень значимости а - это вероятность события {Це¥}, вычисленная в предположении, что верна нулевая гипотеза Н0.

Уровень значимости и мощности критерия объединяются в понятии функции мощности критерия - функции, определяющей вероятность того, что нулевая гипотеза будет отвергнута. Функция мощности зависит от критической области ¥ и действительного распределения результатов наблюдений. В параметрической

Таблица 1

Коэффициент доверия t и соответствующие уровни доверительной вероятности

t 1,00 1,96 2,00 2,58 3,00

F(0 0,683 0,950 0,954 0,990 0,997

задаче проверки гипотез распределение результатов наблюдений задается параметром 0. В этом случае функция мощности обозначается М(¥,0) и зависит от критической области ¥ и действительного значения исследуемого параметра 0. Если Н0: 0=00, Н1: 0=01, то М(¥,00) = а, М(¥,01)=1-в, где а - вероятность ошибки первого рода, в - вероятность ошибки второго рода. Тогда, мощность критерия - это вероятность того, что нулевая гипотеза будет отвергнута, когда альтернативная гипотеза верна.

Функция мощности М(¥,0) в случае одномерного параметра 0 обычно достигает минимума, равного а, при 0=00, монотонно возрастает при удалении от 00 и приближается к 1 при | 0 - 00 | ^ да.

Оценим необходимую мощность статистических критериев (рис. 1), которые могли бы быть применены для анализа лечения 20 пациентов с коксартрозом.

Как видим, при среднеквадратическом отклонении равном 3,0, что бывает крайне редко, будут получены результаты с высокой степенью надёжности /><0,05, если разность между средними будет превышать 8. Но уже при среднеквадратическом отклонении равном 1,5, эта разность должна превышать всего 4.

Для определения уровня значимости р обычно используется приближенная нормальная 2-аппроксимация соответствующей статистики. Такая аппроксимация дает хорошее приближение при достаточно больших размерах выборок. При малом объеме выборки и значениях р, близких к 0,05, мы проверяли вывод о нулевой гипотезе срав-

Power Curve alpha=0,05, sigma=

Power Curve alpha=0,05, sigma=1,

True Difference Between Means

True Difference Between Means

Рис. 1. Экспериментально найденные характеристики статистических

критериев.

Таблица 2 .

Группы наблюдения

Группа 1 Группа 2 Группа 3 Всего наблюдений

Нимесулид, витамины, хондропротекторы, лечебная физкультура + + + 20

Физиотерапия --- + + 15

Массаж... --- + 8

Боль при движении

Боль в покое 43±13 27±17

нением вычисленного значения статистики с критическим значением в таблице соответствующего распределения из статистического справочника.

Критерии различия сдвига (положения). Мы использовали эти критерии для проверки следующих гипотез:

♦ отсутствие различий во взаимном положении (медианах) двух исследованных выборках;

♦ сдвиг выборок друг относительно друга равен некоторому значению d;

♦ медиана одной анализируемой выборки равна значению d.

В случае б) необходимо было предварительно все значения второй выборки уменьшить на величину d: yi=yi-d.

В случае в) необходимо подготовить вспомогательную парную выборку, все элементы которой равны d.

В результате вычисляли:

♦ значение статистики W. Вилкоксона (Wilco-xon) - сумма рангов Rxi элементов одной из выборок в объединенной ранжированной выборке;

♦ значение статистики V Ван дер Вардена (van der Varden), основанную на использовании метода «произвольных меток».

Для каждой статистики вычислялась нормальная аппроксимация (Z-статистика) и уровень значимости P нулевой гипотезы об отсутствии различий в сдвиге по отношению друг к другу. Если p>0,05 нулевая гипотеза может быть принята.

Некоторые пакеты и авторы предлагают использовать ^/-критерий Манна-Уитни (Mann-Whitney) и критерий Вальда-Вольфовица (Vald-Wolfowitz). Однако давно уже доказано , что критерий Манна-Уитни эквивалентен, т.е. обладает теми же возможностями, что и крите-

Таблица 3 .

Средние показатели интенсивности боли (в баллах по ВАШ)

Группа 1 (n= 5) Группа 2 (n=7) Группа 3 (n= =8)

Показатель Начало наблюдения Конец наблюдения Снижение боли Начало наблюдения Конец наблюдения Снижение боли Начало наблюдения Конец наблюдения Снижение боли

Таблица 4.

Данные лабораторного обследования больного Б.

№ Показатель Норма Результат предпослед- Результат последнего

него посещения посещения

Гематокрит, % 40-48 38,7

Лимфоциты, % 19-37 42

СОЭ, мм/час 2-10 39

Мочевая кислота, мкмоль/л 200-416 504

Креатинин, мкмоль/л 44-106 238

Паратиреоидный гормон, пг/мл 7-53 76,8

Фибриноген, г/л 1,69-3,92 5,7

Белок в моче, г/л 0-0,1 1

43,5 39 10 489 202 101 3

Предпоследнее

Последнее

Рис. 2. р-значения клинических показателей больного Б. при предпоследнем и последнем обследовании.

рий Вилкоксона, а критерий Вальда-Вольфовица страдает сравнительно малой чувствительностью.

Критерии различия масштаба (рассеяния). Мы использовали эти критерии для проверки следующих гипотез:

♦ гипотеза об отсутствии различий в масштабах (в разбросе или рассеянии значений) исследуемых выборок;

♦ гипотеза о том, что отношение масштабов выборок равна заданной величине g.

В последнем случае необходимо предварительно изменить значения второй выборки у1=(у1-т0)^ , где т0 -общая медиана двух исследуемых спектров.

Если медианы генеральных совокупностей, из которых извлечены выборки, не равны по величине, но их

применить, предварительно модифицировав одну из выборок, например, в выборку yi=yi-m2+mr

Если же медианы не равны и не известны, то следует подтвердить гипотезу об отсутствии различий сдвига или же использовать метод для обнаружения произвольных альтернатив.

В результате вычисляли значение статистик W. Ансари-Бредли (Ansari-Bradly) и К. Клотца (Klotz), которые являются концептуальными аналогами статистик Вилкоксона и Ван дер Вардена.

Для каждой исходной статистики вычисляется нормальная аппроксимация (Z-статистика) и уровень значимости P нулевой гипотезы об отсутствии различий в разбросе значений двух выборок. Если />>0.05, нулевая гипотеза может быть принята.

Таким образом, предлагаемые выше методы математической статистики позволяют подтверждать достоверность различий

полученных результатов даже в небольших группах наблюдений, если различия достаточно значимы.

Иллюстрацией могут служить два клинических примера пациентов с костно-суставной патологией.

Клинический пример № 1. У 20 пациентов с кок-сартрозом применяли базовый лечебный комплекс, включающий пероральный прием нимесулида, хондропротекторов, внутримышечные инъекции витаминов и лечебную физкультуру. Кроме этого у 15 из них применяли физиотерапевтическое лечение, а у 6 пациентов - массаж. Таким образом, образовалось 3 группы пациентов с небольшим (от 5 до 8) числом наблюдений (табл. 2).

Среди прочих параметров перед началом лечения и после завершения курса (21±2 дня) оценивали интенсивность боли при движении и в покое по 100-бальной визуальной аналоговой шкале (ВАШ).

Использовались следующие методы статистик W. Ансари-Бредли (Ansari-Bradly) и К. Клотца (Klotz) (табл. 3).

Согласно полученным данным (табл. 3) было отмечено, что снижение боли в покое в группе 1 в конце наблюдения не являлось достоверным. Однако по всем другим изучаемым параметрам выявлены достоверные значения. Рассматриваемый клинический пример свидетельствует о возможности получения достоверных результатов на малом количестве выборки.

В клиническом примере № 2 рассматриваются в динамике лабораторные данные больного Б., страдающего хроническим подагрическим полиартритом, подагрической не-фропатией с явлениями ХПН, которые находились за пределами референсных значений (табл. 4).

Рассчитаем вероятность того, что результаты анализа статистически достоверно выходят за границы клинической нормы. Для этого используем вероятностный калькулятор статистического пакета «STATISTICA 6.0». В данном случае p-значение характеризует ошибку первого рода: вероятность отклонить правильную гипотезу, когда на самом деле она верна. В большинстве случаев результаты предпоследнего посещения статистически достоверно отличаются от нормы (рис. 2). Поскольку пороговый уровень значимости в данном случае мы принимаем равным 0,05, то результаты гематокрита, лимфоцитов, СОЭ, фибриногена статистически значимо улучшились при последнем посещении. Соответственно, клинические показатели мочевой кислоты, креатинина, паратиреоидного гормона и белка в моче, с точки зрения математической статистики, не улучшились.

Таким образом, при планировании исследования важно учитывать мощность применяемых статистических критериев, которые определяются вариабельностью выборки и заданным уровнем значимости.

Предлагаемый подход может быть интересен специалистам в области персонифицированной медицины для

анализа в динамике применяемых методов лечения и лекарственных средств, при контроле за проводимыми лечебными и диагностическими мероприятиями.

ЛИТЕРАТУРА

1. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука; 1995.

2. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. М.: Наука; 2003.

3. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ; 2006.

4. Правецкий Н.В., Носовский А.М., Матросова М.А., Холин С.Ф., Шакин В.В. Математическое обоснование достаточного количества измерений для достоверной оценки регистрируемых параметров в космической биологии и медицине. Космическая биология и авиакосмическая медицина. М.: Медицина; 1990; 5: 53-6.

5. ХоллендерМ., Вульф Д.А. Непараметрические методы статистики. М.: Финансы и статистика; 1983.

6. Носовский А.М. Применение вероятностных моделей на окружности в медико-биологических исследованиях. Космическая биология и авиакосмическая медицина. Тезисы докладов IX Всесоюзная конференция. Калуга, 19-21 июня 1990.

7. Носовский А.М., Правецкий Н.В., Холин С.Ф. Математический подход к оценке точности измерений физиологического параметра различными методами. Космическая биология и авиакосмическая медицина. М.: Медицина; 1991; 6: 53-5.

1. Bol"shev L.N., Smirnov N.V. Tables of Mathematical Statistics. Moscow: Nauka; 1995 (in Russian).

2. Korn G., Korn T. Mathematical Handbook for Scientists and Engineers. Moscow: Nauka; 2003 (in Russian).

3. Kobzar" A.I. Applied Mathematical Statistics. For engineers and scientists. Moscow: FIZMATLIT; 2006 (in Russian).

4. Pravetskiy N.V., Nosovskiy A.M., Matrosova M.A., Kholin S.F., Shakin V.V. Mathematical justification of a sufficient number of measurements for reliable evaluation of recorded parameters in space biology and medicine. Space Biology and Aerospace Medicine. Moscow: Meditsina; 1990; 5: 53-6 (in Russian).

5. Khollender M., Vul"f D.A. Non-parametric statistical methods. Moscow: Finansy i statistika; 1983 (in Russian).

6. Nosovskiy A.M. The use of probabilistic models on the circle in biomedical research. Space Biology and Aerospace Medicine. Abstracts of the IX All-Union Conference. Kaluga, June 19-21, 1990 (in Russian).

7. Nosovskiy A.M., Pravetskiy N.V., Kholin S.F. Mathematical approach to estimation accuracy of the physiological parameter by different methods. Space Biology and Aerospace Medicine. Moscow: Me-ditsina; 1991; 6: 53-5 (in Russian).

При контроле качества товаров в экономических исследованиях эксперимент может проводиться на основе малой выборки.

Под малой выборкой понимается несплошное статистическое обследование, при котором выборочная совокупность образуется из сравнительно небольшого числа единиц генеральной совокупности. Объем малой выборки обычно не превышает 30 единиц и может доходить до 4 - 5 единиц.

Средняя ошибка малой выборки вычисляется по формуле:

,

где
- дисперсия малой выборки.

При определении дисперсии число степеней свободы равно n-1:

.

Предельная ошибка малой выборки
определяется по формуле

При этом значение коэффициента доверия t зависит не только от заданной доверительной вероятности, но и от численности единиц выборки n. Для отдельных значений t и n доверительная вероятность малой выборки определяется по специальным таблицам Стьюдента (Табл. 9.1.), в которых даны распределения стандартизированных отклонений:

.

Поскольку при проведении малой выборки в качестве доверительной вероятности практически принимается значение 0,59 или 0,99, то для определения предельной ошибки малой выборки
используются следующие показания распределения Стьюдента:

Способы распространения характеристик выборки на генеральную совокупность.

Выборочный метод чаще всего применяется для получения характеристик генеральной совокупности по соответствующим показателям выборки. В зависимости от целей исследований это осуществляется или прямым пересчётом показателей выборки для генеральной совокупности, или посредством расчёта поправочных коэффициентов.

Способ прямого пересчёта. Он состоит в том, что показатели выборочной долиили среднейраспространяется на генеральную совокупность с учётом ошибки выборки.

Так, в торговле определяется количество поступивших в партии товара нестандартных изделий. Для этого (с учётом принятой степени вероятности) показатели доли нестандартных изделий в выборке умножаются на численность изделий во всей партии товара.

Способ поправочных коэффициентов . Применяется в случаях, когда целью выборочного метода является уточнение результатов сплошного учета.

В статистической практике этот способ используется при уточнении данных ежегодных переписей скота, находящегося у населения. Для этого после обобщения данных сплошного учета практикуется 10%-ное выборочное обследование с определением так называемого “процента недоучета”.

Способы отбора единиц из генеральной совокупности.

В статистике применяются различные способы формирования выборочных совокупностей, что обусловливается задачами исследования и зависит от специфики объекта изучения.

Основным условием проведения выборочного обследования является предупреждение возникновения систематических ошибок, возникающих вследствие нарушения принципа равных возможностей попадания в выборку каждой единицы генеральной совокупности. Предупреждение систематических ошибок достигается в результате применения научно обоснованных способов формирования выборочной совокупности.

Существуют следующие способы отбора единиц из генеральной совокупности:

1) индивидуальный отбор - в выборку отбираются отдельные единицы;

2) групповой отбор - в выборку попадают качественно однородные группы или серии изучаемых единиц;

3) комбинированный отбор - это комбинация индивидуального и группового отбора.

Способы отбора определяются правилами формирования выборочной совокупности.

Выборка может быть:

Собственно-случайная;

Механическая;

Типическая;

Серийная;

Комбинированная.

Собственно-случайная выборка состоит в том, что выборочная совокупность образуется в результате случайного (непреднамеренного) отбора отдельных единиц из генеральной совокупности. При этом количество отобранных в выборочную совокупность единиц обычно определяется исходя из принятой доли выборки.

Доля выборки есть отношение числа единиц выборочной совокупности n к численности единиц генеральной совокупности N, т.е.

.

Так, при 5%-ной выборке из партии товара в 2 000 ед. численность выборки n составляет 100 ед. (5*2000:100), а при 20%-ной выборке она составит 400 ед. (20*2000:100) и т.д.

Механическая выборка состоит в том, что отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы (группы). При этом размер интервала в генеральной совокупности равен обратной величине доли выборки.

Так, при 2%-ной выборке отбирается каждая 50-я единица (1:0,02), при 5%-ной выборке - каждая 20-я единица (1:0,05) и т.д.

Таким образом, в соответствии с принятой долей отбора, генеральная совокупность как бы механически разбивается на равновеликие группы. Из каждой группы в выборку отбирается лишь одна единица.

Важной особенностью механической выборки является то, что формирование выборочной совокупности можно осуществить, не прибегая к составлению списков. На практике часто используют тот порядок, в котором фактически размещаются единицы генеральной совокупности. Например, последовательность выхода готовых изделий с конвейера или поточной линии, порядок размещения единиц партии товара при хранении, транспортировке, реализации и т.д.

Типическая выборка. При типической выборке генеральная совокупность вначале расчленяется на однородные типические группы. Затем из каждой типической группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность.

Типическая выборка обычно применяется при изучении сложных статистических совокупностей. Например, при выборочном обследовании производительности труда работников торговли, состоящих из отдельных групп по квалификации.

Важной особенностью типической выборки является то, что она дает более точные результаты по сравнению с другими способами отбора единиц в выборочную совокупность.

Для определения средней ошибки типической выборки используются формулы:

повторный отбор

,

бесповторный отбор

,

Дисперсия определяется по следующим формулам:

,

При одноступенчатой выборке каждая отобранная единица сразу же подвергается изучению по заданному признаку. Так обстоит дело при собственно-случайной и серийной выборке.

При многоступенчатой выборке производят подбор из генеральной совокупности отдельных групп, а из групп выбираются отдельные единицы. Так производится типическая выборка с механическим способом отбора единиц в выборочную совокупность.

Комбинированная выборка может быть двухступенчатой. При этом генеральная совокупность сначала разбивается на группы. Затем производят отбор групп, а внутри последних осуществляется отбор отдельных единиц.

Свои способности человек может узнать, только попытавшись приложить их. (Сенека)

Бутстреп, малые выборки, применение в анализе данных

Основная идея

Метод бутстрепа предложен Б. Эфроном как развитие метода складного ножа в 1979 году.

Опишем основную идею бутстрепа.

Цель анализа данных – получить максимально точные выборочные оценки и распространить результаты на всю популяцию.

Технический термин, которым обозначаются численные данные, построенные по выборке, это выборочная статистика.

Основные описательные статистики это выборочные среднее, медиана, стандартное отклонение и т.д.

Итоговая статистика, например, выборочное среднее, медиана, корреляция будут меняться от выборки к выборке.

Исследователю требуется знать размер этих отклонений в зависимости от популяции. На основании этого рассчитывается предел погрешности.

Исходная картина всех возможных значений выборочной статистики в форме распределения вероятностей называется выборочным распределением.

Ключевым является размер выборки. Что делать, если размер выборки небольшой? Один из разумных подходов состоит в том, чтобы случайным образом извлекать данные из имеющейся выборки.

Идея бутстрепа в том, чтобы использовать результаты вычислений по выборкам как “фиктивную популяцию” с целью определить выборочное распределение статистики. Фактически, при этом анализируется большое число “фантомных” выборок, называемых бутстреп-выборками.

Обычно случайным образом генерируется несколько тысяч выборок, из этого набора можно найти бутстреп-распределение интересующей нас статистики.

Итак, пусть имеем выборку выберем на первом шаге случайным образом один из элементов выборки, возвратим этот элемент в выборку, вновь случайным образом выберем элемент и тд.

Повторим описанную процедуру случайного выбора n раз.

В бутстрепе проводится случайный выбор с возвращением, выбранные элементы исходной выборки возвращается в выборку и далее могут быть снова выбраны.

Формально на каждом шаге мы выбираем элемент исходной выборки с вероятностью 1/n .

Всего имеем n элементов исходной выборки, вероятность получить выборку с номерами (N 1 … Nn ), где Ni меняется от 0 до n описывается полиномиальным распределением.

Таких выборок генерируется несколько тысяч, что вполне достижимо для современных компьютеров.

Для каждой выборки строится оценка интересующей величины, далее оценки усредняются.

Так как выборок много, можно построить эмпирическую функцию распределения оценок, далее рассчитать квантили, вычислить доверительный интервал.

Ясно, что бутстреп метод является модификацией метода Монте-Карло.

Если выборки генерируются без возвращения элементов, то получается известный метод складного ножа.

Вопрос: зачем это делать и когда метод разумно использовать в реальном анализе данных?

В бутстрепе мы не получаем новой информации, но разумно используем имеющиеся данные, исходя из поставленной задачи.

Например, бутстреп можно использовать для малых выборок, для оценок медианы, корреляций, построения доверительных интервалов и в других ситуациях.

В исходной работе Эфрона рассматривались оценки парной корреляции для размера выборки n = 15.

Генерируется B = 1000 бутстреп выборок (bootstrap replication ).

На основе полученных коэффициентов ro 1 … ro В строится общая оценка коэффициента корреляции и оценка стандартного отклонения.

Стандартная ошибка выборочного коэффициента корреляции, вычисленная с помощью нормального приближения, имеет вид:

где коэффициент корреляции равен 0.776, размер исходной выборки n = 15.

Бутстреп оценка стандартной ошибки равна 0.127, см. Efron , Gall Gong , 1982.

Теоретический бэкграунд

Пусть - целевой параметр исследования, например, средний доход в выбранном обществе.

По произвольной выборке размера получаем набор данных Пусть соответствующая выборочная статистика -

Для большинства выборочных статистик при большом значении (>30) выборочное распределение представляется из себя нормальную кривую с центром и стандартным отклонением , где положительный параметр зависит от популяции и вида статистики

Этот классический результат известен как центральная предельная теорема.

Зачастую при оценке требуемого стандартного отклонения по данным возникают серьезные технические трудности.

Например, если медиана или выборочная корреляция .

Метод бутстрепа позволяет обойти эти трудности.

Идея простая: обозначим через произвольную величину, представляющую собой такую же статистику, вычисленную по бутстреп-выборке, которая получена из исходной выборки

Что можно сказать про выборочное распределение , если “исходная” выборка фиксирована?

В пределе выборочное распределение также является колоколообразным с параметрами и

Таким образом, бутстреп-распределение хорошо аппроксимирует выборочное распределение

Заметим, что когда мы переходим от одной выборки к другой, в выражении меняется только , так как вычислена по

По сути это является бутстреп версией центральной предельной теоремы.

Также было установлено, если предельное выборочное распределение статистической функции не включает в себя неизвестные по популяции, бутстреп-распределение позволяет получить более хорошее приближение к выборочному распределению, чем центральная предельная теорема.

В частности, когда статистическая функция имеет вид где через обозначена истинная, или выборочная оценка стандартной ошибки при этом предельное выборочное распределение обычно стандартное нормальное.

Этот эффект получил название коррекции второго порядка с помощью бутстреппинга.

Пусть т.е. среднее по популяции, и т.е. среднее по выборке; - стандартное отклонение в популяции, - выборочное стандартное отклонение, вычисленное по исходным данным, а - вычисленное по бутстреп-выборке.

Тогда выборочное распределение величины где , будет аппроксимироваться бутстреп-распределением , где - среднее по бутстреп-выборке, .

Аналогично, выборочное распределение будет аппроксимироваться бутстреп-распределением , где .

Первые результаты по коррекции второго порядка были опубликованы Бабу и Сингхом в 1981-83 годах.

Приложения бутстрепа

Аппроксимация стандартной ошибки выборочной оценки

Предположим, что для популяции известен параметр

Пусть - оценка сделанная на основе случайной выборки размера т.е. это функция от Так как выборка меняется на множестве всех возможных выборок, то для того, чтобы оценить стандартную ошибку используется следующий подход:

Вычислим используя ту же формулу, что использовалась для но на этот раз на основе различных бутстреп-выборок размера каждая. Грубо говоря, можно принять если только не сильно велико. В этом случае можно сократить до n lnn . Тогда можно определить исходя, собственно, из сути бутстреп-метода: популяция (выборка) заменяется эмпирической популяцией(выборкой).

Байесовская коррекция с помощью бутстреп метода

Среднее выборочного распределения часто зависит от обычно как для больших То есть, Байесовская аппроксимация:

где - это бутстреп-копии . Тогда скорректированное значение будет -

Стоит отметить, что предыдущий метод ресэмплинга(замен выборки), называемый методом складного ножа, является более популярным.

Доверительные интервалы

Доверительные интервалы (ДИ) для заданного параметра это основанные на выборке диапазоны .

Этот диапазон обладает тем свойством, что значение с очень высокой (заранее установленной) вероятностью принадлежит ему. Это называется уровнем значимости. Конечно, эта вероятность должна относиться к любой выборке из возможных, т.к. каждая выборка привносит свой вклад в определение доверительного интервала. Два наиболее часто используемых уровня значимости это 95% и 99%. Здесь мы ограничимся значением 95%.

Традиционно ДИ зависят от выборочного распределения величины точнее в пределе . Есть два основных вида доверительных интервалов, которые могут быть построены с помощью бутстрепа.

Метод процентилей

Этот метод уже упоминался во введении, он очень популярен благодаря своей простоте и естественности. Предположим, что у нас есть 1000 бутстреп копий обозначим их через Тогда в доверительный интервал попадут значения из диапазона Возвращаясь к теоретическому обоснованию метода, стоит отметить, что в нем требуется симметрия выборочного распределения вокруг Причина этого заключается в том, что в методе аппроксимируется выборочное распределение с помощью бутстреп-распределения , хотя по логике получается, что оно должно аппроксимироваться значением то есть противоположным по знаку.

Центрированный метод бутстреп-процентилей

Предположим, что выборочное распределение аппроксимируется с помощью бутстреп распределения то есть как изначально и предполагалось в бутстреппинге. Обозначим 100-й процентиль (в бутстреп-повторениях) через Тогда предположение, что значение лежит в диапазоне от до будет верным с вероятностью 95%. Это же выражение легко преобразуется в аналогичное для диапазона от до Этот интервал и называется центрированным доверительным интервалом по бутстреп-процентилям (при уровне значимости 95%).

Бутстреп-t критерий

Как уже было отмечено, в бутстрепе используется функция вида где есть выборочная оценка стандартной ошибки

Это дает дополнительную точность.

В качестве основного примера возьмем стандартную t-статистику (отсюда название метода): то есть частный случай, когда (популяционное среднее), (выборочное среднее) и - выборочное стандартное отклонение. Бутстреп аналогом такой функции является где вычисляется также, как и только по бутстреп-выборке.

Обозначим 100-й бутстреп-процентиль через и будем полагать, что значение лежит в интервале

Используя равенство можно переписать предыдущее утверждение, т.е. лежит в интервале

Этот промежуток называется бутстреп t-доверительным интервалом для при уровне 95%.

В литературе он используется для достижения большей точности, чем предыдущий подход.

Пример реальных данных

Возьмем для первого примера данные из работы Холландера и Вольфе 1999 года, стр. 63, которые представляют собой эффект влияния света на скорость вылупления цыплят.

Стандартный бокс-график предполагает отсутствие нормальности по данным популяции. Мы провели бутстреп анализ медианы и среднего.

Отдельно стоит отметить отсутствие симметрии на бутстреп t-гистограмме, которая отличается от стандартной предельной кривой. 95%-е доверительные интервалы для медианы и среднего (вычисленные с использованием бутстреп метода процентилей), грубо говоря, покрывают диапазон

Этот диапазон представляет общую разницу (нарастание) в результатах скорости вылупления цыплят в зависимости от подсветки.

В качестве второго примера рассмотрим данные из работы Девора (Devore) 2003 г., стр 553, в которой рассматривалась корреляция между показателем биохимической потребности в кислороде (БПК, BOD) и результатами гидростатического взвешивания (HW) профессиональных спортсменов - футболистов.

Двумерные данные состоят их пар и пары можно произвольно выбирать во время бутстреп ресэмплинга. Например, сначала взять затем и т.д.

На рисунке график ящики-усы показывает отсутствие нормальности для основных популяций. Гистограммы корреляций, вычисленные на основе бутстреп двумерных данных, являются асимметричными (сдвинутыми влево).

По этой причине, центрированный метод бутстреп процентилей является в данном случае более подходящим.

В результате анализа выяснилось, что измерения скоррелированы для как минимум 78% популяции.

Данные для примера 1:

8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

Данные для примера 2 :

2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

В литературе часто предлагаются различные схемы для бутстреппинга, которые могли бы давать достоверные результаты в различных статистических ситуациях.

То, что обсуждалось выше - лишь самые базовые элементы, и других вариантов схем на самом деле очень много. Например, какой метод лучше использовать в случае двухступенчатой выборки или стратифицированной выборки?

Естественную схему в этом случае нетрудно придумать. Бутстрэппинг в случае данных с моделями регрессии вообще привлекает много внимания. Есть два основных метода: в первом ковариации и переменные отклика ресэмплируются вместе (парный бутстреппинг), во втором - бутстреппинг производится по остаткам (остаточный бутстреппинг).

Парный метод остается корректным (в смысле результатов при ) даже если дисперсии ошибок в моделях не равны. Второй метод в этом случае некорректен. Этот недостаток компенсируется тем, что такая схема дает дополнительную точность в оценке стандартной ошибки.

Гораздо сложнее применять бутстреппинг для данных временных рядов.

Анализ временных рядов, однако, является одной из ключевых областей в эконометрике. Здесь можно выделить две основные трудности: во-первых, данные по временным рядам обладают свойством быть последовательно зависимыми. То есть, зависит от , и т.д.

Во-вторых, статистическая популяция со временем меняется, то есть появляется нестационарность.

Для этого разработаны методы, которые переносят зависимость в исходных данных на бутстреп-выборки, в частности, блоковая схема.

Вместо бутстреп выборки сразу строится блок данных, сохраняющий в себе зависимости из исходной выборки.

В области приложения бутстреппинга к разделам эконометрики в настоящий момент проводится довольно много исследований, в целом метод активно развивается.

Метод малых выборок

Основным достоинством метода малых выборок является возможность оценить динамику процесса во времени с сокращением времени на вычислительные процедуры.

Случайным образом отбирают мгновенные выборки в определенные периоды времени объемом от 5 до 20 единиц. Период отбора проб устанавливается опытным путем и зависит от устойчивости процесса, определенной при анализе априорной информации.

Для каждой мгновенной выборки определяют основные статистические характеристики. Мгновенные выборки и их основные статистические характеристики представлены в приложении Б.

Выдвигается и проверяется гипотеза об однородности дисперсии выборок при помощи одного из возможного критерия (критерий Фишера).

Проверка гипотезы об однородности выборочных характеристик.

Для проверки значимости различия между средними арифметическими в 2-х сериях измерений вводят меру G. Расчеты приведены в приложении В

Правило принятия решения формулируется следующим образом:

где tр - значение квантиля нормированного распределения при заданной доверительной вероятности Р, ? = 0,095, n = 10, tр =2,78.

При выполнении неравенства подтверждается гипотеза о том, что разница между выборочными средними не значима.

Поскольку неравенство выполняется во всех случаях, то гипотеза о том, что разница между выборочными средними не значима подтверждается.

Для проверки гипотезы об однородности выборочных дисперсий вводят меру F0 как отношение несмещенных оценок дисперсий результатов 2-х серий измерений. Причем большую из 2-х оценок принимают за числитель и если Sx1>Sx2, то

Результаты расчетов приведены в приложении В.

Затем задаются значениями доверительной вероятности Р и определяют значения F(K1; K2; ?/2) при К1 =n1 - 1 и K2=n2 - 1.

При Р=0,025 и К1=10-1=4 и К2=10-1=4 F (9;9;0,025/2) =4,1.

Правило принятия решения: если F(K1; K2; ?/2)>F0, то гипотеза об однородности дисперсий в двух выборках принимается.

Поскольку условие F(K1; K2; ?/2) > F0 выполняется во всех случаях, то гипотеза об однородности дисперсий принимается.

Таким образом, гипотеза об однородности дисперсий выборок подтверждается, что свидетельствует о стабильности процесса; гипотеза об однородности выборочных средних по методу сравнения средних подтверждается, это означает, что центр рассеивания не изменился и процесс находится в стабильном состоянии.

Метод точечных и точностных диаграмм

В течение определенного времени берут мгновенные выборки, объемом от 3 до 10 изделий и определяют статистические характеристики каждой выборки.

Полученные данные наносят на диаграммы, по оси абсцисс которых отложено время? или номера k выборок, а по оси ординат - индивидуальные значения хк или значение одной из статистических характеристик (выборочное среднее арифметическое, выборочное среднее квадратическое отклонение). Кроме того, на диаграмме проводят две горизонтальные линии Тв и Тн, ограничивающие поле допуска изделия.

Мгновенные выборки приведены в приложении В.


Рисунок 1 точностная диаграмма

Диаграмма наглядно отображает ход производственного процесса. По ней можно судить о том, что производственный процесс является нестабильным

На практике довольно часто приходится иметь дело с выборками весьма малого объема, численности которых значительно меньше двадцати - тридцати. Такие выборки в статистике получили название малых выборок. Необходимость специального рассмотрения малых выборок вызвана тем, что разобранные выше методы точечной и интервальной оценки выборочных характеристик предполагают достаточно большую численность выборок.

Понятие о малых выборках. Распределение Стьюдента

Выборочная средняя и, соответственно, ее ошибка распределены нормально, а поправка на величину смещения выборочной дисперсии очень близка к единице и не имеет практического значения. Ошибка выборки в этих условиях очень редко превышает величину. Иное дело при небольшом объеме выборки. При малых выборках выборочная дисперсия оказывается значительно смещенной. Поэтому применять функцию нормального распределения для вероятностных выводов о возможной величине ошибки было бы неправомерно. При малом объеме выборки всегда нужно пользоваться несмещенной оценкой дисперсии:

Следовательно, для получения несмещенной оценки дисперсии по данным малой выборки сумму квадратов отклонений нужно делить на величину. Эта величина называется числом степеней свободы вариации. В дальнейшем для краткости число степеней свободы вариации будет обозначаться греческой буквой (ню).

Проблема оценки выборочных характеристик на основе малых выборок впервые была исследована английским математиком статистиком В. Госсетом, публиковавшим свои работы под псевдонимов Стьюдент (1908 г.).

Исходя из предложения о нормальности распределения признака в генеральной совокупности и рассматривая вместо абсолютных отклонений их отношения к независимому стандарту, Стьюдент нашел распределение, которое зависит только от численности выборки. Позже (1925 г.) Р. Фишер дал более строгое доказательство этого распределения, которое получило название распределение Стьюдента.

Величина Стьюдента выражается как следующее отношение:

В числителе выражения фигурирует переменная величина, которая отражает возможные значения отклонений выборочных средних от генеральной средней. Величина распределена нормально с центром, равным нулю, и дисперсией, равной.

Следует особо подчеркнуть, что знаменатель выражения нельзя рассматривать как среднюю ошибку переменной. Величина рассматривается здесь как независимо распределенная от числителя переменная. означает среднее квадратическое (стандартное) отклонение данной выборки и не является оценкой генеральной совокупности, так как распределение Стьюдента не зависит ни от одного параметра генеральной совокупности. определяется по данным выборки как

Распределения независимы друг от друга. Только при этом условии и для выборок из нормальных совокупностей имеет место распределение Стьюдента.

Основное преимущество распределения Стьюдента состоит в том, что оно не зависит от параметров генеральной совокупности и имеет дело только с величинами, полученными непосредственно из выборки.

Дифференциальный закон распределение Стьюдента (плотность вероятности) имеет вид:

где объем выборки;

величина соответствующая максимальной ординате кривой распределения при t = 0.

Соответственно функция распределения Стьюдента выражается:

Иначе говоря,

где t ф стандартизированная (нормированная) разность, вычисляемая по результатам малой выборки.

Величины Г() и Г() являются гамма- функциями. Для некоторого числа гамма - функция выражается несобственным интегралом:

В малых выборках всегда целое положительное число (объем выборки).

В этом случае гамма - функция всегда имеет конечную величину и выражается через факториалы:

следовательно:

При вычислении гамма - функции полезно знать следующие свойства:

1) При есть;

  • 3) Например,

Используя это свойство, легко можно вычислить значения Г() и Г() в выражении плотности распределения;

4) Функция достигает минимума при дробном значении

Рис 3.1

Общий вид гамма - функции показан на рис. 3.1.

Из свойств распределения Стьюдента, рассматриваемых обычно в курсе теории вероятностей, обращается внимание на следующее:

1) Распределение Стьюдента замечательно тем, что зависит только от одного параметра - объема выборки и не зависит от средней и дисперсии генеральной совокупности (в отличие от нормального распределения, зависящего о этих двух параметров).

  • 2) Распределение Стьюдента точно для любого объема выборки следовательно, и для малых выборок, что позволяет делать вероятностные выводы по малому числу наблюдений.
  • 3) При увеличении объема выборки величина приближается к значению, а распределение Стьюдента приближается к нормальному. При распределение Стьюдента становится нормальным. Практически для нормального приближения считается достаточным.

Рис 3.2

На рис. 3.2 показаны соотношения между распределением Стьюдента и нормальным распределением.

Как видно из рис. 3.2, под концами кривой распределения Стьюдента, например или, расположена значительно большая часть площади, чем под кривой нормального распределения при тех же значениях. Это значит, что при малом объеме выборок вероятность допущения больших ошибок заметно увеличивается. Из рисунка видно, что при значениях нормированного отклонения, превышающих по абсолютному значению, площадь под кривой распределения Стьюдента гораздо больше, чем под кривой нормального распределения.

О величине расхождений между значениями функции распределения Стьюдента в зависимости от объема выборки и значениями нормальной функции распределения можно судить по данным табл. 3.2, где приведены значения площадей под кривой распределения от при разной численности выборки при.

Таблица 3.1

Значение нормальной функции распределения

Таблица 3.2

Значения вероятностей при разном объеме выборки

Нормированное отклонение

Значение при малых выборках с численностями

Значение при больших выборках

Из таблицы 3.2. видно, что с увеличением объема выборки малая выборка быстро приближается к нормальной. В то же время при очень маленькой численности выборки расхождения между значениями при данном значении весьма значительны.

Исследованиями было установлено, что распределение Стьюдента практически применимо не только в случае нормального распределения признака в генеральной совокупности. Оказалось, что оно происходит к практически приемлемым выводам и тогда, когда распределения признака в генеральной совокупности не является нормальным, а лишь симметрично и даже несколько асимметрично, но объем выборки не слишком мал.

Значения функции распределения Стьюдента затабулированы при различных значениях Поэтому при оценке выборочных характеристик пользуются готовыми таблицами:

Таблица 3.3

Таблица значений функции

Значения функции распределения Стьюдента могут быть использованы различными способами в зависимости от характера решаемых задач при определении вероятности отклонения выборочной от генеральной. Наиболее часто используются:

1) Определение вероятности того, что разность между выборочной средней и генеральной средней окажется меньше на некоторую заданную величину. В нормированных отклонениях задача сводится к определению вероятности того, что окажется меньше значения, задаваемого условиями задачи, т.е. к нахождению значения

Рис 3.3

Это есть вероятность больших отрицательных отклонений, которая на рис. 3.3 соответствует заштрихованной площади.

2) Определение вероятности того, что разность между выборочной средней и средней генеральной окажется не менее некоторой заданной величины, иначе говоря, следует найти

Рис 3.4

Это есть вероятность больших положительных отклонений, которая показана в виде заштрихованной площади на рис. 3.4. эту вероятность легко найти, используя таблицы.

3) Определение вероятности того, что нормированное отклонение по абсолютной величине окажется менее, выражается

Это есть вероятность меньших по абсолютной величине отклонений. Эта вероятность может быть определена с использованием таблиц. Поскольку на практике чаще всего приходится определять эту вероятность, составленной специальной таблицы значения (табл. 3.3).

Графическая иллюстрация вероятности меньших по абсолютной величине отклонений дана на рис. 3.5

Рис 3.5

4) Определение вероятности того, что ошибка выборки по абсолютной величине окажется не менее некоторой заданной величины. В нормированных единицах вероятность того, что по абсолютной величине окажется не менее, выразится

Это есть вероятность больших по абсолютной величине отклонений. Графически она иллюстрируется на рис. 3.6.

Рис 3.6

Для нахождения вероятности больших по абсолютной величине отклонений имеются специальные таблицы (приложение 3). Эту вероятность легко можно вычислить, также используя таблицы.