Проверка гипотезы о законе распределения исследуемой совокупности — важный этап при проведении статистического анализа любых данных, в том числе и медицинских.
В медицинских исследованиях чаще всего проводится проверка на нормальность распределения, то есть проверка гипотезы о нормальном распределении. Именно нормальный закон распределения (закон распределения Гаусса) является наиболее типичным для большинства количественных медицинских данных при условии большого объема исследуемой выборкиБаврина А.А. Современные правила использования методов описательной статистики в медико-биологических исследованиях // Медицинский альманах. 2020. №2(63). С. 95–104..
Непрерывная случайная величина имеет нормальный закон распределения, если ее плотность распределения вероятностей имеет вид:
(2.1),
где μ (математическое ожидание данной случайной величины) и σ (среднее квадратическое отклонение) — параметры нормального распределения.
Графиком плотности распределения вероятностей является нормальная кривая, или кривая Гаусса (см. рис. 2.1). Данный график обладает следующими свойствамиСтатистический анализ данных в медицинских исследованиях: в 2 ч. Минск: МГЭУ им. А.Д. Сахарова, 2014. Ч. I. С. 35:
- нормальная кривая имеет колоколообразную форму;
- нормальная кривая симметрична относительно прямой х=μ;
- 68% значений попадают в интервал μ ± σ;
- 95% значений попадают в интервал μ ± 2σ;
- 99,7% значений попадают в интервал μ ± 3σ.
Рис. 2.1. График плотности распределения вероятностей (кривая Гаусса) c параметрами μ=10 и σ=3
Информация о нормальности распределения необходима по следующим причинам.
1. Возможность применения многих статистических методов основана на допущении о нормальности распределения. Такие методы называются параметрическими, а методы, для которых нормальность распределения не требуется, называются непараметрическими.
2. Данные, используемые в исследовании, должны быть описаны корректно, для чего также необходима информация о нормальности распределения.
На практике при работе с конкретными массивами данных закон распределения, как правило, неизвестен. Если количество наблюдений массива велико, то для проверки на нормальность, расчета описательной статистики и др., используют выборочный метод. Суть выборочного метода состоит в следующем: из массива данных (называемого генеральной совокупностью) отбирается часть (называемая выборочной совокупностью, или выборкой), исследуется, и полученные результаты обобщаются на весь исследуемый массив данных. Количество элементов в выборке называется ее объемом и обозначается n.
Статистические тесты, используемые для проверки гипотезы о нормальном распределении, называются критериями согласия. Данные критерии призваны ответить на вопрос: согласуются или нет данные наблюдения и выдвинутая гипотеза? Во всех критериях согласия выдвигается основная гипотеза H0: признак имеет нормальный закон распределения при конкурирующей (противоположной) гипотезе H1: признак имеет закон распределения, отличный от нормального. Гипотеза проверяется по выборочным данным.
Многие критерии согласия реализованы в прикладных статистических пакетах. Для небольших объемов выборки (n <50) проверка на нормальность наиболее часто производится с помощью критерия Шапиро–Уилка. Для больших выборок используются критерий Колмогорова–Смирнова с поправкой Лильефорса в SPSS и R и критерий Пирсона (критерий χ2) в Gretl.
Если р-значение теста больше уровня значимости α (p > α), то нет оснований отвергать нулевую гипотезу, то есть данные распределены нормально.
Рассмотрим пример 2.1.
ПРИМЕР 2.1
В терапевтическом отделении была измерена масса тела девяти пациентов и получены следующие результаты (кг):
99, 80, 71, 65, 93, 71, 84, 76, 69.
Проверить гипотезу о нормальном законе распределения массы тела пациента при уровне значимости α=0,05.