Раздел 2. Параметрические критерии
2.1. Описательная статистика Методы описательной статистики (Descriptive statistics) и характеристика статистических совокупностей
В программе STATISTICA методы описательной статистики (Descriptive statistics) представлены в разделе “Основные статистики”(Basic Statistics and Tables) меню Статистика.
Значения переменных для анализа загружают из приложения или вводят в электронную таблицу с клавиатуры. Для выбора переменных (или переменной), по которым определяются статистические показатели, надо нажать кнопку Variables и в открывшемся окне активизировать нужные переменные (или переменную).
Пример 1. Значениями переменной (Var1) являются результаты взвешивания кроликов одного возраста (кг):
1,9 2,4 3,0 2,7 2,1 1,6 1,2 1,6 2,2 2,1
2,3 1,5 1,3 2,2 2,5 2,3 2,1 1,0 1,8 1,9
1,8 3,2 2,1 2,9 3,0 1,3 2,0 2,6 2,5 1,9
На вкладке Quick (или Summary/Descriptive statistics) программа отражает результаты определения основных статистических показателей. Количество (Valid) N=30. Средняя арифметическая (Mean) =2,1. Показатель средней массы кроликов составляет 2,1 кг.
Минимум и максимум (Minimum & Maximum): min=1,0 кг; max=3,2 кг.
Среднее квадратическое отклонение (Standard Deviations) Sx=± 0,56 кг.
Среднее квадратическое отклонение – величина, показывающая среднее отклонение вариант от средней арифметической.
Статистические показатели для полного анализа выборочной совокупности выбираются на вкладке Advanced установлением флажков напротив соответствующих статистик. При помощи кнопки Select all stats можно выбрать все статистики. Они разделены на три группы.
- Показатели положения (Location).
Количество (Valid) N=30.
Средняя арифметическая (Mean) =2,1 кг.
Медиана (Median) Me=2,1 кг. Медиана – это структурная средняя, относительно которой выборка делится на две равные части.
Мода (Мode) Мо=2,1кг. Мода – значение, наиболее часто встречающейся варианты в данной совокупности.
Средняя геометрическая (Geom.mean, g) определяется при оценке средних темпов изменения величины переменной за определенные промежутки времени.
Средняя гармоническая (Harm.mean, ) определяется при работе с переменными величинами, изменяющимися во времени.
- Показатели вариации (Variation).
Среднее квадратическое отклонение (Standard Deviations) Sx=±0,56 кг.
Дисперсия (Variance) Sx 2 =0,31кг.
Ошибка репрезентативности для средней арифметической (стандартная ошибка) =±0,102 кг.
Доверительный интервал генеральной средней (Confidence limit of mean) – область, в которой с определенной доверительной вероятностью находится генеральная средняя арифметическая ( = ±t ·SХ; где t — критерий достоверности для доверительной вероятности Р≥0,95), ≤ ≤ ; 1,89 ≤ ≤2,34.
Коэффициент асимметрии (Skewness, Аs) – показатель, характеризующий симметричность распределения. При нормальном распределении коэффициент асимметрии равен нулю. Если коэффициент асимметрии существенно отличается от нуля, то распределение несимметрично. Определяется коэффициент асимметрии по формуле:
Аs= . Стандартная ошибка асимметрии (Standard errow of Skewness, ) . Коэффициент эксцесса (Kurtosis, Ех) характеризует особенность распределения вариант выборки около своего центра. Определяется коэффициент эксцесса по формуле: Ex= . Стандартная ошибка эксцесса (Standard errow of Kurtosis, ): . Для нормального распределения коэффициент эксцесса также как и коэффициент асимметрии равен нулю. Если коэффициенты асимметрии и эксцесса превосходят критические (стандартные) значения, приведенные в таблицах 1-2 , гипотеза о нормальности распределения не принимается, формулируется вывод о наличии у этого распределения значимой асимметрии или эксцесса.
В выборке одновозрастных кроликов (Пример 1; Раздел 2.1.) значимая асимметрия и эксцесс не наблюдается. Коэффициент асимметрии (Аs=0,039) и коэффициент эксцесса (Ex=-0,44) меньше стандартных значений, приведенных в таблицах 1-2.
Минимум и максимум (Minimum & Maximum): min=1,0 кг; max=3,2 кг.
Минимальная и максимальная квартили (Lower & upper quartiles, ). Р25=1,8 кг; Р75=2,5 кг. Квартиль – значение переменной, ниже которой находится часть (25% и 75%) выборки.
Размах (Range) – разность между максимальным и минимальным значениями выборки.
Критические значения коэффициента асимметрии As
Занятие 3. Описательная статистика
Расчет параметров описательной статистики в программе STATISTICA выполняется при помощи модуля Descriptive statistics (Описательная статистика).
Для удобства работы можно вывести дополнительную панель инструментов, которая содержит кнопки запуска практически всех типов статистического анализа, реализованных в программе. Вывод этой панели значительно облегчает работу, поскольку позволяет оперативно вызывать требуемый анализ. Для этого в разделе View (Вид) основного меню выберите пункт Toolbars (Инструменты), а в нем — Statistics. В верхней части рабочего окна появится данная дополнительная панель.
Откройте файл с данными или создайте новый.
Войдите в раздел Statistics основного меню и выберите в нем пункт Basic statistics/Tables. В выскочившем окошке выберите пункт Descriptive statistics (Описательная статистика).
Внешний вид окна Descriptive statistics приведен на рисунке 1.
Рисунок 1. Внешний вид модуля Descriptive statistics на закладке Quick
Окно Descriptive statistics имеет некоторые элементы, встречающиеся в большинстве модулей программы, например:
- кнопка Variables , с помощью которой программе указываются анализируемые переменные;
- кнопка Summary — для вывода результатов анализа;
- кнопка Options — для настройки внешнего вида программы и окон вывода результатов анализа;
- кнопка Cancel – отмена.
Кроме того, это окно имеет несколько закладок.
По умолчанию перед пользователем первой предстает закладка Quick (Быстро). Находясь на ней, можно выполнить следующие операции:
- рассчитать показатели описательной статистики — кнопка Summary: Descriptive statistics . Перечень рассчитываемых показателей определяется настройками, заданными на другой закладке окна — Advanced;
- получить таблицу с частотами встречаемости каждого из значений анализируемой переменной — кнопка Frequency Tables (см. занятие 1);
- построить гистограмму частотного распределения значений анализируемой переменной — кнопка Histograms . Автоматически вместе с гистограммой программа нарисует теоретически ожидаемую нормальную кривую, глядя на которую, можно сделать вывод о том, подчиняются ли анализируемые данные нормальному закону распределения.
- Построить для выбранной переменной (или для нескольких переменных одновременно) график типа “коробочка с усами” (см. ниже) — кнопка Box & whisker plot for all variables .
Для расчета подробного перечня показателей описательной статистики следует воспользоваться другой закладкой модуля – Advanced (Расширенные настройки).
Рисунок 2. Окно Descriptive statistics на закладке Advanced (Расширенные настройки)
Основную часть закладки Advanced занимает список следующих статистических показателей:
- Valid N — объем совокупности;
- Mean — арифметическая средняя;
- Sum — сумма значений анализируемой переменной;
- Median — медиана;
- Mode — мода;
- Geom. mean — геометрическая средняя;
- Harm. mean — гармоническая средняя;
- Standard Deviation — стандартное отклонение;
- Variance — дисперсия;
- Std. err. of mean — стандартная ошибка средней;
- Conf. limits for means: Interval % — доверительные пределы для средних: ширина доверительного интервала;
- Skewness — коэффициент асимметрии;
- Std. err., Skewness — стандартная ошибка коэффциента асимметрии;
- Kurtosis — коэффициент эксцесса;
- Std. err., Kurtosis — стандартная ошибка коэффициента эксцесса;
- Minimum & maximum — минимальное и максимальное значения;
- Lower & upper quartiles — нижний и верхний квартили;
- Perсentile boundaries: First & Second: первый и второй процентили;
- Range — размах;
- Quartile range — межквартильный размах.
На закладке Advanced имеются также следующие кнопки:
- select all stats — нажатие на эту кнопку приводит к выбору всех имеющихся статистических показателей для последующего их расчета;
- reset — сброс всех показателей;
- save settings as default — выбрав определенные показатели и нажав на эту кнопку, вы даете программе команду, чтобы она рассматривала данные показатели в качестве стандартных при последующих запусках модуля.
Следующей за Advanced идет закладка Normality (Нормальность).
Рисунок 3. Окно Descriptive statistics на закладке Normality
Это важная составляющая модуля описательной статистики, которой вам придется пользоваться очень часто. С помощью элементов этой закладки можно определить, насколько статистически значимо частотное распределение ваших данных отличается от нормального распределения. Наиболее важными элементами здесь являются:
- кнопки Frequency tables и Histograms ;
- поле Categorization (Категоризация): воспользовавшись опцией Number of intervals, можно указать программе, сколько “столбиков” ей следует изобразить на гистограмме. Эта опция используется в тех случаях, когда анализируемый биологический признак является непрерывным. Если же он дискретен, т.е. выражается только целыми числами, следует отметить опцию Integral intervals (Categories).
- опция Normal expected frequencies (Ожидаемые нормальные частоты): при ее выделении и последующем нажатии на кнопку Frequency tables программа выдаст таблицу, которая помимо фактических частот численных значений переменной, будет содержать также теоретически ожидаемые нормальные частоты.
Тесты, применяемые для проверки соответствия анализируемых данных закону нормального распределения — Kolmogorov-Smirnov & Lilliefors test for normality и Shapiro-Wilk’s W test. Подробнее эти методы будут рассмотрены позже.
В ряде случаев полезной может оказаться и закладка Prob. & Scatterplots (Вероятностные графики и диаграммы рассеяния), следующая за Normality. В частности, с ее помощью можно построить двух- и трехмерные графики зависимости между двумя переменными, а также проверить данные на нормальность с использованием т.н. «вероятностной бумаги» (Normal probability plot).
При подготовке материала использовались источники:
https://studfile.net/preview/9735801/page:4/
https://www.vnauke.by/schkola/Osnovy-dokazatelnoj-mediciny-Biomedicinskaja-statistika/Zanyatie-3-OPISATEL%D0%ACNAYa-STATISTIKA