Составить вариационный ряд. Построение интервального вариационного ряда для непрерывных количественных данных. История разработки показателя отношения шансов

В результате освоения дайной главы студент должен: знать

  • показатели вариации и их взаимосвязь;
  • основные законы распределения признаков;
  • сущность критериев согласия; уметь
  • рассчитывать показатели вариации и критерии согласия;
  • определять характеристики распределений;
  • оценивать основные числовые характеристики статистических рядов распределения;

владеть

  • методами статистического анализа рядов распределения;
  • основами дисперсионного анализа;
  • приемами проверки статистических рядов распределения на соответствие основным законам распределения.

Показатели вариации

При статистическом исследовании признаков различных статистических совокупностей большой интерес представляет изучение вариации признака отдельных статистических единиц совокупности, а также характера распределения единиц по данному признаку. Вариация - это различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое практическое значение. По степени вариации можно судить о границах вариации признака, однородности совокупности по данному признаку, типичности средней, взаимосвязи факторов, определяющих вариацию. Показатели вариации используются для характеристики и упорядочения статистических совокупностей.

Результаты сводки и группировки материалов статистического наблюдения, оформленные в виде статистических рядов распределения, представляют собой упорядоченное распределение единиц изучаемой совокупности на группы по группировочному (варьирующему) признаку. Если за основу группировки взят качественный признак, то такой ряд распределения называют атрибутивным (распределение по профессии, по полу, по цвету и т.д.). Если ряд распределения построен по количественному признаку, то такой ряд называют вариационным (распределение по росту, весу, по размеру заработной платы и т.д.). Построить вариационный ряд - значит упорядочить количественное распределение единиц совокупности по значениям признака, подсчитать число единиц совокупности с этими значениями (частоту), результаты оформить в таблицу.

Вместо частоты варианта возможно применение ее отношения к общему объему наблюдений, которое называется частостью (относительной частотой).

Выделяют два вида вариационного ряда: дискретный и интервальный. Дискретный ряд - это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). К последним можно отнести число работников на предприятии, тарифный разряд, количество детей в семье и т.д. Дискретный вариационный ряд представляет таблицу, которая состоит из двух граф. В первой графе указывается конкретное значение признака, а во второй - число единиц совокупности с определенным значением признака. Если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака возможно построение интервального вариационного ряда. Таблица при построении интервального вариационного ряда также имеет две графы. В первой указывается значение признака в интервале «от - до» (варианты), во второй - число единиц, входящих в интервал (частота). Частота (частота повторения) - число повторений отдельного варианта значений признака. Интервалы могут быть закрытые и открытые. Закрытые интервалы ограничены с обеих сторон, т.е. имеют границу как нижнюю («от»), так и верхнюю («до»). Открытые интервалы имеют какую-либо одну границу: либо верхнюю, либо нижнюю. Если варианты расположены по возрастанию или убыванию, то ряды называются ранжированными.

Для вариационных рядов существует два типа вариантов частотных характеристик: накопленная частота и накопленная частость. Накопленная частота показывает, в скольких наблюдениях величина признака приняла значения меньше заданного. Накопленная частота определяется путем суммирования значений частоты признака по данной группе со всеми частотами предшествующих групп. Накопленная частость характеризует удельный вес единиц наблюдения, у которых значения признака не превосходят верхнюю границу дайной группы. Таким образом, накопленная частость показывает удельный вес вариант в совокупности, имеющих значение не больше данного. Частота, частость, абсолютная и относительная плотности, накопленные частота и частость являются характеристиками величины варианта.

Вариации признака статистических единиц совокупности, а также характер распределения изучаются с помощью показателей и характеристик вариационного ряда, к числу которых относятся средний уровень ряда, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия, коэффициенты осцилляции, вариации, асимметрии, эксцесса и др.

Для характеристики центра распределения применяются средние величины. Средняя представляет собой обобщающую статистическую характеристику, в которой получает количественное выражение типичный уровень признака, которым обладают члены изучаемой совокупности. Однако возможны случаи совпадения средних арифметических при разном характере распределения, поэтому в качестве статистических характеристик вариационных рядов рассчитываются так называемые структурные средние - мода, медиана, а также квантили, которые делят ряд распределения на равные части (квартили, децили, перцентили и т.д.).

Мода - это значение признака, которое встречается в ряду распределения чаще, чем другие его значения. Для дискретных рядов - это варианта, имеющая наибольшую частоту. В интервальных вариационных рядах с целью определения моды необходимо определить прежде всего интервал, в котором она находится, так называемый модальный интервал. В вариационном ряду с равными интервалами модальный интервал определяется по наибольшей частоте, в рядах с неравными интервалами - но наибольшей плотности распределения. Затем для определения моды в рядах с равными интервалами применяют формулу

где Мо - значение моды; х Мо - нижняя граница модального интервала; h - ширина модального интервала; / Мо - частота модального интервала; / Mo j - частота домодального интер- вала; / Мо+1 - частота послемодального интервала, а для ряда с неравными интервалами в данной формуле расчета вместо частот / Мо, / Мо, / Мо следует использовать плотности распределения Ум 0 _| , Ум 0> УМо+"

Если имеется единственная мода, то распределение вероятностей случайной величины называется унимодальным; если имеется более чем одна мода, оно называется многомодальным (полимодальным, мультимодальным), в случае двух мод - бимодальным. Как правило, многомодальность указывает, что исследуемое распределение не подчиняется закону нормального распределения. Для однородных совокупностей, как правило, характерны одновершинные распределения. Многовершинность свидетельствует также о неоднородности изучаемой совокупности. Появление двух и более вершин делает необходимой перегруппировку данных с целью выделения более однородных групп.

В интервальном вариационном ряду моду можно определить графически с помощью гистограммы. Для этого из верхних точек самого высокого столбца гистограммы до верхних точек двух смежных столбцов проводят две пересекающиеся линии. Затем из точки их пересечения опускают перпендикуляр на ось абсцисс. Значение признака на оси абсцисс, соответствующее перпендикуляру, является модой. Во многих случаях при характеристике совокупности в качестве обобщенного показателя отдается предпочтение моде, а не средней арифметической.

Медиана - это центральное значение признака, им обладает центральный член ранжированного ряда распределения. В дискретных рядах, чтобы найти значение медианы, сначала определяется ее порядковый номер. Для этого при нечетном числе единиц к сумме всех частот прибавляется единица, число делится на два. При четном числе единиц в ряду будет две медианные единицы, поэтому в этом случае медиана определяется как средняя из значений двух медианных единиц. Таким образом, медианой в дискретном вариационном ряду является значение, которое делит ряд на две части, содержащие одинаковое число вариантов.

В интервальных рядах после определения порядкового номера медианы отыскивается медиальный интервал по накопленным частотам (частостям), а затем при помощи формулы расчета медианы определяется значение самой медианы:

где Me - значение медианы; х Ме - нижняя граница медианного интервала; h - ширина медианного интервала; - сумма частот ряда распределения; /Д - накопленная частота домедианного интервала; / Ме - частота медианного интервала.

Медиану можно отыскать графически с помощью куму- ляты. Для этого на шкале накопленных частот (частостей) кумуляты из точки, соответствующей порядковому номеру медианы, проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Далее из точки пересечения указанной прямой с кумулятой опускается перпендикуляр на ось абсцисс. Значение признака на оси абсцисс, соответствующее проведенной ординате (перпендикуляру), является медианой.

Медиана характеризуется следующими свойствами.

  • 1. Она не зависит от тех значений признака, которые расположены по обе стороны от нее.
  • 2. Она имеет свойство минимальности, которое заключается в том, что сумма абсолютных отклонений значений признака от медианы представляет собой минимальную величину по сравнению с отклонением значений признака от любой другой величины.
  • 3. При объединении двух распределений с известными медианами невозможно заранее предсказать величину медианы нового распределения.

Эти свойства медианы широко используются при проектировании расположения пунктов массового обслуживания - школ, поликлиник, автозаправочных станций, водозаборных колонок и т.д. Например, если в определенном квартале города предполагается построить поликлинику, то расположить ее целесообразнее в такой точке квартала, которая делит пополам не длину квартала, а число жителей.

Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить симметричность распределения. Если х Me то имеет место правосторонняя асимметрия ряда. При нормальном распределении х - Me - Мо.

К. Пирсон на основе выравнивания различных типов кривых определил, что для умеренно асимметричных распределений справедливы такие приближенные соотношения между средней арифметической, медианой и модой:

где Me - значение медианы; Мо - значение моды; х арифм - значение средней арифметической.

Если возникает необходимость изучить структуру вариационного ряда более подробно, то вычисляют значения признака, аналогичные медиане. Такие значения признака делят все единицы распределения на равные численности, их называют квантилями или градиентами. Квантили подразделяются на квартили, децили, перцентили и т.п.

Квартили делят совокупность на четыре равные части. Первую квартиль вычисляют аналогично медиане по формуле расчета первой квартили, предварительно определив первый квартальный интервал:

где Qi - значение первой квартили; x Q ^ - нижняя граница первого квартильного интервала; h - ширина первого квартального интервала; /, - частоты интервального ряда;

Накопленная частота в интервале, предшествующем первому квартильиому интервалу; Jq { - частота первого квартильного интервала.

Первая квартиль показывает, что 25% единиц совокупности меньше ее значения, а 75% - больше. Вторая квартиль равна медиане, т.е. Q 2 = Me.

По аналогии рассчитывают третью квартиль, предварительно отыскав третий квартальный интервал:

где - нижняя граница третьего квартильного интервала; h - ширина третьего квартильного интервала; /, - частоты интервального ряда; /X" - накопленная частота в интервале, предшествующем

г

третьему квартильиому интервалу; Jq - частота третьего квартильного интервала.

Третья квартиль показывает, что 75% единиц совокупности меньше ее значения, а 25% - больше.

Разность между третьей и первой квартилями представляет собой межквартильный интервал:

где Aq - значение межквартильного интервала; Q 3 - значение третьей квартили; Q, - значение первой квартили.

Децили делят совокупность на 10 равных частей. Дециль - это такое значение признака в ряду распределения, которому соответствуют десятые доли численности совокупности. По аналогии с квартилями первый дециль показывает, что 10% единиц совокупности меньше его значения, а 90% - больше, а девятый дециль выявляет, что 90% единиц совокупности меньше его значения, а 10% - больше. Соотношение девятого и первого децилей, т.е. децильный коэффициент, широко применяется при изучении дифференциации доходов для измерения соотношения уровней доходов 10% наиболее обеспеченного и 10% наименее обеспеченного населения. Перцентили делят ранжированную совокупность на 100 равных частей. Расчет, значение и применение перцентилей аналогичны децилям.

Квартили, децили и другие структурные характеристики можно определить графически по аналогии с медианой с помощью кумуляты.

Для измерения размера вариации используются следующие показатели: размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия. Величина размаха вариации целиком зависит от случайности распределения крайних членов ряда. Этот показатель представляет интерес в тех случаях, когда важно знать, какова амплитуда колебаний значений признака:

где R - значение размаха вариации; х тах - максимальное значение признака; х тт - минимальное значение признака.

При расчете размаха вариации значение подавляющего большинства членов ряда не учитывается, в то время как вариация связана с каждым значением члена ряда. Этого недостатка лишены показатели, представляющие собой средние, полученные из отклонений индивидуальных значений признака от их средней величины: среднее линейное отклонение и среднее квадратическое отклонение. Между индивидуальными отклонениями от средней и колеблемостью конкретного признака существует прямая зависимость. Чем сильнее колеблемость, тем больше абсолютные размеры отклонений от средней.

Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных величин отклонений отдельных вариантов от их средней величины.

Среднее линейное отклонение для несгруппированных данных

где / пр - значение среднего линейного отклонения; х,- - значение признака; х - п - число единиц совокупности.

Среднее линейное отклонение сгруппированного ряда

где / вз - значение среднего линейного отклонения; х, - значение признака; х - среднее значение признака для изучаемой совокупности; / - число единиц совокупности в отдельной группе.

Знаки отклонений в данном случае игнорируются, в противном случае сумма всех отклонений будет равна нулю. Среднее линейное отклонение в зависимости от группировки анализируемых данных рассчитывается по различным формулам: для сгруппированных и несгруниированных данных. Среднее линейное отклонение в силу его условности отдельно от других показателей вариации применяется на практике сравнительно редко (в частности, для характеристики выполнения договорных обязательств по равномерности поставки; в анализе оборота внешней торговли, состава работающих, ритмичности производства, качества продукции с учетом технологических особенностей производства и т.п.).

Среднее квадратическое отклонение характеризует, на сколько в среднем отклоняются индивидуальные значения изучаемого признака от среднего значения по совокупности, и выражается в единицах измерения изучаемого признака. Среднее квадратическое отклонение, являясь одной из основных мер вариации, широко используется при оценке границ вариации признака в однородной совокупности, при определении значений ординат кривой нормального распределения, а также в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик. Среднее квадратическое отклонение но несгруипированным данным исчисляется по следующему алгоритму: каждое отклонение от средней возводится в квадрат, все квадраты суммируются, после чего сумма квадратов делится на число членов ряда и из частного извлекается квадратный корень:

где a Iip - значение среднего квадратического отклонения; Xj - значение признака; х - среднее значение признака для изучаемой совокупности; п - число единиц совокупности.

Для сгруппированных анализируемых данных среднее квадратическое отклонение данных рассчитывается по взвешенной формуле

где - значение среднего квадратического отклонения; Xj - значение признака; х - среднее значение признака для изучаемой совокупности; f x - число единиц совокупности в отдельной группе.

Выражение под корнем в обоих случаях носит название дисперсии. Таким образом, дисперсия вычисляется как средний квадрат отклонений значений признака от их средней величины. Для невзвешенных (простых) значений признака дисперсия определяется следующим образом:

Для взвешенных значений признака

Существует также специальный упрощенный способ расчета дисперсии: в общем виде

для невзвешенных (простых) значений признака для взвешенных значений признака
с использованием метода отсчета от условного нуля

где а 2 - значение дисперсии; х,- - значение признака; х - среднее значение признака, h - величина группового интервала, т 1 - веса (А =

Дисперсия имеет самостоятельное выражение в статистике и относится к числу важнейших показателей вариации. Она измеряется в единицах, соответствующих квадрату единиц измерения изучаемого признака.

Дисперсия имеет следующие свойства.

  • 1. Дисперсия постоянной величины равна нулю.
  • 2. Уменьшение всех значений признака на одну и ту же величину Л не меняет величины дисперсии. Это означает, что средний квадрат отклонений можно вычислить не по заданным значениям признака, а по отклонениям их от какого-то постоянного числа.
  • 3. Уменьшение веех значений признака в k раз уменьшает дисперсию в k 2 раз, а среднее квадратическое отклонение - в k раз, т.е. все значения признака можно разделить на какое-то постоянное число (скажем, на величину интервала ряда), исчислить среднее квадратическое отклонение, а затем умножить его на постоянное число.
  • 4. Если исчислить средний квадрат отклонений от любой величины А у в той или иной степени отличающейся от средней арифметической, то он всегда будет больше среднего квадрата отклонений, исчисленного от средней арифметической. Средний квадрат отклонений при этом будет больше на вполне определенную величину - на квадрат разности средней и этой условно взятой величины.

Вариация альтернативного признака заключается в наличии или отсутствии изучаемого свойства у единиц совокупности. Количественно вариация альтернативного признака выражается двумя значениями: наличие у единицы изучаемого свойства обозначается единицей (1), а его отсутствие - нулем (0). Долю единиц, обладающих изучаемым свойством, обозначают через Р, а долю единиц, не обладающих этим свойством, - через G. Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным свойством (Р), на долю единиц, данным свойством не обладающих (G). Наибольшая вариация совокупности достигается в случаях, когда часть совокупности, составляющая 50% от всего объема совокупности, обладает признаком, а другая часть совокупности, также равная 50%, не обладает данным признаком, при этом дисперсия достигает максимального значения, равного 0,25, т.е. Р = 0,5, G = 1 - Р = 1 - 0,5 = 0,5 и о 2 = 0,5 0,5 = 0,25. Нижняя граница этого показателя равна нулю, что соответствует ситуации, при которой в совокупности отсутствует вариация. Практическое применение дисперсии альтернативного признака состоит в построении доверительных интервалов при проведении выборочного наблюдения.

Чем меньше значение дисперсии и среднего квадратического отклонения, тем однороднее совокупность и тем более типичной будет средняя величина. В практике статистики часто возникает необходимость сравнения вариаций различных признаков. Например, интересным является сравнение вариаций возраста рабочих и их квалификации, стажа работы и размера заработной платы, себестоимости и прибыли, стажа работы и производительности труда и т.д. Для таких сопоставлений показатели абсолютной колеблемости признаков непригодны: нельзя сравнивать колеблемость стажа работы, выраженного в годах, с вариацией заработной платы, выраженной в рублях. Для осуществления таких сравнений, а также сравнений колеблемости одного и того же признака в нескольких совокупностях с разными средними арифметическими используются показатели вариации - коэффициент осцилляции, линейный коэффициент вариации и коэффициент вариации, которые показывают меру колебаний крайних значений вокруг средней.

Коэффициент осцилляции :

где V R - значение коэффициента осцилляции; R - значение размаха вариации; х -

Линейный коэффициент вариации".

где Vj - значение линейного коэффициента вариации; I - значение среднего линейного отклонения; х - среднее значение признака для изучаемой совокупности.

Коэффициент вариации :

где V a - значение коэффициента вариации; а - значение среднего квадратического отклонения; х - среднее значение признака для изучаемой совокупности.

Коэффициент осцилляции - это процентное отношение размаха вариации к среднему значению изучаемого признака, а линейный коэффициент вариации - это отношение среднего линейного отклонения к среднему значению изучаемого признака, выраженное в процентах. Коэффициент вариации представляет собой процентное отношение среднего квадратического отклонения к среднему значению изучаемого признака. Как величина относительная, выраженная в процентах, коэффициент вариации применяется для сравнения степени вариации различных признаков. С помощью коэффициента вариации оценивается однородность статистической совокупности. Если коэффициент вариации меньше 33%, то исследуемая совокупность является однородной, а вариация слабой. Если коэффициент вариации больше 33%, то исследуемая совокупность является неоднородной, вариация сильной, а средняя величина - нетипичной и ее нельзя использовать как обобщающий показатель этой совокупности. Кроме того, коэффициенты вариации используются для сравнения колеблемости одного признака в различных совокупностях. Например, для оценки вариации стажа работы работников на двух предприятиях. Чем больше значение коэффициента, тем вариация признака существеннее.

На основе рассчитанных квартилей имеется возможность рассчитать также относительный показатель квартальной вариации по формуле

где Q2 и

Межквартильный размах определяется по формуле

Квартильное отклонение применяется вместо размаха вариации, чтобы избежать недостатков, связанных с использованием крайних значений:

Для неравноинтервальпых вариационных рядов рассчитывается также плотность распределения. Она определяется как частное от деления соответствующей частоты или частости на величину интервала. В неравноинтервальных рядах используются абсолютная и относительная плотности распределения. Абсолютная плотность распределения - это частота, приходящаяся на единицу длины интервала. Относительная плотность распределения - частость, приходящаяся на единицу длины интервала.

Все вышеотмеченное справедливо для рядов распределения, закон распределения которых хорошо описывается нормальным законом распределения или близок к нему.

Словарь статистических терминов

Обшие вопросы статистики

ЧТО ТАКОЕ МЕДИЦИНСКАЯ СТАТИСТИКА?

Статистикой называют количественное описание и измерение событий, явлений, предметов. Ее понимают как отрасль практической деятельности (сбор, обработка и анализ данных о массовых явлениях), как отрасль знания, т.е. специальную научную дисциплину, и, как совокупность сводных, итоговых цифровых показателей, собранных для характеристики какой-либо области общественных явлений.

Статистика – наука, изучающая закономерности массовых явлений методом обобщающих показателей.

Медицинская статистика – самостоятельная общественная наука, изучающая количественную сторону массовых общественных явлений в неразрывной связи с их качественной стороной, позволяющая методом обобщающих показателей изучить закономерности этих явлений, важнейших процессов в экономической, социальной жизни общества, его здоровье, системе организации медицинской помощи населению.

Статистические методы - это совокупность приемов обработки материалов массовых наблюдений, к которым относятся: группировка, сводка, получение показателей, их статистический анализ и т.д.

Статистические методы в медицине используются для:

  1. изучение состояния общественного здоровья населения в целом и его основных групп путем сбора и анализа статистических данных о численности и составе населения, его воспроизводстве, физическом развитии, распространенности и длительности различных заболеваний и т.д.;
  2. выявление и установление связей общего уровня заболеваемости и смертности от каких-либо отдельных болезней с различными факторами окружающей среды;
  3. сбор и изучение числовых данных о сети медицинских учреждений, их деятельности и кадрах для планирования медико-санитарных мероприятий, контроля над выполнением планов развития сети и деятельности учреждений здравоохранения и оценки качества работы отдельных медицинских учреждений;
  4. оценка эффективности мероприятий по предупреждению и лечению заболеваний;
  5. определение статистической значимости результатов исследования в клинике и эксперименте.

Разделы медицинской статистики:

  • общетеоретические и методические основы статистики,
  • статистика здоровья населения,
  • статистика здравоохранения.

СОЗДАНИЕ БАЗЫ ДАННЫХ В MS EXCEL

Для того, чтобы база данных была удобна для последующей обработки, следует придерживаться нехитрых принципов:

1) Оптимальной программой для создания базы данных является MS Excel. Данные из Excel в последующем могут без проблем переноситься в другие, специализированные статистические пакеты, такие как Statistica, SPSS и др. для более сложных манипуляций. Однако до 80-90% расчетов могут удобнейшим образом производиться в самой Excel с использованием надстройки "Анализ данных".

2) Верхняя строчка таблицы с базой данных оформляется как шапка, куда заносятся наименования тех показателей, которые учитываются в данном столбце. Нежелательно использовать слияние ячеек (это требование относится вообще ко всей базе), так как при этом многие операции станут недопустимы. Также не стоит создавать "двухэтажную" шапку, в которой верхняя строчка обозначает название группы однородных показателей, а нижняя - конкретные показатели. Для группировки однородных показателей лучше отметить их одноцветной заливкой или включить в их наименование группирующий признак в скобках.

Например , не так:

ОБЩИЙ АНАЛИЗ КРОВИ
ER LEU TR
ER(ОАК) LEU(ОАК) TR(ОАК)

в последнем варианте обеспечена и "одноэтажность" шапки, и наглядная однородность данных (все они относятся к показателям ОАК).

3) В первом столбце следует размещать порядковый номер пациента в данной базе, не привязывая его ни к одному из исследуемых показателей. Это позволит в последующем обеспечить легкий откат к исходному порядку пациентов на любом этапе, даже после многочисленных сортировок списка.

4) Второй столбец обычно заполняется фамилиями (или Ф.И.О.) пациентов.

5) Количественные показатели (те, которые измеряются числами, например - рост, вес, артериальное давление, ЧСС и т.п.) вписываются в таблицу в числовом формате. Казалось бы это и так понятно, однако следует помнить, что в Excel, начиная с 2007 версии, дробные величины обозначаются через точку: 4.5. Если записать число через запятую, то оно будет воспринято как текст, и эти столбцы придется переписывать.

6) С качественными показателями сложнее. Те из них, которые имеют два варианта значения (так называемые, бинарные величины: Да-Нет, Имеется-Отсутствует, Мужской-Женский), лучше переводить в двоичную систему: 0 и 1. Значение 1 обычно присваивается положительному значению (Да, Имеется), 0 - отрицательному (Нет, Отсутствует).

7) Качественные показатели, имеющие несколько значений, различающихся по степени выраженности, уровню явления (Слабый-Средний-Сильный; Холодный-Теплый-Горячий) могут быть ранжированы и, соответственно, также переведены в числа. Наименьшему уровню явления присваивается наименьший ранг - 0 или 1, следующие степени обозначаются значениями рангов по порядку. Например: Заболевание отсутствует - 0, легкой степени тяжести -1, средней степени - 2, тяжелой степени - 3.

8) Иногда одному качественному показателю соответствуют несколько значений. Например, в графе "Сопутствующий диагноз" при наличии нескольких заболеваний мы хотим указать их через запятую. Делать так не следует, поскольку обработка таких данных весьма затруднена и не может быть автоматизирована. Поэтому лучше сделать несколько столбцов с конкретными группами заболеваний ("заболевания ССС", "заболевания ЖКТ" и т.д.) или определенными нозологиями ("хр.гастрит", "ИБС" и т.д.), в которые данные заносим в бинарном, двоичном виде: 1 (что означает "Есть данное заболевание") - 0 ("Нет данного заболевания").

9) Для разграничения отдельных групп показателей можно активно пользоваться цветом: например столбцы с показателями ОАК выделяем красным цветом, данные ОАМ - желтым и т.д.

10) Каждому пациенту должна соответствовать одна строка таблицы.

Подобное оформление базы данных позволяет не только значительно упростить процесс ее статистической обработки, но и облегчить ее заполнение на этапе сбора материала.

КАКОЙ МЕТОД ВЫБРАТЬ ДЛЯ СТАТИСТИЧЕСКОГО АНАЛИЗА?

После того, как собраны все данные, перед каждым исследователем встает вопрос выбора наиболее подходящего способа статистической обработки. И это неудивительно: современная статистика объединяет огромное количество всевозможных критериев и методов. Все они имеют свои особенности, могут подходить или не подходить для двух, казалось бы, схожих ситуаций. В этой статье мы постараемся систематизировать все основные, наиболее распространенные методы статистического анализа по их назначению.

Однако вначале несколько слов о том, какие бывают статистические данные, так как именно от этого зависит выбор наиболее подходящего метода анализа.

Шкала измерения

При проведении исследования у каждой единицы наблюдения определяются значения различных признаков. В зависимости от того, по какой шкале они измеряются, все признаки делятся на количественные и качественные . Качественные показатели в исследованиях распределяются по так называемой номинальной шкале. Кроме того, показатели могут быть представлены по ранговой шкале.

Например, проводится сравнение показателей сердечной деятельности у спортсменов и лиц, ведущих малоподвижный образ жизни.

При этом у исследуемых определялись следующие признаки:

  • пол - является номинальным показателем, принимающим два значения - мужской или женский.
  • возраст - количественный показатель,
  • занятия спортом - номинальный показатель, принимающий два значения: занимается или не занимается,
  • частота сердечных сокращений - количественный показатель,
  • систолическое артериальное давление - количественный показатель,
  • наличие жалоб на боли в грудной клетке - является качественным показателем, значения которого могут быть определены как по номинальной (есть жалобы - нет жалоб), так и по ранговой шкале в зависимости от частоты (например, если боль возникает несколько раз в день - показателю присваивается ранг 3, несколько раз в месяц - ранг 2, несколько раз в год - ранг 1, при отсутствии жалоб на боли в грудной клетке - ставится ранг 0).

Количество сопоставляемых совокупностей

Следующий вопрос, который необходимо решить для выбора статистического метода, заключается в количестве совокупностей, сопоставляемых в рамках исследования.

  • В большинстве случаев, в клинических исследованиях мы имеем дело с двумя группами пациентов - основной и контрольной . Основной , или опытной , принято считать группу, в которой был применен изучаемый метод диагностики или лечения, или в которой пациенты страдают заболеванием, являющимся предметом данного исследования. Контрольную группу, напротив, составляют пациенты, получающие обычную медицинскую помощь, плацебо, или лица, у которых отсутствует изучаемое заболевание. Такие совокупности, представленные разными пациентами, называются несвязанными .
    Еще бывают связанные , или парные , совокупности, когда речь идет об одних и тех же людях, но сравниваются значения какого-либо признака, полученные до и после исследования. Число сравниваемых совокупностей при этом также равно 2, однако к ним применяются другие методики, нежели к несвязанным.
  • Другим вариантом является описание одной совокупности, что, надо признать, вообще лежит в основе любого исследования. Даже если основной целью работы является сравнение двух или более групп, каждую из них необходимо предварительно охарактеризовать. Для этого используются методы описательной статистики . Кроме того, для одной совокупности могут применяться методы корреляционного анализа , используемые для нахождения связи между двумя или несколькими изучаемыми признаками (например, зависимость роста от массы тела или зависимость частоты сердечных сокращений от температуры тела).
  • Наконец, сравниваемых совокупностей может быть несколько. Применительно к медицинским исследованиям это встречается очень часто. Пациенты могут быть сгруппированы в зависимости от применения различных препаратов (например, при сравнении эффективности антигипертензивных средств: 1 группа - ингибиторы АПФ, 2 - бета-адреноблокаторы, 3 - препараты центрального действия), по степени тяжести заболевания (1 группа - легкая степень, 2 - средняя, 3 - тяжелая) и т.д.

Важным также является вопрос нормальности распределения изучаемых совокупностей. От этого зависит, можно ли применять методы параметрического анализа или только непараметрического . Условиями, которые должны соблюдаться в нормально распределенных совокупностях, являются:

  1. максимальная близость или равенство значений средней арифметической, моды и медианы;
  2. соблюдение правила "трёх сигм" (в интервале М±1σ находятся не менее 68,3% вариант, в интервале М±2σ - не менее 95,5% вариант, в интервале М±3σ находятся не менее 99,7% вариант;
  3. показатели измерены в количественной шкале;
  4. положительные результаты проверки на нормальность распределения при помощи специальных критериев - Колмогорова-Смирнова или Шапиро-Уилка.

После определения всех указанных нами признаков изучаемых совокупностей, предлагаем воспользоваться следующей таблицей для выбора наиболее оптимального метода статистического анализа.

Метод Шкала измерения показателей Количество сравниваемых совокупностей Цель обработки Распределение данных
t-критерий Стьюдента количественная 2 нормальное
t-критерий Стьюдента с поправкой Бонферрони количественная 3 и более сравнение несвязанных совокупностей нормальное
Парный t-критерий Стьюдента количественная 2 нормальное
Однофакторный дисперсионный анализ (ANOVA) количественная 3 и более сравнение несвязанных совокупностей нормальное
Однофакторный дисперсионный анализ (ANOVA) с повторными измерениями количественная 3 и более сравнение связанных совокупностей нормальное
U-критерий Манна-Уитни количественная, ранговая 2 сравнение несвязанных совокупностей любое
Q-критерий Розенбаума количественная, ранговая 2 сравнение несвязанных совокупностей любое
Критерий Краскелла-Уоллиса количественная 3 и более сравнение несвязанных совокупностей любое
Критерий Уилкоксона количественная, ранговая 2 сравнение связанных совокупностей любое
G-критерий знаков количественная, ранговая 2 сравнение связанных совокупностей любое
Критерий Фридмана количественная, ранговая 3 и более сравнение связанных совокупностей любое
Критерий χ 2 Пирсона номинальная 2 и более сравнение несвязанных совокупностей любое
Точный критерий Фишера номинальная 2 сравнение несвязанных совокупностей любое
Тест Мак-Немара номинальная 2 сравнение связанных совокупностей любое
Q-критерий Кохрена номинальная 3 и более сравнение связанных совокупностей любое
Относительный риск (Risk Ratio, RR) номинальная 2 сравнение несвязанных совокупностей в когортных исследованиях любое
Отношение шансов (Odds Ratio, OR) номинальная 2 сравнение несвязанных совокупностей в исследованиях по типу «случай-контроль» любое
Коэффициент корреляции Пирсона количественная 2 ряда измерений нормальное
Коэффициент ранговой корреляции Спирмена количественная, ранговая 2 ряда измерений выявление связи между признаками любое
Коэффициент корреляции Кендалла количественная, ранговая 2 ряда измерений выявление связи между признаками любое
Коэффициент конкордации Кендалла количественная, ранговая 3 и более рядов измерений выявление связи между признаками любое
Расчет средних величин (M) и средних ошибок (m) количественная 1 описательная статистика любое
Расчет медиан (Ме) и перцентилей (квартилей) ранговая 1 описательная статистика любое
Расчет относительных величин (Р) и средних ошибок (m) номинальная 1 описательная статистика любое
Критерий Шапиро-Уилка количественная 1 анализ распределения любое
Критерий Колмогорова-Смирнова количественная 1 анализ распределения любое
Критерий ω 2 Смирнова-Крамера-фон Мизеса количественная 1 анализ распределения любое
Метод Каплана-Мейера любая 1 анализ выживаемости любое
Модель пропорциональных рисков Кокса любая 1 анализ выживаемости любое

Великие учёные-статистики

Карл Пирсон (27 марта 1857 – 27 апреля 1936)

27 марта 1857 года родился Карл Пирсон - великий английский математик, статистик, биолог и философ; основатель математической статистики, один из основоположников биометрики.

Получив в возрасте 27 лет должность профессора прикладной математики в лондонском Университетском колледже, Карл Пирсон начал изучать статистику, которую воспринял как общенаучный инструмент, соответствующий его вовсе не общепринятым мыслям о необходимости обеспечить студентам широкий кругозор.

К основным заслугам Пирсона в области статистики можно отнести разработку основ теории корреляции и сопряженности признаков, введение “кривых Пирсона” для описания эмпирических распределений и исключительно важного критерия хи-квадрат, а также составление большого числа статистических таблиц. Пирсон применял статистический метод и особенно теорию корреляции во многих отраслях науки.

Вот одно из его высказываний: "Первому любительскому внедрению современных статистических методов в устоявшуюся науку противостоит типичное презрение. Но я дожил до того времени, когда многие из них начали скрытно применять те самые методы, которые они вначале осуждали".

И уже в 1920 г. Пирсон составил записку, в которой заявил, что цель биометрической школы "преобразовать статистику в ветвь прикладной математики, обобщить, отбросить или обосновать скудные методы старой школы политических и социальных статистиков, и, в общем, преобразовать статистику из спортплощадки для любителей и спорщиков в серьезную отрасль науки. Необходимо было критиковать несовершенные и часто ошибочные методы в медицине, антропологии, краниометрии, психологии, криминологии, биологии, социологии, чтобы обеспечить эти науки новыми и более мощными средствами. Битва длилась почти двадцать лет, но появилось много признаков того, что прежняя враждебность осталась позади, а новые методы приняты повсеместно".

Карл Пирсон отличался весьма разносторонними интересами: изучал физику в Гейдельберге, интересовался социальной и экономической ролью религии и даже читал лекции по немецкой истории и литературе в Кембридже и Лондоне.

Малоизвестен тот факт, что в возрасте 28 лет, Карл Пирсон читал лекции о “женском вопросе” и даже основал Клуб мужчин и женщин, просуществовавший до 1889 г., в котором свободно и неограниченно обсуждалось всё, касающееся женщин, включая взаимоотношения между полами.

Клуб состоял из равного числа мужчин и женщин, в основном, либеральных представителей среднего класса, социалистов и феминисток.

Предметом дискуссий клуба являлись вопросы самого широкого спектра: от сексуальных отношений в древнегреческих Афинах до положения буддийских монахинь, от отношения к браку до проблем проституции. В сущности, «Клуб мужчин и женщин» бросал вызов давно установленным нормам взаимодействия мужчин и женщин, а также представлениям о «правильной» сексуальности. В эпоху викторианской Англии, где многие воспринимали сексуальность как нечто «низменное» и «животное», а невежество в отношении полового воспитания было распространено повсеместно, обсуждение таких вопросов было действительно радикальным.

В 1898 г. Пирсон был награжден Королевским обществом Дарвинской медалью, от которой он отказался, считая, что награды “должны выдаваться молодым людям, чтобы поощрить их”.

Флоренс Найтингейл (12 мая 1820 – 13 августа 1910)

Флоренс Найтингейл (1820-1910) - сестра милосердия и общественная деятельница Великобритании, в день рождения которой мы сегодня отмечаем Международный день медицинской сестры.

Она родилась во Флоренции в богатой аристократической семье, получила блестящее образование, знала шесть языков. С юных лет мечтала стать сестрой милосердия, в 1853 году получила сестринское образование в общине сестёр пастора Флендера в Кайзерверте и стала управляющей небольшой частной больницей в Лондоне.

В октябре 1854 года, в период Крымской войны, Флоренс вместе с 38 помощницами отправилась в полевые госпитали в Крым. Организуя уход за ранеными, она последовательно проводила в жизнь принципы санитарии и гигиены. В результате менее чем за полгода смертность в лазаретах снизилась с 42 до 2,2%!

Поставив себе задачу реформировать медицинскую службу в армии, Найтингейл добилась того, чтобы госпитали были оснащены системами вентиляции и канализации; больничный персонал в обязательном порядке проходил необходимую подготовку. Была организована военно-медицинская школа, а среди солдат и офицеров велась разъяснительная работа о важности профилактики болезней.

Велики заслуги Флоренс Найтингейл в медицинской статистике!

  • Её 800-страничная книга «Заметки о факторах, влияющих на здоровье, эффективность и управление госпиталями британской армии» (1858) содержала целый раздел, посвященный статистике и иллюстрированный диаграммами.
  • Найтингейл стала новатором в использовании графических изображений в статистике. Она изобрела круговые диаграммы, которые называла «петушиный гребень» и использовала для описания структуры смертности. Многие из её диаграмм были включены в отчёт комиссии по проблемам здоровья в армии, благодаря которому было принято решение о реформировании армейской медицины.
  • Разработала первую форму для сбора статистики в госпиталях, которая является предшественником современных отчетных форм о деятельности стационара.

В 1859 г. была избрана членом Королевского статистического общества и впоследствии стала почётным членом Американской статистической ассоциации.

Иоганн Карл Фридрих Гаусс (30 апреля 1777 – 23 февраля 1855)

30 апреля 1777 года в городе Брауншвейг родился великий немецкий математик, механик, физик, астроном, геодезист и статистик Иоганн Карл Фридрих Гаусс.

Он считается одним из величайших математиков всех времён, «королём математиков». Лауреат медали Копли (1838), иностранный член Шведской (1821) и Российской (1824) Академий наук, английского Королевского общества.

Уже в три года Карл умел читать и писать, даже исправлял счётные ошибки отца. Согласно легенде, школьный учитель математики, чтобы занять детей на долгое время, предложил им сосчитать сумму чисел от 1 до 100. Юный Гаусс заметил, что попарные суммы с противоположных концов одинаковы: 1+100=101, 2+99=101 и т. д., и мгновенно получил результат: 50×101=5050. До самой старости он привык большую часть вычислений производить в уме.

Основными научными заслугами Карла Гаусса в статистике являются создание метода наименьших квадратов, который лежит в основе регрессионного анализа.

Также он подробнейшим образом исследовал распространённый в природе нормальный закон распределения, график которого с тех пор часто называют гауссианой. Широкую известность получило правило «трёх сигм» (правило Гаусса) описывающее нормальное распределение.

Лев Семёнович Каминский (1889 – 1962)

В 75-ю годовщину Победы в Великой Отечественной войне хочется вспомнить и рассказать о замечательном ученом, одном из основателей военно-медицинской и санитарной статистики в СССР - Льве Семёновиче Каминском (1889-1962).

Он родился 27 мая 1889 года в Киеве. После окончания с отличием в 1918 г. медицинского факультета Петроградского университета Каминский находился в рядах Красной Армии, с апреля 1919 до конца 1920 г. занимал должность главного врача 136-го сводного эвакогоспиталя Юго-Восточного фронта.

С 1922 г. Лев Семёнович заведовал санитарно-эпидемиологическим отделом врачебно-санитарной службы Северо-Западной железной дороги. В эти годы началась научная деятельность Каминского под руководством проф. С.А.Новосельского. В их совместном фундаментальном труде «Потери в прошлых войнах» был проанализирован статистический материал о людских потерях в войнах различных армий мира с 1756 по 1918 г. В последующих работах Каминским была разработана и обоснована новая, более точная классификация военных потерь.

В монографии «Народное питание и народное здравие» (1929) были подробно рассмотрены санитарно-гигиенические аспекты влияния войн на здоровье населения, а также вопросы организации медицинской помощи населению и армии в годы войны.

С 1935 по 1943 год Лев Семёнович возглавляет отдел санитарной (с 1942 г. - медицинской) статистики Наркомздрава СССР. В октябре 1943 г. проф.Каминский становится начальником кафедры военно-медицинской статистики Военно-медицинской академии им. С.М.Кирова, а с 1956 г. занимает должность профессора кафедры статистики и учета в Ленинградском государственном университете.

Лев Семёнович выступал за широкое внедрение количественных методов в практику санитарной и медицинской статистики. В 1959 г. под его авторством было издано учебное пособие «Статистическая обработка лабораторных и клинических данных: применение статистики в научной и практической работе врача», на долгие годы ставшее одним из лучших отечественных учебников по медицинской статистике. В предисловии Л.С.Каминский отмечает:
«... Представляется важным, чтобы лечащие врачи знали, как взяться за дело, умели собирать и обрабатывать верные цифры, годные для сравнений и сопоставлений».

Критерии и методы

t-КРИТЕРИЙ СТЬЮДЕНТА ДЛЯ НЕЗАВИСИМЫХ СОВОКУПНОСТЕЙ

t-критерий Стьюдента – общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.

Данный критерий был разработан Уильямом Сили Госсетом

2. Для чего используется t-критерий Стьюдента?

t-критерий Стьюдента используется для определения статистической значимости различий средних величин. Может применяться как в случаях сравнения независимых выборок (например, группы больных сахарным диабетом и группы здоровых), так и при сравнении связанных совокупностей (например, средняя частота пульса у одних и тех же пациентов до и после приема антиаритмического препарата). В последнем случае рассчитывается парный t-критерий Стьюдента

3. В каких случаях можно использовать t-критерий Стьюдента?

Для применения t-критерия Стьюдента необходимо, чтобы исходные данные имели нормальное распределение. Также имеет значение равенство дисперсий (распределения) сравниваемых групп (гомоскедастичность). При неравных дисперсиях применяется t-критерий в модификации Уэлча (Welch"s t).

При отсутствии нормального распределения сравниваемых выборок вместо t-критерия Стьюдента используются аналогичные методы непараметрической статистики, среди которых наиболее известными является U-критерий Манна - Уитни .

4. Как рассчитать t-критерий Стьюдента?

Для сравнения средних величин t-критерий Стьюдента рассчитывается по следующей формуле:

где М 1 - средняя арифметическая первой сравниваемой совокупности (группы), М 2 - средняя арифметическая второй сравниваемой совокупности (группы), m 1 - средняя ошибка первой средней арифметической, m 2 - средняя ошибка второй средней арифметической.

Полученное значение t-критерия Стьюдента необходимо правильно интерпретировать. Для этого нам необходимо знать количество исследуемых в каждой группе (n 1 и n 2). Находим число степеней свободы f по следующей формуле:

F = (n 1 + n 2) - 2

После этого определяем критическое значение t-критерия Стьюдента для требуемого уровня значимости (например, p=0,05) и при данном числе степеней свободы f по таблице (см. ниже).

  • Если рассчитанное значение t-критерия Стьюдента равно или больше критического, найденного по таблице, делаем вывод о статистической значимости различий между сравниваемыми величинами.
  • Если значение рассчитанного t-критерия Стьюдента меньше табличного, значит различия сравниваемых величин статистически не значимы.

Для изучения эффективности нового препарата железа были выбраны две группы пациентов с анемией. В первой группе пациенты в течение двух недель получали новый препарат, а во второй группе - получали плацебо. После этого было проведено измерение уровня гемоглобина в периферической крови. В первой группе средний уровень гемоглобина составил 115,4±1,2 г/л, а во второй - 103,7±2,3 г/л (данные представлены в формате M±m), сравниваемые совокупности имеют нормальное распределение. При этом численность первой группы составила 34, а второй - 40 пациентов. Необходимо сделать вывод о статистической значимости полученных различий и эффективности нового препарата железа.

Решение: Для оценки значимости различий используем t-критерий Стьюдента, рассчитываемый как разность средних значений, поделенная на сумму квадратов ошибок:

После выполнения расчетов, значение t-критерия оказалось равным 4,51. Находим число степеней свободы как (34 + 40) - 2 = 72. Сравниваем полученное значение t-критерия Стьюдента 4,51 с критическим при р=0,05 значением, указанным в таблице: 1,993. Так как рассчитанное значение критерия больше критического, делаем вывод о том, что наблюдаемые различия статистически значимы (уровень значимости р<0,05).


ПАРНЫЙ t-КРИТЕРИЙ СТЬЮДЕНТА

Парный t-критерий Стьюдента – одна из модификаций метода Стьюдента, используемая для определения статистической значимости различий парных (повторных) измерений.

1. История разработки t-критерия

t-критерий был разработан Уильямом Госсетом для оценки качества пива в компании Гиннесс. В связи с обязательствами перед компанией по неразглашению коммерческой тайны, статья Госсета вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).

2. Для чего используется парный t-критерий Стьюдента?

Парный t-критерий Стьюдента используется для сравнения двух зависимых (парных) выборок. Зависимыми являются измерения, выполненные у одних и тех же пациентов, но в разное время, например, артериальное давление у больных гипертонической болезнью до и после приема антигипертензивного препарата. Нулевая гипотеза гласит об отсутствии различий между сравниваемыми выборками, альтернативная - о наличии статистически значимых различий.

3. В каких случаях можно использовать парный t-критерий Стьюдента?

Основным условием является зависимость выборок, то есть сравниваемые значения должны быть получены при повторных измерениях одного параметра у одних и тех же пациентов.

Как и в случае сравнения независимых выборок, для применения парного t-критерия необходимо, чтобы исходные данные имели нормальное распределение. При несоблюдении этого условия для сравнения выборочных средних должны использоваться методы непараметрической статистики, такие как G-критерий знаков или Т-критерий Вилкоксона .

Парный t-критерий может использоваться только при сравнении двухвыборок. Если необходимо сравнить три и более повторных измерений, следует использовать однофакторный дисперсионный анализ (ANOVA) для повторных измерений .

4. Как рассчитать парный t-критерий Стьюдента?

Парный t-критерий Стьюдента рассчитывается по следующей формуле:

где М d - средняя арифметическая разностей показателей, измеренных до и после, σ d - среднее квадратическое отклонение разностей показателей, n - число исследуемых.

5. Как интерпретировать значение t-критерия Стьюдента?

Интерпретация полученного значения парного t-критерия Стьюдента не отличается от оценки t-критерия для несвязанных совокупностей. Прежде всего, необходимо найти число степеней свободы f по следующей формуле:

F = n - 1

После этого определяем критическое значение t-критерия Стьюдента для требуемого уровня значимости (например, p<0,05) и при данном числе степеней свободы f по таблице (см. ниже).

Сравниваем критическое и рассчитанное значения критерия:

  • Если рассчитанное значение парного t-критерия Стьюдента равно или больше критического, найденного по таблице, делаем вывод о статистической значимости различий между сравниваемыми величинами.
  • Если значение рассчитанного парного t-критерия Стьюдента меньше табличного, значит различия сравниваемых величин статистически не значимы.

6. Пример расчета t-критерия Стьюдента

Для оценки эффективности нового гипогликемического средства были проведены измерения уровня глюкозы в крови пациентов, страдающих сахарным диабетом, до и после приема препарата. В результате были получены следующие данные:

Решение:

1. Рассчитаем разность каждой пары значений (d):

N пациента Уровень глюкозы в крови, ммоль/л Разность значений (d)
до приема препарата после приема препарата
1 9.6 5.7 3.9
2 8.1 5.4 2.7
3 8.8 6.4 2.4
4 7.9 5.5 2.4
5 9.2 5.3 3.9
6 8.0 5.2 2.8
7 8.4 5.1 3.3
8 10.1 6.9 3.2
9 7.8 7.5 2.3
10 8.1 5.0 3.1

2. Найдем среднюю арифметическую разностей по формуле:

3. Найдем среднее квадратическое отклонение разностей от средней по формуле:

4. Рассчитаем парный t-критерий Стьюдента:

5. Сравним полученное значение t-критерия Стьюдента 8.6 с табличным значением, которое при числе степеней свободы f равном 10 - 1 = 9 и уровне значимости p=0.05 составляет 2.262. Так как полученное значение больше критического, делаем вывод о наличии статистически значимых различий содержания глюкозы в крови до и после приема нового препарата.

Показать таблицу критических значений t-критерия Стьюдента

U-КРИТЕРИЙ МАННА-УИТНИ

U-критерий Манна-Уитни – непараметрический статистический критерий, используемый для сравнения двух независимых выборок по уровню какого-либо признака, измеренного количественно. Метод основан на определении того, достаточно ли мала зона перекрещивающихся значений между двумя вариационными рядами (ранжированным рядом значений параметра в первой выборке и таким же во второй выборке). Чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны.

1. История разработки U-критерия

Данный метод выявления различий между выборками был предложен в 1945 году американским химиком и статистиком Фрэнком Уилкоксоном .
В 1947 году он был существенно переработан и расширен математиками Х.Б. Манном (H.B. Mann) и Д.Р. Уитни (D.R. Whitney), по именам которых сегодня обычно и называется.

2. Для чего используется U-критерий Манна-Уитни?

U-критерий Манна-Уитни используется для оценки различий между двумя независимыми выборками по уровню какого-либо количественного признака.

3. В каких случаях можно использовать U-критерий Манна-Уитни?

U-критерий Манна-Уитни является непараметрическим критерием, поэтому, в отличие от t-критерия Стьюдента

U-критерий подходит для сравнения малых выборок: в каждой из выборок должно быть не менее 3 значений признака. Допускается, чтобы в одной выборке было 2 значения, но во второй тогда должно быть не менее пяти.

Условием для применения U-критерия Манна-Уитни является отсутствие в сравниваемых группах совпадающих значений признака (все числа – разные) или очень малое число таких совпадений.

Аналогом U-критерия Манна-Уитни для сравнения трех и более групп является Критерий Краскела-Уоллиса .

4. Как рассчитать U-критерий Манна-Уитни?

Сначала из обеих сравниваемых выборок составляется единый ранжированный ряд , путем расставления единиц наблюдения по степени возрастания признака и присвоения меньшему значению меньшего ранга. В случае равных значений признака у нескольких единиц каждой из них присваивается среднее арифметическое последовательных значений рангов.

Например, две единицы, занимающие в едином ранжированном ряду 2 и 3 место (ранг), имеют одинаковые значения. Следовательно, каждой из них присваивается ранг равный (3 + 2) / 2 = 2,5.

В составленном едином ранжированном ряду общее количество рангов получится равным:

N = n 1 + n 2

где n 1 - количество элементов в первой выборке, а n 2 - количество элементов во второй выборке.

Далее вновь разделяем единый ранжированный ряд на два, состоящие соответственно из единиц первой и второй выборок, запоминая при этом значения рангов для каждой единицы. Подсчитываем отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно - на долю элементов второй выборки. Определяем большую из двух ранговых сумм (T x) соответствующую выборке с n x элементами.

Наконец, находим значение U-критерия Манна-Уитни по формуле:

5. Как интерпретировать значение U-критерия Манна-Уитни?

Полученное значение U-критерия сравниваем по таблице для избранного уровня статистической значимости (p=0.05 или p=0.01) с критическим значением U при заданной численности сопоставляемых выборок:

  • Если полученное значение U меньше табличного или равно ему, то признается статистическая значимость различий между уровнями признака в рассматриваемых выборках (принимается альтернативная гипотеза). Достоверность различий тем выше, чем меньше значение U.
  • Если же полученное значение U больше табличного, принимается нулевая гипотеза.
Показать таблицу критических значений U-критерия Манна-Уитни при p=0.05

КРИТЕРИЙ УИЛКОКСОНА

Критерий Уилкоксона для связанных выборок (также используются названия Т-критерий Уилкоксона, критерий Вилкоксона, критерий знаковых рангов Уилкоксона, критерий суммы рангов Уилкоксона) – непараметрический статистический критерий, используемый для сравнения двух связанных (парных) выборок по уровню какого-либо количественного признака, измеренного в непрерывной или в порядковой шкале.

Суть метода состоит в том, что сопоставляются абсолютные величины выраженности сдвигов в том или ином направлении. Для этого сначала все абсолютные величины сдвигов ранжируются, а потом суммируются ранги. Если сдвиги в ту или иную сторону происходят случайно, то и суммы их рангов окажутся примерно равны. Если же интенсивность сдвигов в одну сторону больше, то сумма рангов абсолютных значений сдвигов в противоположную сторону будет значительно ниже, чем это могло бы быть при случайных изменениях.

1. История разработки критерия Уилкоксона для связанных выборок

Тест был впервые предложен в 1945 году американским статистиком и химиком Фрэнком Уилкоксоном (1892-1965). В той же научной работе автором был описан еще один критерий, применяемый в случае сравнения независимых выборок.

2. Для чего используется критерий Уилкоксона?

Т-критерий Уилкоксона используется для оценки различий между двумя рядами измерений, выполненных для одной и той же совокупности исследуемых, но в разных условиях или в разное время. Данный тест способен выявить направленность и выраженность изменений - то есть, являются ли показатели больше сдвинутыми в одном направлении, чем в другом.

Классическим примером ситуации, в которой может применяться Т-критерий Уилкоксона для связанных совокупностей, является исследование "до-после", когда сравниваются показатели до и после лечения. Например, при изучении эффективности антигипертензивного средства сравнивается артериальное давление до приема препарата и после приема.

3. Условия и ограничения применения Т-критерия Уилкоксона

  1. Критерий Уилкоксона является непараметрическим критерием, поэтому, в отличие от парного t-критерия Стьюдента , не требует наличия нормального распределения сравниваемых совокупностей.
  2. Число исследуемых при использовании T-критерия Уилкоксона должно быть не менее 5.
  3. Изучаемый признак может быть измерен как в количественной непрерывной (артериальное давление, ЧСС, содержание лейкоцитов в 1 мл крови), так и в порядковой шкале (число баллов, степень тяжести заболевания, степень обсемененности микроорганизмами).
  4. Данный критерий используется только в случае сравнения двух рядов измерений. Аналогом Т-критерия Уилкоксона для сравнения трех и более связанных совокупностей является Критерий Фридмана .

4. Как рассчитать Т-критерий Уилкоксона для связанных выборок?

  1. Вычислить разность между значениями парных измерений для каждого исследуемого. Нулевые сдвиги далее не учитываются.
  2. Определить, какие из разностей являются типичными, то есть соответствуют преобладающему по частоте направлению изменения показателя.
  3. Проранжировать разности пар по их абсолютным значениям (то есть, без учета знака), в порядке возрастания. Меньшему абсолютному значению разности приписывается меньший ранг.
  4. Рассчитать сумму рангов, соответствующих нетипичным сдвигам.

Таким образом, Т-критерий Уилкоксона для связанных выборок рассчитывается по следующей формуле:

где ΣRr - сумма рангов, соответствующих нетипичным изменениям показателя.

5. Как интерпретировать значение критерия Уилкоксона?

Полученное значение T-критерия Уилкоксона сравниваем с критическим по таблице для избранного уровня статистической значимости (p=0.05 или p=0.01 ) при заданной численности сопоставляемых выборок n:

  • Если расчетное (эмпирическое) значение Т эмп. меньше табличного Т кр. или равно ему, то признается статистическая значимость изменений показателя в типичную сторону (принимается альтернативная гипотеза). Достоверность различий тем выше, чем меньше значение Т.
  • Если Т эмп. больше Т кр. , принимается нулевая гипотеза об отсутствии статистической значимости изменений показателя.

Пример расчета критерия Уилкоксона для связанных выборок

Фармацевтической компанией проводится исследование нового препарата из группы нестероидных противовоспалительных средств. Для этого отобрана группа из 10 добровольцев, страдающих ОРВИ с гипертермией. У них была измерена температура тела до и через 30 минут после приема нового препарата. Требуется сделать вывод о значимости снижения температуры тела в результате приема препарата.

  1. Исходные данные оформлены в виде следующей таблицы:
  2. Для расчета Т-критерия Уилкоксона рассчитаем разности парных показателей и проранжируем их абсолютные значения. При этом нетипичные ранги выделим красным шрифтом:
    N Фамилия t тела до приема препарата t тела после приема препарата Разность показателей, d |d| Ранг
    1. Иванов 39.0 37.6 -1.4 1.4 7
    2. Петров 39.5 38.7 -0.8 0.8 5
    3. Сидоров 38.6 38.7 0.1 0.1 1.5
    4. Попов 39.1 38.5 -0.6 0.6 4
    5. Николаев 40.1 38.6 -1.5 1.5 8
    6. Козлов 39.3 37.5 -1.8 1.8 9
    7. Игнатьев 38.9 38.8 -0.1 0.1 1.5
    8. Семенов 39.2 38.0 -1.2 1.2 6
    9. Егоров 39.8 39.8 0
    10. Алексеев 38.8 39.3 0.5 0.5 3
    Как мы видим, типичным сдвигом показателя является его снижение, отмеченное в 7 случаях из 10. В одном случае (у пациента Егорова) - температура после приема препарата не изменилась, в связи с чем данный случай не использовался в дальнейшем анализе. В двух случаях (у пациентов Сидорова и Алексеева) отмечался нетипичный сдвиг температуры в сторону повышения. Ранги, соответствующие нетипичному сдвигу, равны 1.5 и 3.
  3. Рассчитаем Т-критерий Уилкоксона, который равен сумме рангов, соответствующих нетипичному сдвигу показателя:

    T = ΣRr = 3 + 1.5 = 4.5

  4. Сравниваем Т эмп. с Т кр. , который при уровне значимости p=0.05 и n=9 равен 8. Следовательно, Т эмп.
  5. Делаем вывод: снижение температуры тела у пациентов с ОРВИ в результате приема нового препарата является статистически значимым (р<0.05).
Показать таблицу критических значений Т-критерия Уилкоксона

КРИТЕРИЙ ХИ-КВАДРАТ ПИРСОНА

Критерий χ 2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

1. История разработки критерия χ 2

Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).

2. Для чего используется критерий χ 2 Пирсона?

Критерий хи-квадрат может применяться при анализе таблиц сопряженности , содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:

Исход есть (1) Исхода нет (0) Всего
Фактор риска есть (1) A B A + B
Фактор риска отсутствует (0) C D C + D
Всего A + C B + D A + B + C + D

Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.

Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).

Заполняем исходными данными четырехпольную таблицу сопряженности:

В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.

Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.

  1. Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
  2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
  3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
  4. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса . Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера .
  5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.

4. Как рассчитать критерий хи-квадрат Пирсона?

Для расчета критерия хи-квадрат необходимо:

Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.

5. Как интерпретировать значение критерия хи-квадрат Пирсона?

В том случае, если полученное значение критерия χ 2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.

6. Пример расчета критерия хи-квадрат Пирсона

Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:

  1. Рассчитываем ожидаемые значения для каждой ячейки:
  2. Находим значение критерия хи-квадрат Пирсона:

    χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

  3. Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.
  4. Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.
Показать таблицу критических значений критерия хи-квадрат Пирсона

ТОЧНЫЙ КРИТЕРИЙ ФИШЕРА

Точный критерий Фишера – это критерий, который используется для сравнения двух относительных показателей, характеризующих частоту определенного признака, имеющего два значения. Исходные данные для расчета точного критерия Фишера обычно группируются в виде четырехпольной таблицы.

1. История разработки критерия

Впервые критерий был предложен Рональдом Фишером в его книге «Проектирование экспериментов». Это произошло в 1935 году. Сам Фишер утверждал, что на эту мысль его натолкнула Муриэль Бристоль. В начале 1920-х годов Рональд, Муриэль и Уильям Роуч находились в Англии на опытной сельскохозяйственной станции. Муриэль утверждала, что может определить, в какой последовательности наливали в ее чашку чай и молоко. На тот момент проверить правильность ее высказывания не представлялось возможным.

Это дало толчок идее Фишера о «нуль гипотезе». Целью стала не попытка доказать, что Муриэль может определить разницу между по-разному приготовленными чашками чая. Решено было опровергнуть гипотезу, что выбор женщина делает наугад. Было определено, что нуль-гипотезу нельзя ни доказать, ни обосновать. Зато ее можно опровергнуть во время экспериментов.

Было приготовлено 8 чашек. В первые четыре налито молоко сначала, в другие четыре – чай. Чашки были помешаны. Бристоль предложили опробовать чай на вкус и разделить чашки по методу приготовления чая. В результате должно было получиться две группы. История говорит, что эксперимент прошел удачно.

Благодаря тесту Фишера вероятность того, что Бристоль действует интуитивно, была уменьшена до 0.01428. То есть, верно определить чашку можно было в одном случае из 70. Но все же нет возможности свести к нулю шансы того, что мадам определяет случайно. Даже если увеличивать число чашек.

Эта история дала толчок развитию «нуль гипотезы». Тогда же был предложен точный критерий Фишера, суть которого в переборе всех возможных комбинаций зависимой и независимой переменных.

2. Для чего используется точный критерий Фишера?

Точный критерий Фишера в основном применяется для сравнения малых выборок. Этому есть две весомые причины. Во-первых, вычисления критерия довольно громоздки и могут занимать много времени или требовать мощных вычислительных ресурсов. Во-вторых, критерий довольно точен (что нашло отражение даже в его названии), что позволяет его использовать в исследованиях с небольшим числом наблюдений.

Особое место отводится точному критерию Фишера в медицине. Это важный метод обработки медицинских данных, нашедший свое применение во многих научных исследованиях. Благодаря ему можно исследовать взаимосвязь определенных фактора и исхода, сравнивать частоту патологических состояний между двумя группами исследуемых и т.д.

3. В каких случаях можно использовать точный критерий Фишера?

  1. Сравниваемые переменные должны быть измерены в номинальной шкале и иметь только два значения, например, артериальное давление в норме или повышено, исход благоприятный или неблагоприятный, послеоперационные осложнения есть или нет.
  2. Точный критерий Фишера предназначен для сравнения двух независимых групп, разделенных по факторному признаку. Соответственно, фактор также должен иметь только два возможных значения.
  3. Критерий подходит для сравнения очень малых выборок: точный критерий Фишера может применяться для анализа четырехполных таблиц в случае значений ожидаемого явления менее 5, что является ограничением для применения критерия хи-квадрат Пирсона , даже с учетом поправки Йейтса.
  4. Точный критерий Фишера бывает односторонним и двусторонним. При одностороннем варианте точно известно, куда отклонится один из показателей. Например, во время исследования сравнивают, сколько пациентов выздоровело по сравнению с группой контроля. Предполагают, что терапия не может ухудшить состояние пациентов, а только либо вылечить, либо нет.
    Двусторонний тест оценивает различия частот по двум направлениям. То есть оценивается верятность как большей, так и меньшей частоты явления в экспериментальной группе по сравнению с контрольной группой.

Аналогом точного критерия Фишера является Критерий хи-квадрат Пирсона , при этом точный критерий Фишера обладает более высокой мощностью, особенно при сравнении малых выборок, в связи с чем в этом случае обладает преимуществом.

4. Как рассчитать точный критерий Фишера?

Допустим, изучается зависимость частоты рождения детей с врожденными пороками развития (ВПР) от курения матери во время беременности. Для этого выбраны две группы беременных женщин, одна из которых - экспериментальная, состоящая из 80 женщин, куривших в первом триместре беременности, а вторая - группа сравнения, включающая 90 женщин, ведущих здоровый образ жизни на протяжении всей беременности. Число случаев ВПР плода в экспериментальной группе составило 10, в группе сравнения - 2.

Вначале составляем четырехпольную таблицу сопряженности:

Точный критерий Фишера рассчитывается по следующей формуле:

где N - общее число исследуемых в двух группах; ! - факториал, представляющий собой произведение числа на последовательность чисел, каждое из которых меньше предыдущего на 1 (например, 4! = 4 · 3 · 2 · 1)

В результате вычислений находим, что P = 0,0137.

5. Как интерпретировать значение точного критерия Фишера?

Достоинством метода является соответствие полученного критерия точному значению уровня значимости p. То есть, полученное в нашем примере значение 0,0137 и есть уровень значимости различий сравниваемых групп по частоте развития ВПР плода. Необходимо лишь сопоставить данное число с критическим уровнем значимости, обычно принимаемым в медицинских исследованиях за 0,05.

  • Если значение точного критерия Фишера больше критического, принимается нулевая гипотеза и делается вывод об отсутствии статистически значимых различий частоты исхода в зависимости от наличия фактора риска.
  • Если значение точного критерия Фишера меньше критического, принимается альтернативная гипотеза и делается вывод о наличии статистически значимых различий частоты исхода в зависимости от воздействия фактора риска.

В нашем примере P < 0,05, в связи с чем делаем вывод о наличии прямой взаимосвязи курения и вероятности развития ВПР плода. Частота возникновения врожденной патологии у детей курящих женщин статистически значимо выше, чем у некурящих.


ОТНОШЕНИЕ ШАНСОВ

Отношение шансов – статистический показатель (на русском его название принято сокращать как ОШ, а на английском - OR от "odds ratio"), один из основных способов описать в численном выражении то, насколько отсутствие или наличие определённого исхода связано с присутствием или отсутствием определённого фактора в конкретной статистической группе.

1. История разработки показателя отношения шансов

Термин "шанс" пришел из теории азартных игр, где при помощи данного понятия обозначали отношение выигрышных позиций к проигрышным. В научной медицинской литературе показатель отношения шансов был впервые упомянут в 1951 году в работе Дж. Корнфилда. Впоследствие данным исследователем были опубликованы работы, в которых отмечалась необходимость расчета 95% доверительного интервала для отношения шансов. (Cornfield, J. A Method for Estimating Comparative Rates from Clinical Data. Applications to Cancer of the Lung, Breast, and Cervix // Journal of the National Cancer Institute, 1951. - N.11. - P.1269–1275.)

2. Для чего используется показатель отношения шансов?

Отношение шансов позволяет оценить связь между определенным исходом и фактором риска.

Отношение шансов позволяет сравнить группы исследуемых по частоте выявления определенного фактора риска. Важно, что результатом применения отношения шансов является не только определение статистической значимости связи между фактором и исходом, но и ее количественная оценка.

3. Условия и ограничения применения отношения шансов

  1. Результативные и факторные показатели должны быть измерены в номинальной шкале. Например, результативный признак - наличие или отсутствие врожденного порока развития у плода, изучаемый фактор - курение матери (курит или не курит).
  2. Данный метод позволяет проводить анализ только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, пол - мужской или женский, артериальная гипертония - наличие или отсутствие, исход заболевания - с улучшением или без улучшения...).
  3. Сопоставляемые группы должны быть независимыми, то есть показатель отношения шансов не подходит для сравнения наблюдений "до-"после".
  4. Показатель отношения шансов используется в исследованиях по типу "случай-контроль" (например, первая группа - больные гипертонической болезнью, вторая - относительно здоровые люди). Для проспективных исследований, когда группы формируются по признаку наличия или отсутствия фактора риска (например, первая группа - курящие, вторая группа - некурящие), может также рассчитываться относительный риск .

4. Как рассчитать отношение шансов?

Отношение шансов – это значение дроби, в числителе которой, находятся шансы определённого события для первой группы, а в знаменателе шансы того же события для второй группы.

Шансом является отношение числа исследуемых, имеющих определенный признак (исход или фактор), к числу исследуемых, у которых данный признак отсутствует.

Например, была отобрана группа пациентов, прооперированных по поводу панкреонекроза, число которых составило 100 человек. Через 5 лет из их числа в живых осталось 80 человек. Соответственно, шанс выжить составил 80 к 20, или 4.

Удобным способом является расчёт отношения шансов со сведением данных в таблицу 2х2:

Исход есть (1) Исхода нет (0) Всего
Фактор риска есть (1) A B A + B
Фактор риска отсутствует (0) C D C + D
Всего A + C B + D A + B + C + D

Для данной таблицы отношение шансов рассчитывается по следующей формуле:

Очень важно оценить статистическую значимость выявленной связи между исходом и фактором риска. Связано это с тем, что даже при невысоких значениях отношения шансов, близких к единице, связь, тем не менее, может оказаться существенной и должна учитываться в статистических выводах. И наоборот, при больших значениях OR, показатель оказывается статистически незначимым, и, следовательно, выявленной связью можно пренебречь.

Для оценки значимости отношения шансов рассчитываются границы 95% доверительного интервала (используется абрревиатура 95% ДИ или 95% CI от англ. "confidence interval"). Формула для нахождения значения верхней границы 95% CI:

Формула для нахождения значения нижней границы 95% CI:

5. Как интерпретировать значение отношения шансов?

  • Если отношение шансов превышает 1, то это означает, что шансы обнаружить фактор риска больше в группе с наличием исхода. Т.е. фактор имеет прямую связь с вероятностью наступления исхода.
  • Отношение шансов, имеющее значение меньше 1, свидетельствует о том, что шансы обнаружить фактор риска больше во второй группе. Т.е. фактор имеет обратную связь с вероятностью наступления исхода.
  • При отношении шансов, равном единице, шансы обнаружить фактор риска в сравниваемых группах одинакова. Соответственно, фактор не оказывает никакого воздействия на вероятность исхода.

Дополнительно в каждом случае обязательно оценивается статистическая значимость отношения шансов исходя из значений 95% доверительного интервала.

  • Если доверительный интервал не включает 1, т.е. оба значения границ или выше, или ниже 1, делается вывод о статистической значимости выявленной связи между фактором и исходом при уровне значимости p<0,05.
  • Если доверительный интервал включает 1, т.е. его верхняя граница больше 1, а нижняя - меньше 1, делается вывод об отсутствии статистической значимости связи между фактором и исходом при уровне значимости p>0,05.
  • Величина доверительного интервала обратно пропорциональна уровню значимости связи фактора и исхода, т.е. чем меньше 95% ДИ, тем более существенной является выявленная зависимость.

6. Пример расчета показателя отношения шансов

Представим две группы: первая состояла из 200 женщин, у которых был диагностирован врожденный порок развития плода (Исход+). Из них курили во время беременности (Фактор+) - 50 человек (А) , являлись некурящими (Фактор-) - 150 человек (С) .

Вторую группу составили 100 женщин без признаков ВПР плода (Исход -) среди которых курили во время беременности (Фактор+) 10 человек (B) , не курили (Фактор-) - 90 человек (D) .

1. Составим четырехпольную таблицу сопряженности:

2. Рассчитаем значение отношения шансов:

OR = (A * D) / (B * C) = (50 * 90) / (150 * 10) = 3.

3. Найдем границы 95% CI. Значение нижней границы, рассчитанной по указанной выше формуле составило 1,45, а верхней - 6,21.

Таким образом, исследование показало, что шансы встретить курящую женщину среди пациенток с диагностированным ВПР плода в 3 раза выше, чем среди женщин без признаков ВПР плода. Наблюдаемая зависимость является статистически значимой, так как 95% CI не включает 1, значения его нижней и верхней границ больше 1.


ОТНОСИТЕЛЬНЫЙ РИСК

Риск – это вероятность появления определенного исхода, например, болезни или травмы. Риск может принимать значения от 0 (вероятность наступления исхода отсутствует) до 1 (во всех случаях ожидается неблагоприятный исход). В медицинской статистике, как правило, изучаются изменения риска наступления исхода в зависимости от какого-либо фактора. Пациенты условно разделяются на 2 группы, на одну из которых фактор влияет, на другую – нет.

Относительный риск – это отношение частоты исходов среди исследуемых, на которых оказывал влияние изучаемый фактор, к частоте исходов среди исследуемых, не подвергавшихся влиянию этого фактора. В научной литературе часто используют сокращенное название показателя - ОР или RR (от англ. "relative risk").

1. История разработки показателя относительного риска

Расчет относительного риска заимствован медицинской статистикой из экономики. Правильная оценка влияния политических, экономических и социальных факторов на востребованность товара или услуги может привести к успеху, а недооценка этих факторов - к финансовым неудачам и банкротству предприятия.

2. Для чего используется относительный риск?

Относительный риск используется для сравнения вероятности исхода в зависимости от наличия фактора риска. Например, при оценке влияния курения на частоту гипертонической болезни, при изучении зависимости частоты рака молочной железы от приема оральных контрацептивов и др. Относительный риск - важнейший показатель в назначении определенных методов лечения или проведении исследований с возможными побочными эффектами.

3. Условия и ограничения применения относительного риска

  1. Показатели фактора и исхода должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский, артериальная гипертония - есть или нет).
  2. Данный метод позволяет проводить анализ только четырехпольных таблиц, когда и фактор, и исход являются инарными переменными, то есть имеют только два возможных значения (например, возраст младше или старше 50 лет, наличие или отсутствие определенного заболевания в анамнезе).
  3. Относительный риск применяется при проспективных исследованиях, когда исследуемые группы формируются по признаку наличия или отсутствия фактора риска. При исследованиях по принципу "случай-контроль" вместо относительного риска должен использоваться показатель отношения шансов .

4. Как рассчитать относительный риск?

Для расчета относительного риска необходимо:

5. Как интерпретировать значение относительного риска?

Показатель относительного риска сравнивается с 1 для того, чтобы определить характер связи фактора и исхода:

  • Если ОР равен 1, можно сделать вывод, что исследуемый фактор не влияет на вероятность исхода (отсутствие связи между фактором и исходом).
  • При значениях более 1 делается вывод о том, что фактор повышает частоту исходов (прямая связь).
  • При значениях менее 1 - о снижении вероятности исхода при воздействии фактора (обратная связь).

Также обязательно оцениваются значения границ 95% доверительного интервала. Если оба значения - и нижней, и верхней границы - находятся по одну сторону от 1, или, другими словами, доверительный интервал не включает 1, то делается вывод о статистической значимости выявленной связи между фактором и исходом с вероятностью ошибки p<0,05.

Если нижняя граница 95% ДИ меньше 1, а верхняя - больше, то делается вывод об отсутствии статистической значимости влияния фактора на частоту исхода, независимо от величины показателя ОР (p>0,05).

6. Пример расчета показателя относительного риска

В 1999 году в Оклахоме проводились исследования заболеваемости мужчин язвой желудка. В качестве влияющего фактора было выбрано регулярное потребление фастфуда. В первой группе находились 500 мужчин, постоянно питающихся быстрой пищей, среди которых язву желудка диагностировали у 96 человек. Во вторую группу были отобраны 500 сторонников здорового питания, среди которых язва желудка была диагностирована в 31 случае. Исходя из полученных данных была построена следующая таблица сопряженности:


КРИТЕРИЙ КОРРЕЛЯЦИИ ПИРСОНА

​ Критерий корреляции Пирсона – это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, изменяется ли (возрастает или уменьшается) один показатель в ответ на изменения другого? В статистических расчетах и выводах коэффициент корреляции обычно обозначается как r xy или R xy .

1. История разработки критерия корреляции

Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон .

2. Для чего используется критерий корреляции Пирсона?

Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.

Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в количественной шкале (например, частота сердечных сокращений, температура тела, содержание лейкоцитов в 1 мл крови, систолическое артериальное давление).
  2. Посредством критерия корреляции Пирсона можно определить лишь наличие и силу линейной взаимосвязи между величинами. Прочие характеристики связи, в том числе направление (прямая или обратная), характер изменений (прямолинейный или криволинейный), а также наличие зависимости одной переменной от другой - определяются при помощи регрессионного анализа .
  3. Количество сопоставляемых величин должно быть равно двум. В случае анализ взаимосвязи трех и более параметров следует воспользоваться методом факторного анализа .
  4. Критерий корреляции Пирсона является параметрическим, в связи с чем условием его применения служит нормальное распределение каждой из сопоставляемых переменных. В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена .
  5. Следует четко различать понятия зависимости и корреляции. Зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.

Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью, подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь, означающая, что изменения одного показателя сопровождаются изменениями другого показателя.

В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста, но разного роста, то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.

Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов.

4. Как рассчитать коэффициента корреляции Пирсона?

Расчет коэффициента корреляции Пирсона производится по следующей формуле:

5. Как интерпретировать значение коэффициента корреляции Пирсона?

Значения коэффициента корреляции Пирсона интерпретируются исходя из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от 0 до ±1. Чем больше абсолютное значение r xy – тем выше теснота связи между двумя величинами. r xy = 0 говорит о полном отсутствии связи. r xy = 1 – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше 1 или меньше -1 – в расчетах допущена ошибка.

Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения r xy < 0.3 свидетельствуют о слабой связи, значения r xy от 0.3 до 0.7 - о связи средней тесноты, значения r xy > 0.7 - о сильной связи.

Более точную оценку силы корреляционной связи можно получить, если воспользоваться таблицей Чеддока:

Оценка статистической значимости коэффициента корреляции r xy осуществляется при помощи t-критерия, рассчитываемого по следующей формуле:

Полученное значение t r сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы n-2. Если t r превышает t крит, то делается вывод о статистической значимости выявленной корреляционной связи.

6. Пример расчета коэффициента корреляции Пирсона

Целью исследования явилось выявление, определение тесноты и статистической значимости корреляционной связи между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в теле (Y). Исходные данные для выборки, состоящей из 5 исследуемых (n = 5), сведены в таблице:


КРИТЕРИЙ СПИРМЕНА

Коэффициент ранговой корреляции Спирмена – это непараметрический метод, который используется с целью статистического изучения связи между явлениями. В этом случае определяется фактическая степень параллелизма между двумя количественными рядами изучаемых признаков и дается оценка тесноты установленной связи с помощью количественно выраженного коэффициента.

1. История разработки коэффициента ранговой корреляции

Данный критерий был разработан и предложен для проведения корреляционного анализа в 1904 году Чарльзом Эдвардом Спирменом , английским психологом, профессором Лондонского и Честерфилдского университетов.

2. Для чего используется коэффициент Спирмена?

Коэффициент ранговой корреляции Спирмена используется для выявления и оценки тесноты связи между двумя рядами сопоставляемых количественных показателей. В том случае, если ранги показателей, упорядоченных по степени возрастания или убывания, в большинстве случаев совпадают (большему значению одного показателя соответствует большее значение другого показателя - например, при сопоставлении роста пациента и его массы тела), делается вывод о наличии прямой корреляционной связи. Если ранги показателей имеют противоположную направленность (большему значению одного показателя соответствует меньшее значение другого - например, при сопоставлении возраста и частоты сердечных сокращений), то говорят об обратной связи между показателями.

    Коэффициент корреляции Спирмена обладает следующими свойствами:
  1. Коэффициент корреляции может принимать значения от минус единицы до единицы, причем при rs=1 имеет место строго прямая связь, а при rs= -1 – строго обратная связь.
  2. Если коэффициент корреляции отрицательный, то имеет место обратная связь, если положительный, то – прямая связь.
  3. Если коэффициент корреляции равен нулю, то связь между величинами практически отсутствует.
  4. Чем ближе модуль коэффициента корреляции к единице, тем более сильной является связь между измеряемыми величинами.

3. В каких случаях можно использовать коэффициент Спирмена?

В связи с тем, что коэффициент является методом непараметрического анализа, проверка на нормальность распределения не требуется.

Сопоставляемые показатели могут быть измерены как в непрерывной шкале (например, число эритроцитов в 1 мкл крови), так и в порядковой (например, баллы экспертной оценки от 1 до 5).

Эффективность и качество оценки методом Спирмена снижается, если разница между различными значениями какой-либо из измеряемых величин достаточно велика. Не рекомендуется использовать коэффициент Спирмена, если имеет место неравномерное распределение значений измеряемой величины.

4. Как рассчитать коэффициент Спирмена?

Расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:

5. Как интерпретировать значение коэффициента Спирмена?

При использовании коэффициента ранговой корреляции условно оценивают тесноту связи между признаками, считая значения коэффициента меньше 0,3 - признаком слабой тесноты связи; значения более 0,3, но менее 0,7 - признаком умеренной тесноты связи, а значения 0,7 и более - признаком высокой тесноты связи.

Также для оценки тесноты связи может использоваться шкала Чеддока .

Статистическая значимость полученного коэффициента оценивается при помощи t-критерия Стьюдента. Если расчитанное значение t-критерия меньше табличного при заданном числе степеней свободы, статистическая значимость наблюдаемой взаимосвязи - отсутствует. Если больше, то корреляционная связь считается статистически значимой.


МЕТОД КОЛМОГОРОВА-СМИРНОВА

Критерий Колмогорова-Смирнова – непараметрический критерий согласия, в классическом понимании предназначен для проверки простых гипотез о принадлежности анализируемой выборки некоторому известному закону распределения. Наиболее известно применение данного критерия для проверки исследуемых совокупностей на нормальность распределения.

1. История разработки критерия Колмогорова-Смирнова

Критерий Колмогорова-Смирнова был разработан советскими математиками Андреем Николаевичем Колмогоровым и Николаем Васильевичем Смирновым .
Колмогоров А.Н. (1903-1987) - Герой Социалистического Труда, профессор Московского государственного университета, академик АН СССР - крупнейший математик XX века, является одним из основоположников современной теории вероятности.
Смирнов Н.В. (1900-1966)- член-корреспондент АН СССР, один из создателей непараметрических методов математической статистики и теории предельных распределений порядковых статистик.

Впоследствии критерий согласия Колмогорова-Смирнова был доработан с целью применения для проверки совокупностей на нормальность распределения американским статистиком, профессором Университета Джорджа Вашингтона Хьюбертом Лиллиефорсом (Hubert Whitman Lilliefors, 1928-2008). Профессор Лиллиефорс являлся одним из пионеров применения компьютерной техники в статистических расчётах.

Хьюберт Лиллиефорс

2. Для чего используется критерий Колмогорова-Смирнова?

Данный критерий позволяет оценить существенность различий между распределениями двух выборок, в том числе возможно его применение для оценки соответствия распределения исследуемой выборки закону нормального распределения.

3. В каких случаях можно использовать критерий Колмогорова-Смирнова?

Критерий Колмогорова-Смирнова предназначен для проверки на нормальность распределения совокупностей количественных данных.

Для большей достоверности полученных данных объемы рассматриваемых выборок должен быть достаточно большими: n ≥ 50. При размерах оцениваемой совокупности от 25 до 50 элементов, целесообразно применение поправки Большева.

4. Как рассчитать критерий Колмогорова-Смирнова?

Критерий Колмогорова-Смирнова рассчитывается при помощи специальных статистических программ. В основе лежит статистика вида:

где sup S - точная верхняя грань множества S, F n - функция распределения исследуемой совокупности, F(x) - функция нормального распределения

Выводимые значения вероятности основаны на предположении, что среднее и стандартное отклонение нормального распределения известны априори и не оцениваются из данных.

Однако на практике обычно параметры вычисляются непосредственно из данных. В этом случае критерий нормальности включает сложную гипотезу ("насколько вероятно получить D статистику данной или большей значимости, зависящей от среднего и стандартного отклонения, вычисленных из данных"), и приводятся вероятности Лиллиефорса (Lilliefors, 1967).

5. Как интерпретировать значение критерия Колмогорова-Смирнова?

Если D статистика Колмогорова-Смирнова значима (p<0,05), то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.


Пример решения контрольной работы по математической статистике

Задача 1

Исходные данные : студенты некоторой группы, состоящей из 30 человек сдали экзамен по курсу «Информатика». Полученные студентами оценки образуют следующий ряд чисел:

I. Составим вариационный ряд

m x

w x

m x нак

w x нак

Итого:

II. Графическое представление статистических сведений.

III. Числовые характеристики выборки.

1. Среднее арифметическое

2. Среднее геометрическое

3. Мода

4. Медиана

222222333333333 | 3 34444444445555

5. Выборочная дисперсия

7. Коэффициент вариации

8. Ассиметрия

9. Коэффициент ассиметрии

10. Эксцесс

11. Коэффициент эксцесса

Задача 2

Исходные данные : студенты некоторой группы написали выпускную контрольную работу. Группа состоит из 30 человек. Набранные студентами баллы образуют следующий ряд чисел

Решение

I. Так как признак принимает много различных значений, то для него построим интервальный вариационный ряд. Для этого сначала зададим величину интервала h . Воспользуемся формулой Стэрджера

Составим шкалу интервалов. При этом за верхнюю границу первого интервала примем величину, определяемую по формуле:

Верхние границы последующих интервалов определим по следующей рекуррентной формуле:

, тогда

Построение шкалы интервалов заканчиваем, так как верхняя граница очередного интервала стала больше или равна максимальному значению выборки
.

II. Графическое отображение интервального вариационного ряда

III. Числовые характеристики выборки

Для определения числовых характеристик выборки составим вспомогательную таблицу

Сумма :

1. Среднее арифметическое

2. Среднее геометрическое

3. Мода

4. Медиана

10 11 12 12 13 13 13 13 14 14 14 14 15 15 15 |15 15 15 16 16 16 16 16 17 17 18 19 19 20 20

5. Выборочная дисперсия

6. Выборочное стандартное отклонение

7. Коэффициент вариации

8. Ассиметрия

9. Коэффициент ассиметрии

10. Эксцесс

11. Коэффициент эксцесса

Задача 3

Условие : цена деления шкалы амперметра равна 0,1 А. Показания округляют до ближайшего целого деления. Найти вероятность того, что при отсчете будет сделана ошибка, превышающая 0,02 А.

Решение.

Ошибку округления отсчета можно рассматривать как случайную величину Х , которая распределена равномерно в интервале между двумя соседними целыми делениями. Плотность равномерного распределения

,

где
- длина интервала, в котором заключены возможные значения Х ; вне этого интервала
В данной задаче длина интервала, в котором заключены возможные значения Х , равна 0,1, поэтому

Ошибка отсчета превысит 0,02 если она будет заключена в интервале (0,02; 0,08). Тогда

Ответ: р =0,6

Задача 4

Исходные данные: математическое ожидание и стандартное отклонение нормально распределенного признака Х соответственно равны 10 и 2. Найти вероятность того, чтов результате испытания Х примет значение, заключенное в интервале (12, 14).

Решение.

Воспользуемся формулой

И теоретическими частотами

Решение

Для Х ее математическое ожидание M(X) и дисперсию D(X). Решение . Найдем функцию распределения F(x) случайной величины... ошибка выборки). Составим вариационный ряд Ширина интервала составит : Для каждого значения ряда подсчитаем, какое количество...

  • Решение: уравнение с разделяющимися переменными

    Решение

    В виде Для нахождения частного решения неоднородного уравнения составим систему Решим полученную систему... ; +47; +61; +10; -8. Построить интервальный вариационный ряд . Дать статистические оценки среднего значения...

  • Решение: Проведем расчет цепных и базисных абсолютных приростов, темпов роста, темпов прироста. Полученные значения сведем в таблицу 1

    Решение

    Объем производства продукции. Решение : Средняя арифметическая интервального вариационного ряда вычисляется следующим образом: за... Предельная ошибка выборки с вероятностью 0,954 (t=2) составит : Δ w = t*μ = 2*0,0146 = 0,02927 Определим границы...

  • Решение. Признак

    Решение

    О трудовом стаже которых и составили выборку. Средний по выборке стаж... рабочего дня этих сотрудников и составили выборку. Средняя по выборке продолжительность... 1,16, уровень значимости α = 0,05. Решение . Вариационный ряд данной выборки имеет вид: 0,71 ...

  • Рабочая учебная программа по биологии для 10-11 классов Составитель: Поликарпова С. В

    Рабочая учебная программа

    Простейших схем скрещивания» 5 Л.р. «Решение элементарных генетических задач» 6 Л.р. «Решение элементарных генетических задач» 7 Л.р. « ... , 110, 115, 112, 110. Составьте вариационный ряд , начертите вариационную кривую, найдите среднюю величину признака...

  • Группа чисел, объединяемая каким-либо признаком, называется совокупностью.

    Как было отмечено выше, первичный статистический спортивный материал представляет собой группу разрозненных чисел, не дающих тренеру представления о существе явления или процесса. Задача заключается в том, чтобы превратить эту совокупность в систему и воспользоваться ее показателями для получения требуемой информации.

    Составление вариационного ряда как раз и представляет собой формирование определенной математической

    Пример 2. У 34 спортсменов-лыжников зарегистрировано такое время восстановления пульса после прохождения дистанции (в секундах):

    81; 78: 84; 90; 78; 74; 84; 85; 81; 84: 79; 84; 74; 84; 84;

    85; 81; 84; 78: 81; 74; 84; 81; 84; 85; 81; 78; 81; 81; 84;

    Как видно, данная группа цифр не несет никакой информации.

    Для составления вариационного ряда вначале производим операцию ранжирования - расположения чисел в порядке возрастания или убывания. Например, в порядке возрастания ранжирование приводит к следующему;

    78; 78; 78; 78; 78; 78;

    81; 81; 81; 81; 81; 81; 81; 81; 81;

    84; 84; 84; 84; 84; 84; 84; 84; 84; 84; 84;

    В порядке убывания ранжирование приводит к такой группе чисел:

    84; 84; 84; 84; 84; 84; 84; 84: 84: 84; 84;

    81; 81; 81; 81; 8!; 81: 81; 81; 81;

    78; 78; 78; 78; 78; 78;

    После проведения ранжирования становится очевидной нерациональная форма записи данной группы чисел-одни и те же числа повторяются многократно. Поэтому возникает естественная мысль преобразовать запись таким образом, чтобы указать, какое число сколько раз повторяется. Например, учитывая ранжирование в порядке возрастания:

    Здесь слева записано число, указывающее время восстановления пульса спортсмена, справа-число повторений этого показания в данной группе из 34 спортсменов.

    В соответствии с приведенными выше понятиями о математических символах рассмотренную группу измерений обозначим какой-либо буквой, например х. Учитывая возрастающий порядок чисел в данной группе: х 1 -74 с; х 2 - 78 с; х 3 - 81 с; х 4 - 84 с; х 5 - 85 с; х 6 -х n - 90 с, каждое рассмотренное число можно обозначить символом X i .

    Обозначим число повторений рассмотренных измерений буквой n. Тогда:

    n 1 =4; n 2 =6; n 3 =9; n 4 =11; n 5 =3;n 6 =n n =1, а каждое число повторений можно обозначить как n i .

    Общее число проведенных измерений, как следует из условия примера, есть 34. Это означает, что сумма всех n равна 34. Или в символическом выражении:

    Обозначим эту сумму одной буквой - n. Тогда исходные данные рассматриваемого примера можно записать в таком виде (табл. 1).

    Полученная группа чисел есть преобразованный ряд хаотически рассеянных показаний, полученных тренером в начале работы.

    Таблица 1

    х i n i
    n=34

    Такая группа представляет собой определенную систему, параметры которой характеризуют проведенные измерения. Числа, представляющие собой результаты измерений (х i), называют вариантами; n i - числа их повторений - называются частотами; n - сумма всех частот - есть объем совокупности.

    Вся полученная система называется вариационным рядом. Иногда эти ряды называются эмпирическими или статистическими.

    Нетрудно заметить, что возможен частный случай вариационного ряда, когда все частоты равны единице n i ==1, то есть каждое измерение в данной группе чисел встретилось только один раз.

    Полученный вариационный ряд, как и всякий другой, можно представить графически. Для построения графика полученного ряда, необходимо прежде всего условиться о масштабе на горизонтальной и вертикальной оси.

    В данной задаче на горизонтальной оси будем откладывать значения времени восстановления пульса (х 1) таким образом, что единице длины, избранной произвольно, соответствует значение одной секунды. Откладывать эти значения начнем с 70 секунд, условно отступая от места пересечения двух осей 0.

    На вертикальной оси отложим значения частот нашего ряда (n i), принимая масштаб: единица длины равна единице частоты.

    Подготовив таким образом условия для построения графика, приступаем к работе с полученным вариационным рядом.

    Первую пару чисел х 1 =74, n 1 =4 наносим на график так: на оси х; находим х 1 =74 и восстанавливаем перпендикуляр из этой точки, на оси n находим n 1 =4 и проводим из нее горизонтальную линию до пересечения с восстановленным прежде перпендикуляром. Обе линии-вертикаль и горизонталь-являются линиями вспомогательными и потому наносятся на рисунок пунктиром. Точка их пересечения представляет собой в масштабе данного графика соотношение Х 1 =74 и n 1 =4.

    Таким же образом наносятся все остальные точки графика. Затем они соединяются отрезками прямых. Для того чтобы график имел замкнутый вид, крайние точки соединяем отрезками с соседними точками горизонтальной оси.

    Полученная фигура есть график нашего вариационного ряда (рис. 1).

    Совершенно понятно, что каждый вариационный ряд представляется своим собственным графиком.

    Рис. 1. Графическое представление вариационного ряда.

    На рис. 1 видно:

    1) из всех обследованных наибольшую группу составили спортсмены, время восстановления пульса у которых 84 с;

    2) у многих это время 81 с;

    3) наименьшую группу составили спортсмены с малым временем восстановления пульса - 74 с и большим - 90 с.

    Таким образом, выполнив серию испытаний, следует ранжировать полученные числа и составить вариационный ряд, представляющий собой определенную математическую систему. Для наглядности вариационный ряд можно иллюстрировать графиком.

    Приведенный выше вариационный ряд называется еще дискретным рядом - таким, у которого каждый вариант выражен одним числом.

    Приведем еще несколько примеров на составление вариационных рядов.

    Пример 3. 12 стрелков, выполняя упражнение лежа из 10 выстрелов, показали такие результаты (в очках):

    94; 91; 96; 94; 94; 92; 91; 92; 91; 95; 94; 94.

    Для образования вариационного ряда произведем ранжирование данных чисел;

    94; 94; 94; 94; 94;

    После ранжирования составляем вариационный ряд (табл. 3).

    Вариационные ряды: определение, виды, основные характеристики. Методика расчета
    моды, медианы, средней арифметической в медико-статистических исследованиях
    (показать на условном примере).

    Вариационный ряд – это ряд числовых значений изучаемого признака, отличающихся друг от друга по своей величине и расположенных в определенной последовательности(в восходящем или убывающем порядке). Каждое числовое значение ряда называют вариантой (V), а числа, показывающие, как часто встречается та или иная варианта в составе данного ряда, называется частотой (р).

    Общее число случаев наблюдений, из которых вариационный ряд состоит, обозначают буквой n. Различие в значении изучаемых признаков называется вариацией. В случае если варьирующий признак не имеет количественной меры, вариацию называют качественной, а ряд распределения – атрибутивным (например, распределение по исходу заболевания, по состоянию здоровья и т.д.).

    Если варьирующий признак имеет количественное выражение, такую вариацию называют количественной, а ряд распределения – вариационным.

    Вариационные ряды делятся на прерывные и непрерывные – по характеру количественного признака, простые и взвешенные – по частоте встречаемости вариант.

    В простом вариационном ряду каждая варианта встречается только один раз (р=1), во взвешенном – одна и та же варианта встречается несколько раз (р>1). Примеры таких рядов будут рассмотрены далее по тексту. Если количественный признак носит непрерывный характер, т.е. между целыми величинами имеются промежуточные дробные величины, вариационный ряд называется непрерывным.

    Например: 10,0 – 11,9

    14,0 – 15,9 и т.д.

    Если количественный признак носит прерывный характер, т.е. отдельные его значения (варианты) отличаются друг от друга на целое число и не имеют промежуточных дробных значений, вариационный ряд называют прерывным или дискретным.

    Используя данные предыдущего примера о частоте пульса

    у 21 студентов, построим вариационный ряд (табл. 1).

    Таблица 1

    Распределение студентов-медиков по частоте пульса (уд/мин)

    Таким образом, построить вариационный ряд – означает имеющиеся числовые значения (варианты) систематизировать, упорядочить, т.е. расположить в определенной последовательности (в восходящем или убывающем порядке) с соответствующими им частотами. В рассматриваемом примере варианты расположены в восходящем порядке и выражены в виде целых прерывных (дискретных) чисел, каждая варианта встречается несколько раз, т.е. мы имеем дело со взвешенным, прерывным или дискретным вариационным рядом.

    Как правило, если число наблюдений в изучаемой нами статистической совокупности не превышает 30, то достаточно все значения изучаемого признака расположить в вариационном ряду в нарастающем, как в табл. 1, или убывающем порядке.

    При большом количестве наблюдений (n>30) число встречающихся вариант может быть очень большим, в этом случае составляется интервальный или сгруппированный вариационный ряд, в котором для упрощения последующей обработки и выяснения характера распределения варианты объединены в группы.

    Обычно число групповых вариант колеблется от 8 до 15.

    Их должно быть не меньше 5, т.к. иначе это будет слишком грубое, чрезмерное укрупнение, что искажает общую картину варьирования и сильно сказывается на точности средних величин. При числе групповых вариант более 20-25 увеличивается точность вычисления средних величин, но существенно искажаются особенности варьирования признака и усложняется математическая обработка.

    При составлении сгруппированного ряда необходимо учесть,

    − группы вариант должны располагаться в определенном порядке (в восходящем или нисходящем);

    − интервалы в группах вариант должны быть одинаковыми;

    − значения границ интервалов не должны совпадать, т.к. неясно будет, в какие группы относить отдельные варианты;

    − необходимо учитывать качественные особенности собираемого материала при установлении пределов интервалов (например, при изучении веса взрослых людей интервал 3-4 кг допустим, а для детей первых месяцев жизни он не должен превышать 100 г.)

    Построим сгруппированный (интервальный) ряд, характеризующий данные о частоте пульса (число ударов в минуту) у 55 студентов-медиков перед экзаменом: 64, 66, 60, 62,

    64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

    64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

    79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

    Для построения сгруппированного ряда необходимо:

    1. Определить величину интервала;

    2. Определить середину, начало и конец групп вариант вариационного ряда.

    ● Величина интервала (i) определяется по числу предполагаемых групп (r), количество которых устанавливается в зависимости от числа наблюдений (n) по специальной таблице

    Число групп в зависимости от числа наблюдений:

    В нашем случае, для 55 студентов, можно составить от 8 до 10 групп.

    Величина интервала (i) определяется по следующей формуле –

    i = V max-V min/r

    В нашем примере величина интервала равна 82- 58/8= 3.

    Если величина интервала представляет собой дробное число, полученный результат следует округлить до целого числа.

    Различают несколько видов средних величин:

    ● средняя арифметическая,

    ● средняя геометрическая,

    ● средняя гармоническая,

    ● средняя квадратическая,

    ● средняя прогрессивная,

    ● медиана

    В медицинской статистике наиболее часто пользуются средними арифметическими величинами.

    Средняя арифметическая величина (М) является обобщающей величиной, которая определяет то типичное, что характерно для всей совокупности. Основными способами расчета М являются: среднеарифметический способ и способ моментов (условных отклонений).

    Среднеарифметический способ применяется для вычисления средней арифметической простой и средней арифметической взвешенной. Выбор способа расчета средней арифметической величины зависит от вида вариационного ряда. В случае простого вариационного ряда, в котором каждая варианта встречается только один раз, определяется средняя арифметическая простая по формуле:

    где: М – средняя арифметическая величина;

    V – значение варьирующего признака (варианты);

    Σ – указывает действие – суммирование;

    n – общее число наблюдений.

    Пример расчета средней арифметической простой. Частота дыхания (число дыхательных движений в минуту) у 9 мужчин в возрасте 35 лет: 20, 22, 19, 15, 16, 21, 17, 23, 18.

    Для определения среднего уровня частоты дыхания у мужчин в возрасте 35 лет необходимо:

    1. Построить вариационный ряд, расположив все варианты в возрастающем или убывающем порядке Мы получили простой вариационный ряд, т.к. значения вариант встречаются только один раз.

    M = ∑V/n = 171/9 = 19 дыхательных движений в минуту

    Вывод. Частота дыхания у мужчин в возрасте 35 лет в среднем равна 19 дыхательным движениям в минуту.

    Если отдельные значения вариант повторяются, незачем выписывать в линию каждую варианту, достаточно перечислить встречающиеся размеры вариант (V) и рядом указать число их повторений (р). такой вариационный ряд, в котором варианты как бы взвешиваются по числу соответствующих им частот, носит название – взвешенный вариационный ряд, а рассчитываемая средняя величина – средней арифметической взвешенной.

    Средняя арифметическая взвешенная определяется по формуле: M= ∑Vp/n

    где n – число наблюдений, равное сумме частот – Σр.

    Пример расчета средней арифметической взвешенной.

    Длительность нетрудоспособности (в днях) у 35 больных острыми респираторными заболеваниями (ОРЗ), лечившихся у участкового врача на протяжении I-го квартала текущего года составила: 6, 7, 5, 3, 9, 8, 7, 5, 6, 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6, 7 дней.

    Методика определения средней длительности нетрудоспособности у больных с ОРЗ следующая:

    1. Построим взвешенный вариационный ряд, т.к. отдельные значения вариант повторяются несколько раз. Для этого можно расположить все варианты в возрастающем или убывающем порядке с соответствующими им частотами.

    В нашем случае варианты расположены в возрастающем порядке

    2. Рассчитаем среднюю арифметическую взвешенную по формуле: M = ∑Vp/n = 233/35 = 6,7 дней

    Распределение больных с ОРЗ по длительности нетрудоспособности:

    Длительность нетрудоспособности (V) Число больных (p) Vp
    ∑p = n = 35 ∑Vp = 233

    Вывод. Длительность нетрудоспособности у больных с острыми респираторными заболеваниями составила в среднем 6,7 дней.

    Мода (Мо) – наиболее часто встречающаяся варианта в вариационном ряду. Для распределения, представленного в таблице, моде соответствует варианта, равная 10, она встречается чаще других – 6 раз.

    Распределение больных по длительности пребывания на больничной койке (в днях)

    V
    p

    Иногда точную величину моды установить трудно, поскольку в изучаемых данных может существовать несколько наблюдений, встречающихся «наиболее часто».

    Медиана (Ме) – непараметрический показатель, делящий вариационный ряд на две равные половины: в обе стороны от медианы располагается одинаковое число вариант.

    Например, для распределения, указанного в таблице, медиана равна 10, т.к. по обе стороны от этой величины располагается по 14 вариант, т.е. число 10 занимает центральное положение в этом ряду и является его медианой.

    Учитывая, что число наблюдений в этом примере четное (n=34), медиану можно определить таким образом:

    Me = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

    Это означает, что середина ряда приходится на семнадцатую по счету варианту, которой соответствует медиана, равная 10. Для распределения, представленного в таблице, средняя арифметическая равна:

    M = ∑Vp/n = 334/34 = 10,1

    Итак, для 34 наблюдений из табл. 8, мы получили: Мо=10, Ме=10, средняя арифметическая (М) равна 10,1. В нашем примере все три показателя оказались равными или близкими друг к другу, хотя они совершенно различны.

    Средняя арифметическая является результативной суммой всех влияний, в формировании ее принимают участие все без исключения варианты, в том числе и крайние, часто нетипичные для данного явления или совокупности.

    Мода и медиана, в отличие от средней арифметической, не зависят от величины всех индивидуальных значений варьирующего признака (значений крайних вариант и степени рассеяния ряда). Средняя арифметическая характеризует всю массу наблюдений, мода и медиана – основную массу



    Вверх