Взвешенная дисперсия формула. Расчёт групповой, межгрупповой и общей дисперсии (по правилу сложения дисперсий)

Основными обобщающими показателями вариации в статистике являются дисперсии и среднее квадратическое отклонение.

Дисперсия  это средняя арифметическая квадратов отклонений каждого значения признака от общей средней. Дисперсия обычно называется средним квадратом отклонений и обозначается  2 . В зависимости от исходных данных дисперсия может вычисляться по средней арифметической простой или взвешенной:

 дисперсия невзвешенная (простая);

 дисперсия взвешенная.

Среднее квадратическое отклонение  это обобщающая характеристика абсолютных размеров вариации признака в совокупности. Выражается оно в тех же единицах измерения, что и признак (в метрах, тоннах, процентах, гектарах и т. д.).

Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии и обозначается :

 среднее квадратическое отклонение невзвешенное;

 среднее квадратическое отклонение взвешенное.

Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше среднее квадратическое отклонение, тем лучше средняя арифметическая отражает всю представляемую совокупность.

Вычислению среднего квадратического отклонения предшествует расчет дисперсии.

Порядок расчета дисперсии взвешенной следующий:

1) определяют среднюю арифметическую взвешенную:

2) рассчитывают отклонения вариантов от средней:

3) возводят в квадрат отклонение каждого варианта от средней:

4) умножают квадраты отклонений на веса (частоты):

5) суммируют полученные произведения:

6) полученную сумму делят на сумму весов:

Пример 2.1

Исчислим среднюю арифметическую взвешенную:

Значения отклонений от средней и их квадратов представлены в таблице. Определим дисперсию:

Среднее квадратическое отклонение будет равно:

Если исходные данные представлены в виде интервального ряда распределения , то сначала нужно определить дискретное значение признака, а затем применить изложенный метод.

Пример 2.2

Покажем расчет дисперсии для интервального ряда на данных о распределении посевной площади колхоза по урожайности пшеницы.

Средняя арифметическая равна:

Исчислим дисперсию:

6.3. Расчет дисперсии по формуле по индивидуальным данным

Техника вычисления дисперсии сложна, а при больших значениях вариантов и частот может быть громоздкой. Расчеты можно упростить, используя свойства дисперсии.

Дисперсия имеет следующие свойства.

1. Уменьшение или увеличение весов (частот) варьирующего признака в определенное число раз дисперсию не изменяет.

2. Уменьшение или увеличение каждого значения признака на одну и ту же постоянную величину А дисперсию не изменяет.

3. Уменьшение или увеличение каждого значения признака в какое-то число раз k соответственно уменьшает или увеличивает дисперсию в k 2 раз, а среднее квадратическое отклонение  в k раз.

4. Дисперсия признака относительно произвольной величины всегда больше дисперсии относительно средней арифметической на квадрат разности между средней и произвольной величинами:

Если А  0, то приходим к следующему равенству:

т. е. дисперсия признака равна разности между средним квадратом значений признака и квадратом средней.

Каждое свойство при расчете дисперсии может быть применено самостоятельно или в сочетании с другими.

Порядок расчета дисперсии простой:

1) определяют среднюю арифметическую :

2) возводят в квадрат среднюю арифметическую:

3) возводят в квадрат отклонение каждого варианта ряда:

х i 2 .

4) находят сумму квадратов вариантов:

5) делят сумму квадратов вариантов на их число, т. е. определяют средний квадрат:

6) определяют разность между средним квадратом признака и квадратом средней:

Пример 3.1 Имеются следующие данные о производительности труда рабочих:

Произведем следующие расчеты:

Дисперсия в статистике определяется как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. Распространенный способ расчета квадратов отклонений вариантов от средней с их последующим усреднением.

В экономически-статистическом анализе вариацию признака принято оценивать чаще всего с помощью среднего квадратического отклонения, оно представляет собой корень квадратный из дисперсии.

(3)

Характеризует абсолютную колеблемость значений варьирующего признака выражается в тех же единицах измерения, что и варианты. В статистике часто возникает необходимость сравнения вариации различных признаков. Для таких сравнений используется относительный показатель вариации, коэффициент вариации.

Свойства дисперсии:

1)если из всех вариант вычесть какое-либо число, то дисперсия от этого не изменится;

2) если все значения вариант разделить на какое-либо число b, то дисперсия уменьшится в b^2 раз, т.е.

3) если исчислить средний квадрат отклонений от какого-либо числа с неравного средней арифметической, то он будет больше дисперсии . При этом на вполне определенную величину на квадрат разности между средней величиной поc.

Дисперсию можно определить как разницу между средним квадратом и средней в квадрате.

17. Групповая и межгрупповая вариации. Правило сложения дисперсии

Если статистическая совокупность разбита на группы или части по изучаемому признаку, то для такой совокупности могут быть исчислены следующие виды дисперсии: групповые (частные), средне групповые (частных), и межгрупповая.

Общая дисперсия – отражает вариацию признака за счет всех условий и причин, действующих в данной статистической совокупности.

Групповая дисперсия - равна среднему квадрату отклонений отдельных значений признака внутри группы от средней арифметической этой группы, называемой групповой средней. При этом групповая средняя не совпадает с общей средней для всей совокупности.

Групповая дисперсия отражает вариацию признака только за счет условий и причин, действующих внутри группы.

Средняя групповых дисперсий - определяется как среднее взвешенное арифметическое из дисперсий групповых, причем весами являются объемы групп.

Межгрупповая дисперсия - равна среднему квадрату отклонений групповых средних от общей средней.

Межгрупповая дисперсия характеризует вариацию результативного признака за счет группировочного признака.

Между рассмотренными видами дисперсий существует определенное соотношение: общая дисперсия равна сумме средней групповой и межгрупповой дисперсии.

Это соотношение называется правилом сложения дисперсии.

18. Динамический ряд и его составные элементы. Виды динамических рядов.

Ряд в статистике - это цифровые данные, показывающие, изменение явления во времени или в пространстве и дающие возможность производить статистическое сравнение явлений как в процессе их развития во времени, так и по различным формам и видам процессов. Благодаря этому можно обнаружить взаимную зависимость явлений.

Процесс развития движения социальных явлений во времени в статистике принято называть динамикой. Для отображения динамики строят ряды динамики (хронологические, временные), которые представляют собой ряды изменяющихся во времени значений статистического показателя (например, число осуждённых за 10 лет), расположенных в хронологическом порядке. Их составными элементами являются цифровые значения данного показателя и периоды или моменты времени, к которым они относятся.

Важнейшая характеристика рядов динамики - их размер (объём, величина) того или иного явления, достигнутых в определённых период или к определённому моменту. Соответственно, величина членов ряда динамики - его уровень. Различают начальный, средний и конечный уровни динамического ряда. Начальный уровень показывает величину первого, конечный - величину последнего члена ряда. Средний уровень представляет собой среднюю хронологическую вариационного рада и исчисляется в зависимости от того, является ли динамический ряд интервальным или моментным.

Ещё одна важная характеристика динамического ряда - время, прошедшее от начального до конечного наблюдения, или число таких наблюдений.

Существуют различные виды рядов динамики, их можно классифицировать по следующим признакам.

1) В зависимости от способа выражения уровней ряды динамики подразделяются на ряды абсолютных и производных показателей (относительных и средних величин).

2) В зависимости от того, как выражают уровни ряда состояние явления на определённые моменты времени (на начало месяца, квартала, года и т.п.) или его величину за определённые интервалы времени (например, за сутки, месяц, год и т.п.), различают соответственно моментные и интервальные ряды динамики. Моментные ряды в аналитической работе правоохранительных органов используются сравнительно редко.

В теории статистики выделяют рады динамики и по ряду других классификационных признаков: в зависимости от расстояния между уровнями - с равностоящими уровнями и неравностоящими уровнями во времени; в зависимости от наличия основной тенденции изучаемого процесса - стационарные и не стационарные. При анализе динамических рядов исходят из следующего уровни ряда представляют в виде составляющих:

Y t = TP + Е (t)

где ТР – детерминированная составляющая определяющая общую тенденцию изменения во времени или тренд.

Е (t) – случайная компонента, вызывающая колеблимость уровней.

Вариационный размах (или размах вариации) - это разница между максимальным и минимальным значениями признака:

В нашем примере размах вариации сменной выработки рабочих составляет: в первой бригаде R=105-95=10 дет., во второй бригаде R=125-75=50 дет. (в 5 раз больше). Это говорит о том, что выработка 1-й бригады более «устойчива», но резервов роста выработки больше у второй бригады, т.к. в случае достижения всеми рабочими максимальной для этой бригады выработки, ею может быть изготовлено 3*125=375 деталей, а в 1-й бригаде только 105*3=315 деталей.
Если крайние значения признака не типичны для совокупности, то используют квартильный или децильный размахи. Квартильный размах RQ= Q3-Q1 охватывает 50% объема совокупности, децильный размах первый RD1 = D9-D1охватывает 80% данных, второй децильный размах RD2= D8-D2 – 60 %.
Недостатком показателя вариационного размаха является, но что его величина не отражает все колебания признака.
Простейшим обобщающим показателем, отражающим все колебания признака, является среднее линейное отклонение , представляющее собой среднюю арифметическую абсолютных отклонений отдельных вариант от их средней величины:

,
для сгруппированных данных
,
где хi – значение признака в дискретном ряду или середина интервала в интервальном распределении.
В вышеприведенных формулах разности в числителе взяты по модулю, иначе, согласно свойству средней арифметической, числитель всегда будет равен нулю. Поэтому среднее линейное отклонение в статистической практике применяют редко, только в тех случаях, когда суммирование показателей без учета знака имеет экономический смысл. С его помощью, например, анализируется состав работающих, рентабельность производства, оборот внешней торговли.
Дисперсия признака – это средний квадрат отклонений вариант от их средней величины:
простая дисперсия
,
взвешенная дисперсия
.
Формулу для расчета дисперсии можно упростить:

Таким образом, дисперсия равна разности средней из квадратов вариант и квадрата средней из вариант совокупности:
.
Однако, вследствие суммирования квадратов отклонений дисперсия дает искаженное представление об отклонениях, поэтому ее на основе рассчитывают среднее квадратическое отклонение , которое показывает, на сколько в среднем отклоняются конкретные варианты признака от их среднего значения. Вычисляется путем извлечения квадратного корня из дисперсии:
для несгруппированных данных
,
для вариационного ряда

Чем меньше значение дисперсии и среднего квадратического отклонения, тем однороднее совокупность, тем более надежной (типичной) будет средняя величина.
Среднее линейное и среднее квадратичное отклонение - именованные числа, т. е. выражаются в единицах измерения признака, идентичны по содержанию и близки по значению.
Рассчитывать абсолютные показатели вариации рекомендуется с помощью таблиц.
Таблица 3 – Расчет характеристик вариации (на примере срока данных о сменной выработке рабочих бригады)


Число рабочих,

Середина интервала,

Расчетные значения

Итого:

Среднесменная выработка рабочих:

Среднее линейное отклонение:

Дисперсия выработки:

Среднее квадратическое отклонение выработки отдельных рабочих от средней выработки:
.

1 Расчет дисперсии способом моментов

Вычисление дисперсий связано с громоздкими расчетами (особенно если средняя величина выражена большим числом с несколькими десятичными знаками). Расчеты можно упростить, если использовать упрощенную формулу и свойства дисперсии.
Дисперсия обладает следующими свойствами:

  1. если все значения признака уменьшить или увеличить на одну и ту же величину А, то дисперсия от этого не уменьшится:

,

, то или
Используя свойства дисперсии и сначала уменьшив все варианты совокупности на величину А, а затем разделив на величину интервала h, получим формулу вычисления дисперсии в вариационных рядах с равными интервалами способом моментов:
,
где – дисперсия, исчисленная по способу моментов;
h – величина интервала вариационного ряда;
– новые (преобразованные) значения вариант;
А– постоянная величина, в качестве которой используют середину интервала, обладающего наибольшей частотой; либо вариант, имеющий наибольшую частоту;
– квадрат момента первого порядка;
– момент второго порядка.
Выполним расчет дисперсии способом моментов на основе данных о сменной выработке рабочих бригады.
Таблица 4 – Расчет дисперсии по способу моментов


Группы рабочих по выработке, шт.

Число рабочих,

Середина интервала,

Расчетные значения

Порядок расчета:


  1. рассчитываем дисперсию:

2 Расчет дисперсии альтернативного признака

Среди признаков, изучаемых статистикой, есть и такие, которым свойственны лишь два взаимно исключающих значения. Это альтернативные признаки. Им придается соответственно два количественных значения: варианты 1 и 0. Частостью варианты 1, которая обозначается p, является доля единиц, обладающих данным признаком. Разность 1-р=q является частостью варианты 0. Таким образом,


хi

Средняя арифметическая альтернативного признака
, т. к. p+q=1.

Дисперсия альтернативного признака
, т.к. 1-р=q
Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, и доли единиц, не обладающих этим признаком.
Если значения 1 и 0 встречаются одинаково часто, т. е. p=q, дисперсия достигает своего максимума pq=0,25.
Дисперсия альтернативного признака используется в выборочных обследованиях, например, качества продукции.

3 Межгрупповая дисперсия. Правило сложения дисперсий

Дисперсия, в отличие от других характеристик вариации, является аддитивной величиной. То есть в совокупности, которая разделена на группы по факторному признаку х, дисперсия результативного признака y может быть разложена на дисперсию в каждой группе (внутригрупповую) и дисперсию между группами (межгрупповую). Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучение вариации в каждой группе, а также между этими группами.

Общая дисперсия измеряет вариацию признака у по всей совокупности под влиянием всех факторов, вызвавших эту вариацию (отклонения). Она равна среднему квадрату отклонений отдельных значений признака у от общей средней и может быть вычислена как простая или взвешенная дисперсия.
Межгрупповая дисперсия характеризует вариацию результативного признака у , вызванную влиянием признака-фактора х , положенного в основу группировки. Она характеризует вариацию групповых средних и равна среднему квадрату отклонений групповых средних от общей средней :
,
где – средняя арифметическая i-той группы;
– численность единиц в i-той группе (частота i-той группы);
– общая средняя совокупности.
Внутригрупповая дисперсия отражает случайную вариацию, т. е. ту часть вариации, которая вызвана влиянием неучтенных факторов и не зависит от признака-фактора, положенного в основу группировки. Она характеризует вариацию индивидуальных значений относительно групповых средних, равна среднему квадрату отклонений отдельных значений признака у внутри группы от средней арифметической этой группы (групповой средней) и вычисляется как простая или взвешенная дисперсия для каждой группы:
или ,
где – число единиц в группе.
На основании внутригрупповых дисперсий по каждой группе можно определить общую среднюю из внутригрупповых дисперсий :
.
Взаимосвязь между тремя дисперсиями получила название правила сложения дисперсий , согласно которому общая дисперсия равна сумме межгрупповой дисперсии и средней из внутригрупповых дисперсий:

Пример . При изучении влияния тарифного разряда (квалификации) рабочих на уровень производительности их труда получены следующие данные.
Таблица 5 – Распределение рабочих по среднечасовой выработке.



п/п

Рабочие 4-го разряда

Рабочие 5-го разряда

Выработка
рабочего, шт.,

Выработка
рабочего, шт.,

1
2
3
4
5
6

7
9
9
10
12
13

7-10=-3
9-10=-1
-1
0
2
3

9
1
1
0
4
9

1
2
3
4

14
14
15
17

14-15=-1
-1
0
2

1
1
0
4

В данном примере рабочие разделены на две группы по факторному признаку х – квалификации, которая характеризуется их разрядом. Результативный признак – выработка – варьируется как под его влиянием (межгрупповая вариация), так и за счет других случайных факторов (внутригрупповая вариация). Задача заключается в измерении этих вариаций с помощью трех дисперсий: общей, межгрупповой и внутригрупповой. Эмпирический коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х . Остальная часть общей вариации у вызвана изменением прочих факторов.
В примере эмпирический коэффициент детерминации равен:
или 66,7 %,
Это означает, что на 66,7% вариация производительности труда рабочих обусловлена различиями в квалификации, а на 33,3% – влиянием прочих факторов.
Эмпирическое корреляционное отношение показывает тесноту связи между группировочным и результативными признаками. Рассчитывается как корень квадратный из эмпирического коэффициента детерминации:

Эмпирическое корреляционное отношение , как и , может принимать значения от 0 до 1.
Если связь отсутствует, то =0. В этом случае =0, то есть групповые средние равны между собой и межгрупповой вариации нет. Значит группировочный признак – фактор не влияет на образование общей вариации.
Если связь функциональная, то =1. В этом случае дисперсия групповых средних равна общей дисперсии (), то есть внутригрупповой вариации нет. Это означает, что группировочный признак полностью определяет вариацию изучаемого результативного признака.
Чем ближе значение корреляционного отношения к единице, тем теснее, ближе к функциональной зависимости связь между признаками.
Для качественной оценки тесноты связи между признаками пользуются соотношениями Чэддока.

В примере , что свидетельствует о тесной связи между производительностью труда рабочих и их квалификацией.

Дисперсия — это мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Является наиболее используемой мерой рассеяния в статистике, вычисляемая путем суммирования, возведенного в квадрат, отклонения каждого значения данных от средней величины. Формула для вычисления дисперсии представлена ниже:

s 2 – дисперсия выборки;

x ср — среднее значение выборки;

n размер выборки (количество значений данных),

(x i – x ср) — отклонение от средней величины для каждого значения набора данных.

Для лучшего понимания формулы, разберем пример. Я не очень люблю готовку, поэтому занятием этим занимаюсь крайне редко. Тем не менее, чтобы не умереть с голоду, время от времени мне приходится подходить к плите для реализации замысла по насыщению моего организма белками, жирами и углеводами. Набор данных, редставленный ниже, показывает, сколько раз Ренат готовит пищу каждый месяц:

Первым шагом при вычислении дисперсии является определение среднего значения выборки, которое в нашем примере равняется 7,8 раза в месяц. Остальные вычисления можно облегчить с помощью следующей таблицы.

Финальная фаза вычисления дисперсии выглядит так:

Для тех, кто любит производить все вычисления за один раз, уравнение будет выглядеть следующим образом:

Использование метода «сырого счета» (пример с готовкой)

Существует более эффективный способ вычисления дисперсии, известный как метод «сырого счета». Хотя с первого взгляда уравнение может показаться весьма громоздким, на самом деле оно не такое уж страшное. Можете в этом удостовериться, а потом и решите, какой метод вам больше нравится.

— сумма каждого значения данных после возведения в квадрат,

— квадрат суммы всех значений данных.

Не теряйте рассудок прямо сейчас. Позвольте представить все это в виде таблицы, и тогда вы увидите, что вычислений здесь меньше, чем в предыдущем примере.

Как видите, результат получился тот же, что и при использовании предыдущего метода. Достоинства данного метода становятся очевидными по мере роста размера выборки (n).

Расчет дисперсии в Excel

Как вы уже, наверное, догадались, в Excel присутствует формула, позволяющая рассчитать дисперсию. Причем, начиная с Excel 2010 можно найти 4 разновидности формулы дисперсии:

1) ДИСП.В – Возвращает дисперсию по выборке. Логические значения и текст игнорируются.

2) ДИСП.Г — Возвращает дисперсию по генеральной совокупности. Логические значения и текст игнорируются.

3) ДИСПА — Возвращает дисперсию по выборке с учетом логических и текстовых значений.

4) ДИСПРА — Возвращает дисперсию по генеральной совокупности с учетом логических и текстовых значений.

Для начала разберемся в разнице между выборкой и генеральной совокупностью. Назначение описательной статистики состоит в том, чтобы суммировать или отображать данные так, чтобы оперативно получать общую картину, так сказать, обзор. Статистический вывод позволяет делать умозаключения о какой-либо совокупности на основе выборки данных из этой совокупности. Совокупность представляет собой все возможные исходы или измерения, представляющие для нас интерес. Выборка — это подмножество совокупности.

Например, нас интересует совокупность группы студентов одного из Российских ВУЗов и нам необходимо определить средний бал группы. Мы можем посчитать среднюю успеваемость студентов, и тогда полученная цифра будет параметром, поскольку в наших расчетах будет задействована целая совокупность. Однако, если мы хотим рассчитать средний бал всех студентов нашей страны, тогда эта группа будет нашей выборкой.

Разница в формуле расчета дисперсии между выборкой и совокупностью заключается в знаменателе. Где для выборки он будет равняться (n-1), а для генеральной совокупности только n.

Теперь разберемся с функциями расчета дисперсии с окончаниями А, в описании которых сказано, что при расчете учитываются текстовые и логические значения. В данном случае при расчете дисперсии определенного массива данных, где встречаются не числовые значения, Excel будет интерпретировать текстовые и ложные логические значения как равными 0, а истинные логические значения как равными 1.

Итак, если у вас есть массив данных, рассчитать его дисперсию ни составит никакого труда, воспользовавшись одной из перечисленных выше функций Excel.

На данной странице описан стандартный пример нахождения дисперсии, также Вы можете посмотреть другие задачи на её нахождение

Пример 1. Определение групповой, средней из групповой, межгрупповой и общей дисперсии

Пример 2. Нахождение дисперсии и коэффициента вариации в группировочной таблице

Пример 3. Нахождение дисперсии в дискретном ряду

Пример 4. Имеются следующие данные по группе из 20 студентов заочного отделения. Нужно построить интервальный ряд распределения признака, рассчитать среднее значение признака и изучить его дисперсию

Построим интервальную группировку. Определим размах интервала по формуле:

где X max– максимальное значение группировочного признака;
X min–минимальное значение группировочного признака;
n – количество интервалов:

Принимаем n=5. Шаг равен: h = (192 - 159)/ 5 = 6,6

Составим интервальную группировку

Для дальнейших расчетов построим вспомогательную таблицу:

X"i– середина интервала. (например середина интервала 159 – 165,6 = 162,3)

Среднюю величину роста студентов определим по формуле средней арифметической взвешенной:

Определим дисперсию по формуле:

Формулу можно преобразовать так:

Из этой формулы следует, что дисперсия равна разности средней из квадратов вариантов и квадрата и средней.

Дисперсия в вариационных рядах с равными интервалами по способу моментов может быть рассчитана следующим способом при использовании второго свойства дисперсии (разделив все варианты на величину интервала). Определении дисперсии , вычисленной по способу моментов, по следующей формуле менее трудоемок:

где i - величина интервала;
А - условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой;
m1 - квадрат момента первого порядка;
m2 - момент второго порядка

Дисперсия альтернативного признака (если в статистической совокупности признак изменяется так, что имеются только два взаимно исключающих друг друга варианта, то такая изменчивость называется альтернативной) может быть вычислена по формуле:

Подставляя в данную формулу дисперсии q =1- р, получаем:

Виды дисперсии

Общая дисперсия измеряет вариацию признака по всей совокупности в целом под влиянием всех факторов, обуславливающих эту вариацию. Она равняется среднему квадрату отклонений отдельных значений признака х от общего среднего значения х и может быть определена как простая дисперсия или взвешенная дисперсия.

Внутригрупповая дисперсия характеризует случайную вариацию, т.е. часть вариации, которая обусловлена влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Такая дисперсия равна среднему квадрату отклонений отдельных значений признака внутри группы X от средней арифметической группы и может быть вычислена как простая дисперсия или как взвешенная дисперсия.



Таким образом, внутригрупповая дисперсия измеряет вариацию признака внутри группы и определяется по формуле:

где хi - групповая средняя;
ni - число единиц в группе.

Например, внутригрупповые дисперсии, которые надо определить в задаче изучения влияния квалификации рабочих на уровень производительности труда в цехе показывают вариации выработки в каждой группе, вызванные всеми возможными факторами (техническое состояние оборудования, обеспеченность инструментами и материалами, возраст рабочих, интенсивность труда и т.д.), кроме отличий в квалификационном разряде (внутри группы все рабочие имеют одну и ту же квалификацию).



Вверх