Как рассчитать 95 доверительный интервал. Доверительные интервалы для частот и долей. Доверительные интервалы и этические проблемы

Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов - слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал . Цель данного исследования - провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.

Доверительный интервал - вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.

Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.

Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:

  • через медиану и среднеквадратическое отклонение;
  • через критическое значение t-статистики (коэффициент Стьюдента).

Этапы сравнительного анализа разных способов расчета ДИ:

1. формируем выборку данных;

2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;

3. рассчитываем доверительный интервал двумя способами;

4. анализируем очищенные выборки и полученные доверительные интервалы.

Этап 1. Выборка данных

Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».

Таблица 1. Исходная выборка

Цена 1 кв.м., д.е.

Рис.1. Исходная выборка



Этап 2. Обработка исходной выборки

Обработка выборки методами статистики требует вычисления следующих значений:

1. Среднее арифметическое значение

2. Медиана - число, характеризующее выборку: ровно половина элементов выборки больше медианы, другая половина меньше медианы

(для выборки, имеющей нечетное число значений)

3. Размах - разница между максимальным и минимальным значениями в выборке

4. Дисперсия - используется для более точного оценивания вариации данных

5. Среднеквадратическое отклонение по выборке (далее - СКО) - наиболее распространённый показатель рассеивания значений корректировок вокруг среднего арифметического значения.

6. Коэффициент вариации - отражает степень разбросанности значений корректировок

7. коэффициент осцилляции - отражает относительное колебание крайних значений цен в выборке вокруг средней

Таблица 2. Статистические показатели исходной выборки

Коэффициент вариации, который характеризует однородность данных, составляет 12,29%, однако коэффициент осцилляции слишком велик. Таким образом, мы можем утверждать, что исходная выборка не является однородной, поэтому перейдем к расчету доверительного интервала.

Этап 3. Расчёт доверительного интервала

Способ 1. Расчёт через медиану и среднеквадратическое отклонение.

Доверительный интервал определяется следующим образом: минимальное значение - из медианы вычитается СКО; максимальное значение - к медиане прибавляется СКО.

Таким образом, доверительный интервал (47179 д.е.; 60689 д.е.)

Рис. 2. Значения, попавшие в доверительный интервал 1.



Способ 2. Построение доверительного интервала через критическое значение t-статистики (коэффициент Стьюдента)

С.В. Грибовский в книге «Математические методы оценки стоимости имущества» описывает способ вычисления доверительного интервала через коэффициент Стьюдента. При расчете этим методом оценщик должен сам задать уровень значимости ∝, определяющий вероятность, с которой будет построен доверительный интервал. Обычно используются уровни значимости 0,1; 0,05 и 0,01. Им соответствуют доверительные вероятности 0,9; 0,95 и 0,99. При таком методе полагают истинные значения математического ожидания и дисперсии практически неизвестными (что почти всегда верно при решении практических задач оценки).

Формула доверительного интервала:

n - объем выборки;

Критическое значение t- статистики (распределения Стьюдента) с уровнем значимости ∝,числом степеней свободы n-1,которое определяется по специальным статистическим таблицам либо с помощью MS Excel ( →"Статистические"→ СТЬЮДРАСПОБР);

∝ - уровень значимости, принимаем ∝=0,01.

Рис. 2. Значения, попавшие в доверительный интервал 2.

Этап 4. Анализ разных способов расчета доверительного интервала

Два способа расчета доверительного интервала - через медиану и коэффициент Стьюдента - привели к разным значениям интервалов. Соответственно, получилось две различные очищенные выборки.

Таблица 3. Статистические показатели по трем выборкам.

Показатель

Исходная выборка

1 вариант

2 вариант

Среднее значение

Дисперсия

Коэф. вариации

Коэф. осциляции

Количество выбывших объектов, шт.

На основании выполненных расчетов можно сказать, что полученные разными методами значения доверительных интервалов пересекаются, поэтому можно использовать любой из способов расчета на усмотрение оценщика.

Однако мы считаем, что при работе в системе estimatica.pro целесообразно выбирать метод расчета доверительного интервала в зависимости от степени развитости рынка:

  • если рынок неразвит, применять метод расчета через медиану и среднеквадратическое отклонение, так как количество выбывших объектов в этом случае невелико;
  • если рынок развит, применять расчет через критическое значение t-статистики (коэффициент Стьюдента), так как есть возможность сформировать большую исходную выборку.

При подготовке статьи были использованы:

1. Грибовский С.В., Сивец С.А., Левыкина И.А. Математические методы оценки стоимости имущества. Москва, 2014 г.

2. Данные системы estimatica.pro

Одним из методов решения статистических задач является вычисление доверительного интервала. Он используется, как более предпочтительная альтернатива точечной оценке при небольшом объеме выборки. Нужно отметить, что сам процесс вычисления доверительного интервала довольно сложный. Но инструменты программы Эксель позволяют несколько упростить его. Давайте узнаем, как это выполняется на практике.

Этот метод используется при интервальной оценке различных статистических величин. Главная задача данного расчета – избавится от неопределенностей точечной оценки.

В Экселе существуют два основных варианта произвести вычисления с помощью данного метода: когда дисперсия известна, и когда она неизвестна. В первом случае для вычислений применяется функция ДОВЕРИТ.НОРМ , а во втором — ДОВЕРИТ.СТЮДЕНТ .

Способ 1: функция ДОВЕРИТ.НОРМ

Оператор ДОВЕРИТ.НОРМ , относящийся к статистической группе функций, впервые появился в Excel 2010. В более ранних версиях этой программы используется его аналог ДОВЕРИТ . Задачей этого оператора является расчет доверительного интервала с нормальным распределением для средней генеральной совокупности.

Его синтаксис выглядит следующим образом:

ДОВЕРИТ.НОРМ(альфа;стандартное_откл;размер)

«Альфа» — аргумент, указывающий на уровень значимости, который применяется для расчета доверительного уровня. Доверительный уровень равняется следующему выражению:

(1-«Альфа»)*100

«Стандартное отклонение» — это аргумент, суть которого понятна из наименования. Это стандартное отклонение предлагаемой выборки.

«Размер» — аргумент, определяющий величину выборки.

Все аргументы данного оператора являются обязательными.

Функция ДОВЕРИТ имеет точно такие же аргументы и возможности, что и предыдущая. Её синтаксис таков:

ДОВЕРИТ(альфа;стандартное_откл;размер)

Как видим, различия только в наименовании оператора. Указанная функция в целях совместимости оставлена в Excel 2010 и в более новых версиях в специальной категории «Совместимость» . В версиях же Excel 2007 и ранее она присутствует в основной группе статистических операторов.

Граница доверительного интервала определяется при помощи формулы следующего вида:

X+(-)ДОВЕРИТ.НОРМ

Где X – это среднее выборочное значение, которое расположено посередине выбранного диапазона.

Теперь давайте рассмотрим, как рассчитать доверительный интервал на конкретном примере. Было проведено 12 испытаний, вследствие которых были получены различные результаты, занесенные в таблицу. Это и есть наша совокупность. Стандартное отклонение равно 8. Нам нужно рассчитать доверительный интервал при уровне доверия 97%.

  1. Выделяем ячейку, куда будет выводиться результат обработки данных. Щелкаем по кнопке «Вставить функцию» .
  2. Появляется Мастер функций . Переходим в категорию «Статистические» и выделяем наименование «ДОВЕРИТ.НОРМ» . После этого клацаем по кнопке «OK» .
  3. Открывается окошко аргументов. Его поля закономерно соответствуют наименованиям аргументов.
    Устанавливаем курсор в первое поле – «Альфа» . Тут нам следует указать уровень значимости. Как мы помним, уровень доверия у нас равен 97%. В то же время мы говорили, что он рассчитывается таким путем:

    (1-уровень доверия)/100

    То есть, подставив значение, получаем:

    Путем нехитрых расчетов узнаем, что аргумент «Альфа» равен 0,03 . Вводим данное значение в поле.

    Как известно, по условию стандартное отклонение равно 8 . Поэтому в поле «Стандартное отклонение» просто записываем это число.

    В поле «Размер» нужно ввести количество элементов проведенных испытаний. Как мы помним, их 12 . Но чтобы автоматизировать формулу и не редактировать её каждый раз при проведении нового испытания, давайте зададим данное значение не обычным числом, а при помощи оператора СЧЁТ . Итак, устанавливаем курсор в поле «Размер» , а затем кликаем по треугольнику, который размещен слева от строки формул.

    Появляется список недавно применяемых функций. Если оператор СЧЁТ применялся вами недавно, то он должен быть в этом списке. В таком случае, нужно просто кликнуть по его наименованию. В обратном же случае, если вы его не обнаружите, то переходите по пункту «Другие функции…» .

  4. Появляется уже знакомый нам Мастер функций . Опять перемещаемся в группу «Статистические» . Выделяем там наименование «СЧЁТ» . Клацаем по кнопке «OK» .
  5. Появляется окно аргументов вышеуказанного оператора. Данная функция предназначена для того, чтобы вычислять количество ячеек в указанном диапазоне, которые содержат числовые значения. Синтаксис её следующий:

    СЧЁТ(значение1;значение2;…)

    Группа аргументов «Значения» представляет собой ссылку на диапазон, в котором нужно рассчитать количество заполненных числовыми данными ячеек. Всего может насчитываться до 255 подобных аргументов, но в нашем случае понадобится лишь один.

    Устанавливаем курсор в поле «Значение1» и, зажав левую кнопку мыши, выделяем на листе диапазон, который содержит нашу совокупность. Затем его адрес будет отображен в поле. Клацаем по кнопке «OK» .

  6. После этого приложение произведет вычисление и выведет результат в ту ячейку, где она находится сама. В нашем конкретном случае формула получилась такого вида:

    ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

    Общий результат вычислений составил 5,011609 .

  7. Но это ещё не все. Как мы помним, граница доверительного интервала вычисляется путем сложения и вычитания от среднего выборочного значения результата вычисления ДОВЕРИТ.НОРМ . Таким способом рассчитывается соответственно правая и левая граница доверительного интервала. Само среднее выборочное значение можно рассчитать при помощи оператора СРЗНАЧ .

    Данный оператор предназначен для расчета среднего арифметического значения выбранного диапазона чисел. Он имеет следующий довольно простой синтаксис:

    СРЗНАЧ(число1;число2;…)

    Аргумент «Число» может быть как отдельным числовым значением, так и ссылкой на ячейки или даже целые диапазоны, которые их содержат.

    Итак, выделяем ячейку, в которую будет выводиться расчет среднего значения, и щелкаем по кнопке «Вставить функцию» .

  8. Открывается Мастер функций . Снова переходим в категорию «Статистические» и выбираем из списка наименование «СРЗНАЧ» . Как всегда, клацаем по кнопке «OK» .
  9. Запускается окно аргументов. Устанавливаем курсор в поле «Число1» и с зажатой левой кнопкой мыши выделяем весь диапазон значений. После того, как координаты отобразились в поле, клацаем по кнопке «OK» .
  10. После этого СРЗНАЧ выводит результат расчета в элемент листа.
  11. Производим расчет правой границы доверительного интервала. Для этого выделяем отдельную ячейку, ставим знак «=» и складываем содержимое элементов листа, в которых расположены результаты вычислений функций СРЗНАЧ и ДОВЕРИТ.НОРМ . Для того, чтобы выполнить расчет, жмем на клавишу Enter . В нашем случае получилась следующая формула:

    Результат вычисления: 6,953276

  12. Таким же образом производим вычисление левой границы доверительного интервала, только на этот раз от результата вычисления СРЗНАЧ отнимаем результат вычисления оператора ДОВЕРИТ.НОРМ . Получается формула для нашего примера следующего типа:

    Результат вычисления: -3,06994

  13. Мы попытались подробно описать все действия по вычислению доверительного интервала, поэтому детально расписали каждую формулу. Но можно все действия соединить в одной формуле. Вычисление правой границы доверительного интервала можно записать так:

    СРЗНАЧ(B2:B13)+ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

  14. Аналогичное вычисление левой границы будет выглядеть так:

    СРЗНАЧ(B2:B13)-ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

Способ 2: функция ДОВЕРИТ.СТЮДЕНТ

Кроме того, в Экселе есть ещё одна функция, которая связана с вычислением доверительного интервала – ДОВЕРИТ.СТЮДЕНТ . Она появилась, только начиная с Excel 2010. Данный оператор выполняет вычисление доверительного интервала генеральной совокупности с использованием распределения Стьюдента. Его очень удобно использовать в том случае, когда дисперсия и, соответственно, стандартное отклонение неизвестны. Синтаксис оператора такой:

ДОВЕРИТ.СТЬЮДЕНТ(альфа;стандартное_откл;размер)

Как видим, наименования операторов и в этом случае остались неизменными.

Посмотрим, как рассчитать границы доверительного интервала с неизвестным стандартным отклонением на примере всё той же совокупности, что мы рассматривали в предыдущем способе. Уровень доверия, как и в прошлый раз, возьмем 97%.

  1. Выделяем ячейку, в которую будет производиться расчет. Клацаем по кнопке «Вставить функцию» .
  2. В открывшемся Мастере функций переходим в категорию «Статистические» . Выбираем наименование «ДОВЕРИТ.СТЮДЕНТ» . Клацаем по кнопке «OK» .
  3. Производится запуск окна аргументов указанного оператора.

    В поле «Альфа» , учитывая, что уровень доверия составляет 97%, записываем число 0,03 . Второй раз на принципах расчета данного параметра останавливаться не будем.

    После этого устанавливаем курсор в поле «Стандартное отклонение» . На этот раз данный показатель нам неизвестен и его требуется рассчитать. Делается это при помощи специальной функции – СТАНДОТКЛОН.В . Чтобы вызвать окно данного оператора, кликаем по треугольнику слева от строки формул. Если в открывшемся списке не находим нужного наименования, то переходим по пункту «Другие функции…» .

  4. Запускается Мастер функций . Перемещаемся в категорию «Статистические» и отмечаем в ней наименование «СТАНДОТКЛОН.В» . Затем клацаем по кнопке «OK» .
  5. Открывается окно аргументов. Задачей оператора СТАНДОТКЛОН.В является определение стандартного отклонения при выборке. Его синтаксис выглядит так:

    СТАНДОТКЛОН.В(число1;число2;…)

    Нетрудно догадаться, что аргумент «Число» — это адрес элемента выборки. Если выборка размещена единым массивом, то можно, использовав только один аргумент, дать ссылку на данный диапазон.

    Устанавливаем курсор в поле «Число1» и, как всегда, зажав левую кнопку мыши, выделяем совокупность. После того, как координаты попали в поле, не спешим жать на кнопку «OK» , так как результат получится некорректным. Прежде нам нужно вернуться к окну аргументов оператора ДОВЕРИТ.СТЮДЕНТ , чтобы внести последний аргумент. Для этого кликаем по соответствующему наименованию в строке формул.

  6. Снова открывается окно аргументов уже знакомой функции. Устанавливаем курсор в поле «Размер» . Опять жмем на уже знакомый нам треугольник для перехода к выбору операторов. Как вы поняли, нам нужно наименование «СЧЁТ» . Так как мы использовали данную функцию при вычислениях в предыдущем способе, в данном списке она присутствует, так что просто щелкаем по ней. Если же вы её не обнаружите, то действуйте по алгоритму, описанному в первом способе.
  7. Попав в окно аргументов СЧЁТ , ставим курсор в поле «Число1» и с зажатой кнопкой мыши выделяем совокупность. Затем клацаем по кнопке «OK» .
  8. После этого программа производит расчет и выводит значение доверительного интервала.
  9. Для определения границ нам опять нужно будет рассчитать среднее значение выборки. Но, учитывая то, что алгоритм расчета при помощи формулы СРЗНАЧ тот же, что и в предыдущем способе, и даже результат не изменился, не будем на этом подробно останавливаться второй раз.
  10. Сложив результаты вычисления СРЗНАЧ и ДОВЕРИТ.СТЮДЕНТ , получаем правую границу доверительного интервала.
  11. Отняв от результатов расчета оператора СРЗНАЧ результат расчета ДОВЕРИТ.СТЮДЕНТ , имеем левую границу доверительного интервала.
  12. Если расчет записать одной формулой, то вычисление правой границы в нашем случае будет выглядеть так:

    СРЗНАЧ(B2:B13)+ДОВЕРИТ.СТЬЮДЕНТ(0,03;СТАНДОТКЛОН.В(B2:B13);СЧЁТ(B2:B13))

  13. Соответственно, формула расчета левой границы будет выглядеть так:

    СРЗНАЧ(B2:B13)-ДОВЕРИТ.СТЬЮДЕНТ(0,03;СТАНДОТКЛОН.В(B2:B13);СЧЁТ(B2:B13))

Как видим, инструменты программы Excel позволяют существенно облегчить вычисление доверительного интервала и его границ. Для этих целей используются отдельные операторы для выборок, у которых дисперсия известна и неизвестна.

В предыдущих подразделах мы рассмотрели вопрос об оценке неизвестного параметра а одним числом. Такая оценка называется «точечной». В ряде задач требуется не только найти для параметра а подходящее численное значение, но и оценить его точность и надежность. Требуется знать, к каким ошибкам может привести замена параметра а его точечной оценкой а и с какой степенью уверенности можно ожидать, что эти ошибки не выйдут за известные пределы?

Такого рода задачи особенно актуальны при малом числе наблюдений, когда точечная оценка а в значительной мере случайна и приближенная замена а на а может привести к серьезным ошибкам.

Чтобы дать представление о точности и надежности оценки а ,

в математической статистике пользуются так называемыми доверительными интервалами и доверительными вероятностями.

Пусть для параметра а получена из опыта несмещенная оценка а. Мы хотим оценить возможную при этом ошибку. Назначим некоторую достаточно большую вероятность р (например, р = 0,9, 0,95 или 0,99) такую, что событие с вероятностью р можно считать практически достоверным, и найдем такое значение s, для которого

Тогда диапазон практически возможных значений ошибки, возникающей при замене а на а , будет ± s; большие по абсолютной величине ошибки будут появляться только с малой вероятностью а = 1 - р. Перепишем (14.3.1) в виде:

Равенство (14.3.2) означает, что с вероятностью р неизвестное значение параметра а попадает в интервал

При этом необходимо отметить одно обстоятельство. Ранее мы неоднократно рассматривали вероятность попадания случайной величины в заданный неслучайный интервал. Здесь дело обстоит иначе: величина а не случайна, зато случаен интервал / р. Случайно его положение на оси абсцисс, определяемое его центром а ; случайна вообще и длина интервала 2s, так как величина s вычисляется, как правило, по опытным данным. Поэтому в данном случае лучше будет толковать величину р не как вероятность «попадания» точки а в интервал / р, а как вероятность того, что случайный интервал / р накроет точку а (рис. 14.3.1).

Рис. 14.3.1

Вероятность р принято называть доверительной вероятностью , а интервал / р - доверительным интервалом . Границы интервала If. а х =а- s и а 2 = а + а называются доверительными границами.

Дадим еще одно истолкование понятию доверительного интервала: его можно рассматривать как интервал значений параметра а, совместимых с опытными данными и не противоречащих им. Действительно, если условиться считать событие с вероятностью а = 1-р практически невозможным, то те значения параметра а, для которых а - а > s, нужно признать противоречащими опытным данным, а те, для которых |а - а a t na 2 .

Пусть для параметра а имеется несмещенная оценка а. Если бы нам был известен закон распределения величины а , задача нахождения доверительного интервала была бы весьма проста: достаточно было бы найти такое значение s, для которого

Затруднение состоит в том, что закон распределения оценки а зависит от закона распределения величины X и, следовательно, от его неизвестных параметров (в частности, и от самого параметра а).

Чтобы обойти это затруднение, можно применить следующий грубо приближенный прием: заменить в выражении для s неизвестные параметры их точечными оценками. При сравнительно большом числе опытов п (порядка 20...30) этот прием обычно дает удовлетворительные по точности результаты.

В качестве примера рассмотрим задачу о доверительном интервале для математического ожидания.

Пусть произведено п X, характеристики которой - математическое ожидание т и дисперсия D - неизвестны. Для этих параметров получены оценки:

Требуется построить доверительный интервал / р, соответствующий доверительной вероятности р, для математического ожидания т величины X.

При решении этой задачи воспользуемся тем, что величина т представляет собой сумму п независимых одинаково распределенных случайных величин X h и согласно центральной предельной теореме при достаточно большом п ее закон распределения близок к нормальному. На практике даже при относительно небольшом числе слагаемых (порядка 10...20) закон распределения суммы можно приближенно считать нормальным. Будем исходить из того, что величина т распределена по нормальному закону. Характеристики этого закона - математическое ожидание и дисперсия - равны соответственно т и

(см. главу 13 подраздел 13.3). Предположим, что величина D нам известна и найдем такую величину Ер, для которой

Применяя формулу (6.3.5) главы 6, выразим вероятность в левой части (14.3.5) через нормальную функцию распределения

где - среднее квадратичное отклонение оценки т.

Из уравнения

находим значение Sp:

где arg Ф* (х) - функция, обратная Ф* (х), т.е. такое значение аргумента, при котором нормальная функция распределения равна х.

Дисперсия D, через которую выражена величина а 1П, нам в точности не известна; в качестве ее ориентировочного значения можно воспользоваться оценкой D (14.3.4) и положить приближенно:

Таким образом, приближенно решена задача построения доверительного интервала, который равен:

где gp определяется формулой (14.3.7).

Чтобы избежать при вычислении s p обратного интерполирования в таблицах функции Ф* (л), удобно составить специальную таблицу (табл. 14.3.1), где приводятся значения величины

в зависимости от р. Величина (р определяет для нормального закона число средних квадратических отклонений, которое нужно отложить вправо и влево от центра рассеивания для того, чтобы вероятность попадания в полученный участок была равна р.

Через величину 7 р доверительный интервал выражается в виде:

Таблица 14.3.1

Пример 1. Проведено 20 опытов над величиной X; результаты приведены в табл. 14.3.2.

Таблица 14.3.2

Требуется найти оценку от для математического ожидания от величины X и построить доверительный интервал, соответствующий доверительной вероятности р = 0,8.

Решение. Имеем:

Выбрав за начало отсчета л: = 10, по третьей формуле (14.2.14) находим несмещенную оценку D :

По табл. 14.3,1 находим

Доверительные границы:

Доверительный интервал:

Значения параметра т, лежащие в этом интервале, являются совместимыми с опытными данными, приведенными в табл. 14.3.2.

Аналогичным способом может быть построен доверительный интервал и для дисперсии.

Пусть произведено п независимых опытов над случайной величиной X с неизвестными параметрами от и Л, и для дисперсии D получена несмещенная оценка:

Требуется приближенно построить доверительный интервал для дисперсии.

Из формулы (14.3.11) видно, что величина D представляет собой

сумму п случайных величин вида . Эти величины не являются

независимыми, так как в любую из них входит величина т, зависящая от всех остальных. Однако можно показать, что при увеличении п закон распределения их суммы тоже приближается к нормальному. Практически при п = 20...30 он уже может считаться нормальным.

Предположим, что это так, и найдем характеристики этого закона: математическое ожидание и дисперсию. Так как оценка D - несмещенная, то М[D] = D.

Вычисление дисперсии D D связано со сравнительно сложными выкладками, поэтому приведем ее выражение без вывода:

где ц 4 - четвертый центральный момент величины X.

Чтобы воспользоваться этим выражением, нужно подставить в него значения ц 4 и D (хотя бы приближенные). Вместо D можно воспользоваться его оценкой D . В принципе четвертый центральный момент тоже можно заменить его оценкой, например величиной вида:

но такая замена даст крайне невысокую точность, так как вообще при ограниченном числе опытов моменты высокого порядка определяются с большими ошибками. Однако на практике часто бывает, что вид закона распределения величины X известен заранее: неизвестны лишь его параметры. Тогда можно попытаться выразить ц 4 через D.

Возьмем наиболее часто встречающийся случай, когда величина X распределена по нормальному закону. Тогда ее четвертый центральный момент выражается через дисперсию (см. главу 6 подраздел 6.2);

и формула (14.3.12) дает или

Заменяя в (14.3.14) неизвестное D его оценкой D , получим: откуда

Момент ц 4 можно выразить через D также и в некоторых других случаях, когда распределение величины X не является нормальным, но вид его известен. Например, для закона равномерной плотности (см. главу 5) имеем:

где (а, Р) - интервал, на котором задан закон.

Следовательно,

По формуле (14.3.12) получим: откуда находим приближенно

В случаях, когда вид закона распределения величины 26 неизвестен, при ориентировочной оценке величины а /} рекомендуется все же пользоваться формулой (14.3.16), если нет специальных оснований считать, что этот закон сильно отличается от нормального (обладает заметным положительным или отрицательным эксцессом).

Если ориентировочное значение а /} тем или иным способом получено, то можно построить доверительный интервал для дисперсии аналогично тому, как мы строили его для математического ожидания:

где величина в зависимости от заданной вероятности р находится по табл. 14.3.1.

Пример 2. Найти приближенно 80%-й доверительный интервал для дисперсии случайной величины X в условиях примера 1, если известно, что величина X распределена по закону, близкому к нормальному.

Решение. Величина остается той же, что в табл. 14.3.1:

По формуле (14.3.16)

По формуле (14.3.18) находим доверительный интервал:

Соответствующий интервал значений среднего квадратичного отклонения: (0,21; 0,29).

14.4. Точные методы построения доверительных интервалов для параметров случайной величины, распределенной по нормальному закону

В предыдущем подразделе мы рассмотрели грубо приближенные методы построения доверительных интервалов для математического ожидания и дисперсии. Здесь мы дадим представление о точных методах решения той же задачи. Подчеркнем, что для точного нахождения доверительных интервалов совершенно необходимо знать заранее вид закона распределения величины X, тогда как для применения приближенных методов это не обязательно.

Идея точных методов построения доверительных интервалов сводится к следующему. Любой доверительный интервал находится из условия, выражающего вероятность выполнения некоторых неравенств, в которые входит интересующая нас оценка а. Закон распределения оценки а в общем случае зависит от неизвестных параметров величины X. Однако иногда удается перейти в неравенствах от случайной величины а к какой-либо другой функции наблюденных значений Х п Х 2 , ..., X п. закон распределения которой не зависит от неизвестных параметров, а зависит только от числа опытов и и от вида закона распределения величины X. Такого рода случайные величины играют большую роль в математической статистике; они наиболее подробно изучены для случая нормального распределения величины X.

Например, доказано, что при нормальном распределении величины X случайная величина

подчиняется так называемому закону распределения Стъюдента с п - 1 степенями свободы; плотность этого закона имеет вид

где Г (х) - известная гамма-функция:

Доказано также, что случайная величина

имеет «распределение % 2 » с п - 1 степенями свободы (см. главу 7), плотность которого выражается формулой

Не останавливаясь на выводах распределений (14.4.2) и (14.4.4), покажем, как их можно применить при построении доверительных интервалов для параметров ти D .

Пусть произведено п независимых опытов над случайной величиной X, распределенной по нормальному закону с неизвестными параметрами тиО. Для этих параметров получены оценки

Требуется построить доверительные интервалы для обоих параметров, соответствующие доверительной вероятности р.

Построим сначала доверительный интервал для математического ожидания. Естественно этот интервал взять симметричным относительно т ; обозначим s p половину длины интервала. Величину s p нужно выбрать так, чтобы выполнялось условие

Попытаемся перейти в левой части равенства (14.4.5) от случайной величины т к случайной величине Т, распределенной по закону Стьюдента. Для этого умножим обе части неравенства |m-w?|

на положительную величину: или, пользуясь обозначением (14.4.1),

Найдем такое число / р, что Величина / р найдется из условия

Из формулы (14.4.2) видно, что (1) - четная функция, поэтому (14.4.8) дает

Равенство (14.4.9) определяет величину / р в зависимости от р. Если иметь в своем распоряжении таблицу значений интеграла

то величину / р можно найти обратным интерполированием в таблице. Однако удобнее составить заранее таблицу значений / р. Такая таблица дается в приложении (табл. 5). В этой таблице приведены значения в зависимости от доверительной вероятности р и числа степеней свободы п - 1. Определив / р по табл. 5 и полагая

мы найдем половину ширины доверительного интервала / р и сам интервал

Пример 1. Произведено 5 независимых опытов над случайной величиной X, распределенной нормально с неизвестными параметрами т и о. Результаты опытов приведены в табл. 14.4.1.

Таблица 14.4.1

Найти оценку т для математического ожидания и построить для него 90%-й доверительный интервал / р (т.е. интервал, соответствующий доверительной вероятности р = 0,9).

Решение. Имеем:

По таблице 5 приложения для п - 1 = 4 и р = 0,9 находим откуда

Доверительный интервал будет

Пример 2. Для условий примера 1 подраздела 14.3, предполагая величину X распределенной нормально, найти точный доверительный интервал.

Решение. По таблице 5 приложения находим при п - 1 = 19ир =

0,8 / р =1,328; отсюда

Сравнивая с решением примера 1 подраздела 14.3 (е р = 0,072), убеждаемся, что расхождение весьма незначительно. Если сохранить точность до второго знака после запятой, то доверительные интервалы, найденные точным и приближенным методами, совпадают:

Перейдем к построению доверительного интервала для дисперсии. Рассмотрим несмещенную оценку дисперсии

и выразим случайную величину D через величину V (14.4.3), имеющую распределение х 2 (14.4.4):

Зная закон распределения величины V, можно найти интервал / (1 , в который она попадает с заданной вероятностью р.

Закон распределения k n _ x {v) величины I 7 имеет вид, изображенный на рис. 14.4.1.

Рис. 14.4.1

Возникает вопрос: как выбрать интервал / р? Если бы закон распределения величины V был симметричным (как нормальный закон или распределение Стьюдента), естественно было бы взять интервал /р симметричным относительно математического ожидания. В данном случае закон к п _ х (v) несимметричен. Условимся выбирать интервал /р так, чтобы вероятности выхода величины V за пределы интервала вправо и влево (заштрихованные площади на рис. 14.4.1) были одинаковы и равны

Чтобы построить интервал / р с таким свойством, воспользуемся табл. 4 приложения: в ней приведены числа у} такие, что

для величины V, имеющей х 2 -распределение с г степенями свободы. В нашем случае г = п - 1. Зафиксируем г = п - 1 и найдем в соответствующей строке табл. 4 два значения х 2 - одно, отвечающее вероятности другое - вероятности Обозначим эти

значения у 2 и xl ? Интервал имеет у 2 , своим левым, а у ~ правым концом.

Теперь найдем по интервалу / р искомый доверительный интервал /|, для дисперсии с границами D, и D 2 , который накрывает точку D с вероятностью р:

Построим такой интервал / (, = (?> ь А), который накрывает точку D тогда и только тогда, когда величина V попадает в интервал / р. Покажем, что интервал

удовлетворяет этому условию. Действительно, неравенства равносильны неравенствам

а эти неравенства выполняются с вероятностью р. Таким образом, доверительный интервал для дисперсии найден и выражается формулой (14.4.13).

Пример 3. Найти доверительный интервал для дисперсии в условиях примера 2 подраздела 14.3, если известно, что величинаX распределена нормально.

Решение. Имеем . По таблице 4 приложения

находим при г = п - 1 = 19

По формуле (14.4.13) находим доверительный интервал для дисперсии

Соответствующий интервал для среднего квадратичного отклонения: (0,21; 0,32). Этот интервал лишь незначительно превосходит полученный в примере 2 подраздела 14.3 приближенным методом интервал (0,21; 0,29).

  • На рисунке 14.3.1 рассматривается доверительный интервал, симметричный относительно а. Вообще, как мы увидим дальше, это необязательно.

Цель – научить студентов алгоритмам вычисления доверительных интервалов статистических параметров.

При статистической обработке данных вычисленные средняя арифметическая, коэффициент вариации, коэффициент корреляции, критерии различия и другие точечные статистики должны получить количественные границы доверия, которые обозначают возможные колебания показателя в меньшую и большую стороны в пределах доверительного интервала.

Пример 3.1 . Распределение кальция в сыворотке крови обезьян, как было установлено ранее, характеризуется следующими выборочными показателями: = 11,94 мг%;= 0,127 мг%;n = 100. Требуется определить доверительный интервал для генеральной средней () при доверительной вероятностиP = 0,95.

Генеральная средняя находится с определенной вероятностью в интервале:

, где – выборочная средняя арифметическая;t – критерий Стьюдента; – ошибка средней арифметической.

По таблице «Значения критерия Стьюдента» находим значение при доверительной вероятности 0,95 и числе степеней свободы k = 100-1 = 99. Оно равно 1,982. Вместе со значениями среднего арифметического и статистической ошибки подставляем его в формулу:

или 11,69
12,19

Таким образом, с вероятностью 95%, можно утверждать, что генеральная средняя данного нормального распределения находится между 11,69 и 12,19 мг%.

Пример 3.2 . Определите границы 95%-ного доверительного интервала для генеральной дисперсии () распределения кальция в крови обезьян, если известно, что
= 1,60, приn = 100.

Для решения задачи можно воспользоваться следующей формулой:

Где – статистическая ошибка дисперсии.

Находим ошибку выборочной дисперсии по формуле:
. Она равна 0,11. Значениеt - критерия при доверительной вероятности 0,95 и числе степеней свободы k = 100–1 = 99 известно из предыдущего примера.

Воспользуемся формулой и получим:

или 1,38
1,82

Более точно доверительный интервал генеральной дисперсии можно построить с применением (хи-квадрат) - критерия Пирсона. Критические точки для этого критерия приводятся в специальной таблице. При использовании критериядля построения доверительного интервала применяют двусторонний уровень значимости. Для нижней границы уровень значимости рассчитывается по формуле
, для верхней –
. Например, для доверительного уровня= 0,99= 0,010,= 0,990. Соответственно по таблице распределения критических значений, при рассчитанных доверительных уровнях и числе степеней свободыk = 100 – 1= 99, найдем значения
и
. Получаем
равно 135,80, а
равно70,06.

Чтобы найти доверительные границы генеральной дисперсии с помощью воспользуемся формулами: для нижней границы
, для верхней границы
. Подставим данные задачи найденные значенияв формулы:
= 1,17;
= 2,26. Таким образом, при доверительной вероятностиP = 0,99 или 99% генеральная дисперсия будет лежать в интервале от 1,17 до 2,26 мг% включительно.

Пример 3.3 . Среди 1000 семян пшеницы из поступившей на элеватор партии обнаружено 120 семян зараженных спорыньей. Необходимо определить вероятные границы генеральной доли зараженных семян в данной партии пшеницы.

Доверительные границы для генеральной доли при всех возможных ее значениях целесообразно определять по формуле:

,

Где n – число наблюдений; m – абсолютная численность одной из групп; t – нормированное отклонение.

Выборочная доля зараженных семян равна
или 12%. При доверительной вероятностиР = 95% нормированное отклонение (t -критерий Стьюдента при k =
)t = 1,960.

Подставляем имеющиеся данные в формулу:

Отсюда границы доверительного интервала равны= 0,122–0,041 = 0,081, или 8,1%;= 0,122 + 0,041 = 0,163, или 16,3%.

Таким образом, с доверительной вероятностью 95% можно утверждать, что генеральная доля зараженных семян находится между 8,1 и 16,3%.

Пример 3.4 . Коэффициент вариации, характеризующий варьирование кальция (мг%) в сыворотке крови обезьян, оказался равным 10,6%. Объем выборки n = 100. Необходимо определить границы 95%-ного доверительного интервала для генерального параметра Cv .

Границы доверительного интервала для генерального коэффициента вариации Cv определяются по следующим формулам:

и
, гдеK промежуточная величина, вычисляемая по формуле
.

Зная, что при доверительной вероятности Р = 95% нормированное отклонение (критерий Стьюдента при k =
)t = 1,960, предварительно рассчитаем величину К:

.

или 9,3%

или 12,3%

Таким образом, генеральный коэффициент вариации с доверительной вероятностью 95% лежит в интервале от 9,3 до 12,3%. При повторных выборках коэффициент вариации не превысит 12,3% и не окажется ниже 9,3% в 95 случаях из 100.

Вопросы для самоконтроля:

Задачи для самостоятельного решения.

1. Средний процент жира в молоке за лактацию коров холмогорских помесей был следующим: 3,4; 3,6; 3,2; 3,1; 2,9; 3,7; 3,2; 3,6; 4,0; 3,4; 4,1; 3,8; 3,4; 4,0; 3,3; 3,7; 3,5; 3,6; 3,4; 3,8. Установите доверительные интервалы для генеральной средней при доверительной вероятности 95% (20 баллов).

2. На 400 растениях гибридной ржи первые цветки появились в среднем на 70,5 день после посева. Среднее квадратическое отклонение было 6,9 дня. Определите ошибку средней и доверительные интервалы для генеральной средней и дисперсии при уровне значимости W = 0,05 и W = 0,01 (25 баллов).

3. При изучении длины листьев 502 экземпляров садовой земляники были получены следующие данные: = 7,86 см; σ = 1,32 см, =± 0,06 см. Определите доверительные интервалы для средней арифметической генеральной совокупности с уровнями значимости 0,01; 0,02; 0,05. (25 баллов).

4. При обследовании 150 взрослых мужчин средний рост был равен 167 см, а σ = 6 см. В каких пределах находится генеральная средняя и генеральная дисперсия с доверительной вероятностью 0,99 и 0,95? (25 баллов).

5. Распределение кальция в сыворотке крови обезьян характеризуется следующими выборочными показателями: = 11,94 мг%, σ = 1,27, n = 100. Постройте 95%-ный доверительный интервал для генеральной средней этого распределения. Рассчитайте коэффициент вариации (25 баллов).

6. Было изучено общее содержание азота в плазме крови крыс-альбиносов в возрасте 37 и 180 дней. Результаты выражены в граммах на 100 см 3 плазмы. В возрасте 37 дней 9 крыс имели: 0,98; 0,83; 0,99; 0,86; 0,90; 0,81; 0,94; 0,92; 0,87. В возрасте 180 дней 8 крыс имели: 1,20; 1,18; 1,33; 1,21; 1,20; 1,07; 1,13; 1,12. Установите доверительные интервалы для разницы с доверительной вероятностью 0,95 (50 баллов).

7. Определите границы 95%-ного доверительного интервала для генеральной дисперсии распределения кальция (мг%) в сыворотке крови обезьян, если для этого распределения объем выборки n = 100, статистическая ошибка выборочной дисперсии s σ 2 = 1,60 (40 баллов).

8. Определите границы 95%-ного доверительного интервала для генеральной дисперсии распределения 40 колосков пшеницы по длине (σ 2 = 40, 87 мм 2). (25 баллов).

9. Курение считают основным фактором, предрасполагающим к обструктивным заболеваниям легких. Пассивное курение таким фактором не считается. Ученые усомнились в безвредности пассивного курения и исследовали проходимость дыхательных путей у некурящих, пассивных и активных курильщиков. Для характеристики состояния дыхательных путей взяли один из показателей функции внешнего дыхания – максимальную объемную скорость середины выдоха. Уменьшение этого показателя – признак нарушения проходимости дыхательных путей. Данные обследования приведены в таблице.

Число обследованных

Максимальная объемная скорость середины выдоха, л/с

Стандартное отклонение

Некурящие

работают в помещении, где не курят

работают в накуренном помещении

Курящие

выкуривающие небольшое число сигарет

выкуривающие среднее число сигарет

выкуривающие большое число сигарет

По данным таблицы найдите 95% доверительные интервалы для генеральной средней и генеральной дисперсии для каждой из групп. В чем заключаются различия между группами? Результаты представьте графически (25 баллов).

10. Определите границы 95%-ного и 99%-ного доверительного интервала для генеральной дисперсии численности поросят в 64 опоросах, если статистическая ошибка выборочной дисперсии s σ 2 = 8, 25 (30 баллов).

11. Известно, что средняя масса кроликов составляет 2,1 кг. Определите границы 95%-ного и 99%-ного доверительного интервала для генеральной средней и дисперсии при n = 30, σ = 0,56 кг (25 баллов).

12. У 100 колосьев измеряли озерненность колоса (Х ), длину колоса (Y ) и массу зерна в колосе (Z ). Найти доверительные интервалы для генеральной средней и дисперсии при P 1 = 0,95, P 2 = 0,99, P 3 = 0,999, если = 19, = 6,766 см, = 0,554 г; σ x 2 = 29, 153, σ y 2 = 2, 111, σ z 2 = 0, 064. (25 баллов).

13. В отобранных случайным образом 100 колосьях озимой пшеницы подсчитывалось число колосков. Выборочная совокупность характеризовалась следующими показателями: = 15 колосков и σ = 2,28 шт. Определите, с какой точностью получен средний результат () и постройте доверительный интервал для генеральной средней и дисперсии при 95% и 99% уровнях значимости (30 баллов).

14. Число ребер на раковинах ископаемого моллюска Orthambonites calligramma :

Известно, что n = 19, σ = 4,25. Определите границы доверительного интервала для генеральной средней и генеральной дисперсии при уровне значимости W = 0,01 (25 баллов).

15. Для определения удоев молока на молочно-товарной ферме ежедневно определялась продуктивность 15 коров. По данным за год каждая корова давала в среднем в сутки следующее количество молока (л): 22; 19; 25; 20; 27; 17; 30; 21; 18; 24; 26; 23; 25; 20; 24. Постройте доверительные интервалы для генеральной дисперсии и средней арифметической. Можно ли ожидать, что среднегодовой удой на каждую корову составит 10000 литров? (50 баллов).

16. С целью определения урожая пшеницы в среднем по агрохозяйству были проведены укосы на пробных участках площадью 1, 3, 2, 5, 2, 6, 1, 3, 2, 11 и 2 га. Урожайность (ц/га) с участков составила 39,4; 38; 35,8; 40; 35; 42,7; 39,3; 41,6; 33; 42; 29 соответственно. Постройте доверительные интервалы для генеральных дисперсии и средней арифметической. Можно ли ожидать, что в среднем по агрохозяйству урожай составит 42 ц/га? (50 баллов).

Доверительные интервалы (англ. Confidence Intervals ) одним из типов интервальных оценок используемых в статистике, которые рассчитываются для заданного уровня значимости. Они позволяют сделать утверждение, что истинное значение неизвестного статистического параметра генеральной совокупности находится в полученном диапазоне значений с вероятностью, которая задана выбранным уровнем статистической значимости.

Нормальное распределение

Когда известна вариация (σ 2) генеральной совокупности данных, для расчета доверительных пределов (граничных точек доверительного интервала) может быть использована z-оценка. По сравнению с применением t-распределения, использование z-оценки позволит построить не только более узкий доверительный интервал, но и получить более надежные оценки математического ожидания и среднеквадратического (стандартного) отклонения (σ), поскольку Z-оценка основывается на нормальном распределении.

Формула

Для определения граничных точек доверительного интервала, при условии что известно среднеквадратическое отклонение генеральной совокупности данных, используется следующая формула

L = X - Z α/2 σ
√n

Пример

Предположим, что размер выборки насчитывает 25 наблюдений, математическое ожидание выборки равняется 15, а среднеквадратическое отклонение генеральной совокупности составляет 8. Для уровня значимости α=5% Z-оценка равна Z α/2 =1,96. В этом случае нижняя и верхняя граница доверительного интервала составят

L = 15 - 1,96 8 = 11,864
√25
L = 15 + 1,96 8 = 18,136
√25

Таким образом, мы можем утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности попадет в диапазон от 11,864 до 18,136.

Методы сужения доверительного интервала

Допустим, что диапазон является слишком широким для целей нашего исследования. Уменьшить диапазон доверительного интервала можно двумя способами.

  1. Снизить уровень статистической значимости α.
  2. Увеличить объем выборки.

Снизив уровень статистической значимости до α=10%, мы получим Z-оценку равную Z α/2 =1,64. В этом случае нижняя и верхняя граница интервала составят

L = 15 - 1,64 8 = 12,376
√25
L = 15 + 1,64 8 = 17,624
√25

А сам доверительный интервал может быть записан в виде

В этом случае, мы можем сделать предположение, что с вероятностью 90% математическое ожидание генеральной совокупности попадет в диапазон .

Если мы хотим не снижать уровень статистической значимости α, то единственной альтернативой остается увеличение объема выборки. Увеличив ее до 144 наблюдений, получим следующие значения доверительных пределов

L = 15 - 1,96 8 = 13,693
√144
L = 15 + 1,96 8 = 16,307
√144

Сам доверительный интервал станет иметь следующий вид

Таким образом, сужение доверительного интервала без снижения уровня статистической значимости возможно только лишь за счет увеличения объема выборки. Если увеличение объема выборки не представляется возможным, то сужение доверительного интервала может достигаться исключительно за счет снижения уровня статистической значимости.

Построение доверительного интервала при распределении отличном от нормального

В случае если среднеквадратичное отклонение генеральной совокупности не известно или распределение отлично от нормального, для построения доверительного интервала используется t-распределение. Это методика является более консервативной, что выражается в более широких доверительных интервалах, по сравнению с методикой, базирующейся на Z-оценке.

Формула

Для расчета нижнего и верхнего предела доверительного интервала на основании t-распределения применяются следующие формулы

L = X - t α σ
√n

Распределение Стьюдента или t-распределение зависит только от одного параметра – количества степеней свободы, которое равно количеству индивидуальных значений признака (количество наблюдений в выборке). Значение t-критерия Стьюдента для заданного количества степеней свободы (n) и уровня статистической значимости α можно узнать из справочных таблиц.

Пример

Предположим, что размер выборки составляет 25 индивидуальных значений, математическое ожидание выборки равно 50, а среднеквадратическое отклонение выборки равно 28. Необходимо построить доверительный интервал для уровня статистической значимости α=5%.

В нашем случае количество степеней свободы равно 24 (25-1), следовательно соответствующее табличное значение t-критерия Стьюдента для уровня статистической значимости α=5% составляет 2,064. Следовательно, нижняя и верхняя граница доверительного интервала составят

L = 50 - 2,064 28 = 38,442
√25
L = 50 + 2,064 28 = 61,558
√25

А сам интервал может быть записан в виде

Таким образом, мы можем утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности окажется в диапазоне .

Использование t-распределения позволяет сузить доверительный интервал либо за счет снижения статистической значимости, либо за счет увеличения размера выборки.

Снизив статистическую значимость с 95% до 90% в условиях нашего примера мы получим соответствующее табличное значение t-критерия Стьюдента 1,711.

L = 50 - 1,711 28 = 40,418
√25
L = 50 + 1,711 28 = 59,582
√25

В этом случае мы можем утверждать, что с вероятностью 90% математическое ожидание генеральной совокупности окажется в диапазоне .

Если мы не хотим снижать статистическую значимость, то единственной альтернативой будет увеличение объема выборки. Допустим, что он составляет 64 индивидуальных наблюдения, а не 25 как в первоначальном условии примера. Табличное значение t-критерия Стьюдента для 63 степеней свободы (64-1) и уровня статистической значимости α=5% составляет 1,998.

L = 50 - 1,998 28 = 43,007
√64
L = 50 + 1,998 28 = 56,993
√64

Это дает нам возможность утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности окажется в диапазоне .

Выборки большого объема

К выборкам большого объема относятся выборки из генеральной совокупности данных, количество индивидуальных наблюдений в которых превышает 100. Статистические исследования показали, что выборки большего объема имеют тенденцию быть нормально распределенными, даже если распределение генеральной совокупности отличается от нормального. Кроме того, для таких выборок применение z-оценки и t-распределения дают примерно одинаковые результаты при построении доверительных интервалов. Таким образом, для выборок большого объема допускается применение z-оценки для нормального распределения вместо t-распределения.

Подведем итоги



Вверх