Свойства регрессионной модели. Простая линейная регрессия. Оценки параметров. Проверка значимости регрессии. Примеры. Осуществить оценку надежности уравнения регрессии

В целях исследований часто бывает удобно представить исследуемый объект в виде ящика, имеющего входы и выходы, не рассматривая детально его внутренней структуры. Конечно, преобразования в ящике (на объекте) происходят (сигналы проходят по связям и элементам, меняют свою форму и т. п.), но при таком представлении они происходят скрыто от наблюдателя.

По степени информированности исследователя об объекте существует деление объектов на три типа «ящиков»:

  • «белый ящик» : об объекте известно все;
  • «серый ящик» : известна структура объекта, неизвестны количественные значения параметров;
  • «черный ящик» : об объекте неизвестно ничего.

Черный ящик условно изображают как на рис. 2.1 .

Рис. 2.1. Обозначение черного ящика на схемах

Значения на входах и выходах черного ящика можно наблюдать и измерять. Содержимое ящика неизвестно.

Задача состоит в том, чтобы, зная множество значений на входах и выходах, построить модель, то есть определить функцию ящика, по которой вход преобразуется в выход. Такая задача называется задачей регрессионного анализа .

В зависимости от того, доступны входы исследователю для управления или только для наблюдения, можно говорить про активный или пассивный эксперимент с ящиком.

Пусть, например, перед нами стоит задача определить, как зависит выпуск продукции от количества потребляемой электроэнергии. Результаты наблюдений отобразим на графике (см. рис. 2.2 ). Всего на графике n экспериментальных точек, которые соответствуют n наблюдениям.

Рис. 2.2. Графический вид представления результатов
наблюдения над черным ящиком

Для начала предположим, что мы имеем дело с черным ящиком, имеющим один вход и один выход. Допустим для простоты, что зависимость между входом и выходом линейная или почти линейная. Тогда данная модель будет называться линейной одномерной регрессионной моделью .

1) Исследователь вносит гипотезу о структуре ящика

Рассматривая экспериментально полученные данные, предположим, что они подчиняются линейной гипотезе, то есть выход Y зависит от входа X линейно, то есть гипотеза имеет вид: Y = A 1 X + A 0 (рис. 2.2 ).

2) Определение неизвестных коэффициентов A 0 и A 1 модели

Линейная одномерная модель (рис. 2.3 ).

Рис. 2.3. Одномерная модель черного ящика

Для каждой из n снятых экспериментально точек вычислим ошибку (E i ) между экспериментальным значением (Y i Эксп. ) и теоретическим значением (Y i Теор. ), лежащим на гипотетической прямой A 1 X + A 0 (см. рис. 2.2 ):

E i = (Y i Эксп. – Y i Теор.), i = 1, …, n ;

E i = Y i – A 0 – A 1 · X i , i = 1, …, n .

Ошибки E i для всех n точек следует сложить. Чтобы положительные ошибки не компенсировали в сумме отрицательные, каждую из ошибок возводят в квадрат и складывают их значения в суммарную ошибку F уже одного знака:

E i 2 = (Y i – A 0 – A 1 · X i ) 2 , i = 1, …, n .

Цель метода — минимизация суммарной ошибки F за счет подбора коэффициентов A 0 , A 1 . Другими словами, это означает, что необходимо найти такие коэффициенты A 0 , A 1 линейной функции Y = A 1 X + A 0 , чтобы ее график проходил как можно ближе одновременно ко всем экспериментальным точкам. Поэтому данный метод называется методом наименьших квадратов .

Суммарная ошибка F является функцией двух переменных A 0 и A 1 , то есть F (A 0 , A 1) , меняя которые, можно влиять на величину суммарной ошибки (см. рис. 2.4 ).


Рис. 2.4. Примерный вид функции ошибки

Чтобы суммарную ошибку минимизировать, найдем частные производные от функции F по каждой переменной и приравняем их к нулю (условие экстремума):

После раскрытия скобок получим систему из двух линейных уравнений:

Для нахождения коэффициентов A 0 и A 1 методом Крамера представим систему в матричной форме:

Решение имеет вид:

Вычисляем значения A 0 и A 1 .

3) Проверка

Чтобы определить, принимается гипотеза или нет, нужно, во-первых, рассчитать ошибку между точками заданной экспериментальной и полученной теоретической зависимости и суммарную ошибку:

E i = (Y i Эксп. – Y i Теор.), i = 1, …, n

И, во-вторых, необходимо найти значение σ по формуле , где F — суммарная ошибка, n — общее число экспериментальных точек.

Если в полосу, ограниченную линиями Y Теор. – S и Y Теор. + S (рис. 2.5 ), попадает 68.26% и более экспериментальных точек Y i Эксп. , то выдвинутая нами гипотеза принимается. В противном случае выбирают более сложную гипотезу или проверяют исходные данные. Если требуется бо льшая уверенность в результате, то используют дополнительное условие: в полосу, ограниченную линиями Y Теор. – 2S и Y Теор. + 2S , должны попасть 95.44% и более экспериментальных точек Y i Эксп. .

Рис. 2.5. Исследование допустимости принятия гипотезы

Расстояние S связано с σ следующим соотношением:

S = σ /sin(β ) = σ /sin(90° – arctg(A 1)) = σ /cos(arctg(A 1)) ,

что проиллюстрировано на рис. 2.6 .

Рис. 2.7. Иллюстрация закона
нормального распределения ошибок

Наконец, приведем на рис. 2.8 графическую схему реализации одномерной линейной регрессионной модели.

Рис. 2.8. Схема реализации метода
наименьших квадратов в среде моделирования

Линейная множественная модель

Предположим, что функциональная структура ящика снова имеет линейную зависимость, но количество входных сигналов, действующих одновременно на объект, равно m (см. рис. 2.9 ):

Y = A 0 + A 1 · X 1 + … + A m · X m .

Рис. 2.9. Обозначение многомерного
черного ящика на схемах

Так как подразумевается, что мы имеем экспериментальные данные о всех входах и выходах черного ящика, то можно вычислить ошибку между экспериментальным (Y i Эксп. ) и теоретическим (Y i Теор. ) значением Y для каждой i -ой точки (пусть, как и прежде, число экспериментальных точек равно n ):

E i = (Y i Эксп. – Y i Теор.), i = 1, …, n ;

E i = Y i – A 0 – A 1 · X 1i – … – A m · X mi , i = 1, …, n .

Минимизируем суммарную ошибку F :

Ошибка F зависит от выбора параметров A 0 , A 1 , …, A m . Для нахождения экстремума приравняем все частные производные F по неизвестным A 0 , A 1 , …, A m к нулю:

Получим систему из m + 1 уравнения с m + 1 неизвестными, которую следует решить, чтобы определить коэффициенты линейной множественной модели A 0 , A 1 , …, A m . Для нахождения коэффициентов методом Крамера представим систему в матричном виде:

Вычисляем коэффициенты A 0 , A 1 , …, A m .

Далее, по аналогии с одномерной моделью (см. 3). «Проверка»), для каждой точки вычисляется ошибка E i ; затем находится суммарная ошибка F и значения σ и S с целью определить, принимается ли выдвинутая гипотеза о линейности многомерного черного ящика или нет.

При помощи подстановок и переобозначений к линейной множественной модели приводятся многие нелинейные модели. Подробно об этом рассказывается в материале следующей лекции.

После того как с помощью корреляционного анализа выявлено наличие статистически значимых связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию конкретного вида зависимостей с помощью регрессионного анализа.

Корреляционная зависимость между двумя переменными – это функциональная зависимость между одной переменной и ожидаемым (условным средним) значением другой. Уравнение такой зависимости между двумя переменными называется уравнением регрессии. В случае, если переменных две (одна зависимая и одна независимая), то регрессия называется простой, а если их более двух, то множественная. Если зависимость между переменными линейная, то регрессия называется линейной, в противном случае – нелинейной.

Рассмотрим подробно простую линейную регрессию. Модель такой зависимости может быть представлена в виде

y = α + βx + ε, (1.1)

где у – зависимая переменная (результативный признак);

х – независимая переменная (факторный признак);

α – свободный член уравнения регрессии или константа;

β – коэффициент уравнения регрессии;

ε – случайная величина, характеризующая отклонения фактических значений зависимой переменной у от модельных или теоретических значений, рассчитанных по уравнению регрессии.

При этом предполагается, что объясняющая переменная х – величина не случайная, а объясняемая y – случайная. В дальнейшем это предположение можно будет убрать.

1.2.1. Метод наименьших квадратов (мнк) и его предпосылки

α и β – это параметры модели регрессии (1.1), которые должны быть оценены на основе выборочных данных. На основе этих же выборочных данных должна быть оценена дисперсия ε. Одним из методов вычисления таких оценок является классический метод наименьших квадратов (МНК). Суть МНК состоит в минимизации суммы квадратов отклонений фактических значений зависимой переменной у от их условных математических ожиданий , определяемых по уравнению регрессии:=α + βx , в предположении, что математическое ожидание ε равно нулю. Математическое ожидание y обозначим через, а сумму квадратов отклонений черезQ(.

Здесь суммирование ведётся по всей генеральной совокупности. Данную сумму называют остаточной суммой квадратов.

Чтобы минимизировать эту функцию по параметрам обратимся к условиям первого порядка, полученным дифференцированиемQ() по

Далее пусть для оценки параметров модели (1.1) организована выборка, содержащая n пар значений переменных (x i ,y i), где i принимает значения от 1 до n (i =). Приравнивая частные производные к нулю и переходя от генеральной совокупности к выборке (заменив параметры на их оценки), получим систему нормальных уравнений для вычисления оценок параметровα и β. Обозначим эти оценки соответственно как а и b . Получим следующую систему нормальных уравнений

Если оценённое уравнение обозначить как y = a + bx + e , где е – одна из реализаций случайной величины ε, соответствующая конкретной выборки, то выражение в скобках системы нормальных уравнений есть не что иное, как остаток уравнения регрессии е i = y i и тогда первое уравнение этой системы примет вид = 0. То есть среднее значение остатков равно нулю. Таким образом, если уравнение регрессии содержит константу, то сумма остатков в оценённом уравнении всегда равна нулю.

Второе уравнение системы в этих обозначениях даёт = 0, т. е. векторы значений независимой переменной и остатков ортогональны (независимы).

Приведём один из вариантов формул для вычисления таких оценок:

a = – b, b = . (1.2)

Известно также, что несмещённой оценкой дисперсии случайных отклонений является остаточная дисперсия, вычисляемая из соотношения:

= .

Итак, оценённая модель линейной парной регрессии имеет вид

y = a + bx + e , (1.3)

где е – наблюдаемые отклонения фактических значений зависимой переменной у от расчётных , которые рассчитываются из соотношения=a + bx .

Различие между ε и е состоит в том, что ε – это случайная величина и предсказать её значения не представляется возможным, в то время как е – это наблюдаемые значения отклонений (е = у –) и эти отклонения можно считать случайной выборкой из совокупности значений остатков регрессии и их можно анализировать с использованием статистических методов.

Как было отмечено, МНК строит оценки регрессии на основе минимизации суммы квадратов отклонений или остатков ε, поэтому важно знать их свойства. Для получения «хороших» МНК-оценок необходимо, чтобы выполнялись следующие основные предпосылки относительно остатков модели (1.1), называемые предположениями Гаусса – Маркова.

Первое предположение говорит о том, что математическое ожидание регрессионных остатков равно нулю и подразумевает, что в среднем, линия регрессии должна быть истинной. Предположение 3 утверждает, что все регрессионные остатки имеют одну и ту же дисперсию, и называется предположением гомоскедастичности, а предположение 4 исключает любую форму автокорреляции между ними, т. е. подразумевает нулевую корреляцию между различными регрессионными остатками. Вместе взятые эти предположения означают, что регрессионные остатки являются некоррелированными извлечениями из генеральной совокупности с распределением, имеющем нулевое математическое ожидание и постоянную дисперсию .

Предположение 2 утверждает независимость векторов значений независимой переменной и регрессионных остатков.

Известно, что если выполняются эти четыре предположения, то верна теорема Гаусса Маркова , утверждающая, что в этом случае МНК-оценка b является наилучшей линейной несмещённой оценкой параметра β. Наилучшей в смысле эффективности.

Кроме сформулированных предположений вводится ещё одно, которое позволило бы сформулировать показатели точности уравнения регрессии и его оценок. Эта предпосылка утверждает, что остатки должны следовать нормальному закону распределения с нулевым математическим ожиданием и постоянной дисперсией.

В дальнейшем уравнение =a + b x будем называть выборочным уравнением регрессии или просто уравнением регрессии, а его коэффициенты, соответственно, свободным членом (а ) и коэффициентом уравнения регрессии (b ).

Свободный член уравнения регрессии обычно не интерпретируется. Коэффициент регрессии показывает, насколько в среднем изменится зависимая переменная (в своих единицах измерения) при изменении независимой переменной на единицу своего измерения.

При этом, необходимо иметь в виду, что рассматриваемые коэффициенты являются оценками параметров уравнения регрессии =α + βx со всеми вытекающими отсюда последствиями, в том числе и необходимостью получения оценок точности уравнения регрессии и его параметров.

Рассмотрим некоторые из них.

Основные процедуры математического моделирования

Аппроксимация

Аппроксимация , или приближение - научный метод, состоящий в замене одних объектов другими, в том или ином смысле близкими к исходным, но более простыми.

В математическом моделировании аппроксимация используется в двух вариантах:

1) имеются экспериментальные данные, отражающие объективную реальность, в виде отдельных точек и требуется представить их виде гладкой функции, которая и будет математической моделью, отражающей эти объективные экспериментальные данные;

2) уже имеется некая исходная математическая модель, но необходимо создать такую математическую модель, которая с одной стороны будет проще исходной, а с другой стороны будет похожа (в определённых рамках) на нее.

В общем случае выбор аппроксимирующей функции во многом определяется физикой описываемого процесса.

Часто задача аппроксимации сводится либо к линеаризации, либо к линейной регрессии.

Математика многогранна и в ней можно найти как математическую модель, внутри которой имеется блок аппроксимации, так и аппроксимацию целой математической модели. Если первое понятно и пояснений не требует, то примером второго является, например, аппроксимация редкого катастрофического явления, где само явление описывается сложной математической моделью.

Линеаризация

Выгоды линейности бывают столь велики, что приближенная замена нелинейных соотношений на линейные, нелинейных моделей на линейные, т. е. линеаризация соотношений, моделей и т. д. весьма распространена в моделировании.

Рассмотрим вначале два наиболее часто используемых случаев линеаризации: либо если эксперимент показывает (как, например, для закона Гука), что отклонение от линейности в рассматриваемом диапазоне ab изменения переменных невелико и несущественно (рис.1,а), либо же необходимо линеаризовать функцию в окрестности точки a (рис.1,б).

В первом случае используется линейная интерполяция , а во втором – линеаризация с применением ряда Тейлора .




Линейная интерполяция

Задача сводится к нахождению прямой, проведенной через две точки:


Линеаризация с помощью ряда Тейлора

В этом случае функция y(x) раскладывается в ряд Тейлора в окрестности точки a (рис.1,б):

Второе слагаемое в (2) – дифференциал функции y(x) в точке a .

Пример. Исходная математическая модель является квадратным трехчленом:

Необходимо линеаризовать эту модель в окрестности точки x =2.

Решение. По (3) находим: =4. Производная

в точке x =2 равна: =3, тогда линеаризованная модель

Сравним результаты расчетов по формулам (3) и (4):

Таблица 1

Как видим, при малых отклонениях погрешности получаются незначительными.

К тому же, модель (4) проще, чем (3), но недостатком такого подхода является необходимость пересчета коэффициентов (фактически построение другой модели) при существенном изменении значения x (например, при x =3).

Линейная регрессия

Общие положения

Как мы видели, математическая статистика занимается обработкой данных, полученных в результате какого-либо эксперимента. В частности – это зависимость величины Y от величины X в виде набора точек на плоскости (x i , y i ), i = 1, …, n (рис.3). Но эта зависимость не будет однозначной (т.е. функциональной ), а будет вероятностной (или стохастической ), поскольку в общем случае и Y и X – случайные величины.

Функциональные связи являются абстракциями, в реальной жизни онивстречаются редко, но находят широкое применение в точных науках и впервую очередь, в математике. Например: зависимость площади круга отрадиуса: S=π∙r 2

Обычно при стохастической зависимости между X и Y одна величина рассматривается как независимая (X ), а вторая (Y ) – как зависимая от первой, и зависимая величина ведет себя как случайная величина и ее можно описать некоторым вероятностным законом распределения.

Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения.

Учитывая специфику вероятностной связи, эти величины (точнее – признаки) чаще называют факторными (которые обуславливают изменения других) , или просто факторами , и результативными (которые изменяются под действием факторных признаков).


Возникновение понятия стохастической зависимости обусловливается тем, что величины подвержены влиянию неконтролируемых или неучтённых факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками.То есть изучаемая система переходит не в определенное состояние, а в одно из возможных для нее состояний. Стохастическая связь состоит в том, что одна случайная переменная реагирует на изменение другой изменением своего закона распределения.

Частным случаем стохастической связи является корреляционная связь , при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Поэтому при проведении того же эксперимента мы могли бы получить и несколько другой набор пар (x i , y i ) (точки красного цвета нарис.4) в силу именно случайности фигурирующих в эксперименте величин.


Это можно интерпретировать, что рис.3, например, является своего рода «фотографией», а на самом деле точки (x i , y i ), в силу случайных факторов, могут занимать и другое место на графике.

Модель стохастической связи может быть представлена в общем виде уравнением: ŷ i = ƒ(x i) + e i , где:

  • f(x i) -часть результативного признака, сформировавшаяся под воздействием учтенных известных факторных признаков (одного или множества), находящихся в стохастической связи с признаком;
  • ŷ i -расчетное значение результативного признака;
  • e i -часть результативного признака, возникшая вследствие действия неконтролируемых или неучтенных факторов, а также измерения признаков, неизбежно сопровождающегося некоторыми случайными ошибками.

Сравним: модель функциональной связи:

Разные разделы математической статистики посвящены обработке случайных величин в соответствии с разными задачами, например, с точки зрения расчета параметров выборки, или - отличия выборочных параметров от параметров генеральной совокупности, и т.д. Регрессионный анализ (РА) является тоже разделом математической статистики и в нем обрабатываются случайные величины со своих позиций, а именно:

регрессионный анализ устанавливает формы зависимости между этими величинами X и Y. Такая зависимость определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров (красные линии на рис.5).



Наиболее общая задача РА : для экспериментальных данных, имеющих между собой стохастическую зависимость, подобрать наиболее адекватную математическую модель в виде уравнения регрессии, графически являющейся некоторой линией.

Отметим, что при изучении стохастических зависимостей кроме РА используют и корреляционный анализ.

Фразу «наиболее адекватную математическую модель» нужно понимать в соответствии со следующими положениями.

Для каждого конкретного значения x i , кроме зафиксированного значения y i величины Y , имеется также несколько других значений величины Y (в силу ее случайности): , поэтому можно говорить о среднем значении:

Если величина x не является случайной (через строчную букву обозначаются именно неслучайные величины), то зависимость по табл.2 является однозначной и искомой. В наиболее строгом варианте речь идет о некой генеральной совокупности, где между значениями Y и x имеется зависимость, а конкретно - зависимость между МО величины Y и величиной x , отражением которой является табл.2. Но дело в том, что эта зависимость имеет теоретическое значение, поскольку мы не знаем всей совокупности значений y i 1 , y i 2 , y i 3 ,… y in , однако наиболее близкое к ней уравнение регрессии и будет наиболее адекватным.

Регрессия – это зависимость среднего значения (точнее – математического ожидания) случайной величины Y от величины x.

В РА рассматривается и вариант, когда величина X является случайной (через заглавные буквы обозначаются случайные величины), тогда речь будет идти о зависимости среднего значения случайной величины Y от среднего значения величины X (мое –проверить).

РА состоит из нескольких этапов:

§ выбор уравнения регрессии (математической модели);

§ оценка неизвестных параметров этой модели;

§ определяются статистические ошибки оценки или границы доверительных интервалов;

§ проверяется адекватность принятой математической модели экспериментальным данным.

Простая линейная регрессия

Простая линейная регрессия (ПЛР) имеет место в случае, когда зависимая величина Y определяется одной величиной x . В этом случае ПЛР выражается уравнением (рис.6):

. (6)

Здесь означает, что МО случайной величины Y определяется при фиксированном значении величины x .


Основное предположение ПЛР:

В генеральной совокупности, из которой получены экспериментальные данные, действительно существует линейная регрессия, т.е. зависимой случайной величины Y для любого значения независимой величины x является линейной функцией вида (6).

Пример 1 ПЛР. (из учебника Иванова). Мировые рекорды в прыжках с шестом:


Рис.7

В виде графика:

Рис.8

Заманчиво: можно сделать прогноз (проверить!).

ПОСТРОЕНИЕ УРАВНЕНИЙ РЕГРЕССИИ.

МОДУЛЬ MULTIPLE REGRESSION СИСТЕМЫ STATISTICA.

Цель занятия:

1. Изучить структуру и назначение статистического модуля Multiple Regression системы STATISTICA.

2. Освоить основные приемы работы в модуле Multiple Regression системы STATISTICA.

3. Освоить процедуру построения линейной регрессии в модуле Multiple Regression.

4. Самостоятельно решить задачу о нахождении коэффициентов линейной регрессионной модели.

Общие положения.

Статистический модуль Multiple Regression – Множественная регрессия включает в себя набор средств проведения регрессионного анализа данных.

Линейный регрессионный анализ.

В линейный регрессионный анализ входит широкий круг задач, связанных с построением зависимостей между группами числовых переменных X º (x 1 , ..., x p) и Y = (y 1 ,..., y m).

Предполагается, что Х - независимые переменные (факторы) влияют на значения Y - зависимых переменных (откликов). По имеющимся эмпирическим данным (X i , Y i ), i = 1, ..., n требуется построить функцию f (X ), которая приближенно описывала бы изменение Y при изменении X . Искомая функция записывается в следующем виде: f (X ) = f (X, q) + e, где q - неизвестный многомерный параметр, e - случайная составляющая с нулевым средним, f (X, q) является условным математическим ожиданием Y при условии известного X и называется регрессией Y по X.

Простая линейная регрессия.

Функция f (x, q) имеет вид f (x , q) = A + bx , где q = (A, b ) - неизвестные параметры. Относительно имеющихся наблюдений (x i , y i ), где i = 1,...,n , полагаем, что y i = A + bx i + e i . e 1 , ..., e n – ошибка вычисления Y по принятой модели. Для нахождения параметров широко используют метод наименьших квадратов .

Значения параметров модели находят из уравнения:

Min по (A, b )

Чтобы упростить формулы, положим x i = x i - ; получим:

y i = a + b (x i - ) + e i , i = 1, ..., n ,

где = , a = A + b . Сумму минимизируем по (a,b ), приравнивая нулю производные по a и b ; получим систему линейных уравнений относительно a и b . Ее решение () легко находится:

.

Свойства оценок . Нетрудно показать, что если M e i = 0, D e i = s 2 , то

1) M = а, М = b , т.е. оценки несмещенные;

2) D = s 2 / n , D = s 2 / ;

3) cov () = 0;

если дополнительно предположить нормальность распределения e i , то

4) оценки и нормально распределены и независимы;

5) остаточная сумма квадратов

Q 2 =

независима от ( , ), а Q 2 / s 2 распределена по закону хи-квадрат с n -2 степенями свободы.

Вызов статистического модуля Multiple Regression – Множественная регрессия выполним используя пиктограмму в левом нижнем углу (рис.1). В стартовом диалоговом окне этого модуля (рис. 2) при помощи кнопки Variables указываются зависимая (dependent) и независимые(ая) (independent) переменные.

В поле MD deletion указывается способ исключения из обработки недостающих данных:

casewise - игнорируется вся строка, в которой есть хотя бы одно пропущенное значение;

mean Substitution - взамен пропущенных данных подставляются средние значения переменных;

pairwise - попарное исключение данных с пропусками из тех переменных, корреляция которых вычисляется.

При необходимости выборочного включения данных для анализа следует воспользоваться кнопкой select cases.

Рисунок – 1 Вызов статмодуля Multiple Regression

Рисунок – 2 Диалоговое окно Multiple Regression

После выбора всех параметров анализа нажмите кнопку OK.


Стандартная линейная модель имеет вид:

Y = a 1 + a 2 X 1 + + a 3 X 2 + + a 3 X 3 + ……+ + a n X n

Нажатие на кнопку ОК приведет к появлению окна Multiple Regressions Results (результаты регрессионного анализа) (рис. 3), с помощью которого можно просмотреть результаты анализа в деталях.

Рисунок – 3 Окно Multiple Regressions Results (результаты регрессионного анализа)

Окно результатов имеет следующую структуру. Верхняя часть окна – информационная. Нижняя часть окна – содержит функциональные кнопки, позволяющие получить дополнительную информацию об анализе данных.

В верхней части окна приводятся наиболее важные параметры полученной регрессионной модели:

Dependent – имя зависимой переменной (Y);

Multiple R - коэффициент множественной корреляции;

Характеризует тесноту линейной связи между зависимой и всеми независимыми переменными. Может принимать значения от 0 до 1.

R 2 или RI - коэффициент детерминации;

Численно выражает долю вариации зависимой переменной, объясненную с помощью регрессионного уравнения. Чем больше R 2 , тем большую долю вариации объясняют переменные, включенные в модель.

No. Of Cases – число случаев, по которым построена регрессия;

adjusted R - скорректированный коэффициент множественной корреляции;

Этот коэффициент лишен недостатков коэффициента множественной корреляции. Включение новой переменной в регрессионное уравнение увеличивает RI не всегда, а только в том случае, когда частный F-критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение RI и adjusted R 2 .

adjusted R 2 или adjusted RI - скорректированный коэффициент детерминации;

Скорректированный R 2 можно с большим успехом (по сравнению с R 2) применять для выбора наилучшего подмножества независимых переменных в регрессионном уравнении

F - F-критерий;

df - число степеней свободы для F-критерия;

p - вероятность нулевой гипотезы для F-критерия;

Standard error of estimate - стандартная ошибка оценки (уравнения);

Intercept - свободный член уравнения, параметр а 1 ;

Std.Error - стандартная ошибка свободного члена уравнения;

t - t-критерий для свободного члена уравнения;

p - вероятность нулевой гипотезы для свободного члена уравнения.

Beta - b-коэффициенты уравнения.

Это стандартизированные регрессионные коэффициенты, рассчитанные по стандартизированным значениям переменных. По их величине можно сравнить и оценить значимость зависимых переменных, так как b-коэффициент показывает на сколько единиц стандартного отклонения изменится зависимая переменная при изменении на одно стандартное отклонение независимой переменной при условии постоянства остальных независимых переменных. Свободный член в таком уравнении равен 0.

При помощи кнопок диалогового окна Multiple Regressions Results (рис. 3) результаты регрессионного анализа можно просмотреть более детально.

Кнопка Summary: Regression results - позволяет просмотреть основные результаты регрессионного анализа (рис. 4, 5): BETA - b-коэффициенты уравнения; St. Err. of BETA - стандартные ошибки b-коэффициентов; В - коэффициенты уравнения регрессии; St. Err. of B - стандартные ошибки коэффициентов уравнения регрессии; t (95) - t-критерии для коэффициентов уравнения регрессии; р-level - вероятность нулевой гипотезы для коэффициентов уравнения регрессии.

Рисунок - 4

Таким образом в результате проведенного регрессионного анализа получено следующее уравнение взаимосвязи между откликом (Y) и независимой переменной (Х):

Y = 17,52232 – 0,06859Х

Свободный коэффициент уравнения значим на 5% уровне (p-level < 0,05). Коэффициентом при Х следует пренебречь. Это уравнение объясняет только 0,028% (R 2 = 0,000283) вариации зависимой переменной.


С помощью метода наименьших квадратов.

Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто неинтерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели. Нахождение параметров регрессионной модели называется обучением модели .

Недостатки регрессионного анализа: модели, имеющие слишком малую сложность, могут оказаться неточными, а модели, имеющие избыточную сложность, могут оказаться переобученными .

В управлении и планировании существует целый ряд типовых задач, которые можно переложить на плечи компьютера. Пользователь таких программных средств может даже и не знать глубоко математику, стоящую за применяемым аппаратом. Он должен представлять лишь суть решаемой проблемы, готовить и вводить в компьютер исходные данные, интерпретировать полученные результаты. Программным продуктом, который можно использовать для этих целей, является Ms Excel .

Ms Excel - это не просто электронная таблица с данными и формулами для вычислений. Это универсальная система обработки данных, которая может использоваться для анализа и представления данных в наглядной форме.

Одной из чаще всего используемых возможностей Excel является экстраполяция данных - например, для анализа имеющихся фактических данных, оценки тенденции их изменения и получения на этой основе краткосрочного прогноза на будущее. В этом случае используется линейная экстраполяция данных на основе наименьшего квадратичного отклонения - отыскивается линейная зависимость данных, такая, которая бы минимизировала сумму квадратов разностей между имеющимися фактическими данными и соответствующими значениями на прямой линейного тренда (интерполяционной или экстраполяционной зависимости). На основе найденной зависимости можно сделать разумное предположение об ожидаемых будущих значениях изучаемого ряда данных.

Решение задач планирования и управления постоянно требует учета зависимостей одних факторов от других.

Рассмотрим различные методы представления зависимостей.

Если зависимость между величинами удаётся представить в математической форме, то имеем математическую модель.


Математическая модель - это совокупность количественных характеристик некоторого объекта (процесса) и связей между ними, представленных на языке математики.

Математические модели могут быть представлены в виде формул, уравнений или систем уравнений. Например, зависимость времени падения тела на землю от первоначальной высоты описывается формулой . Рассмотрим примеры других способов представления зависимостей между величинами: табличного и графического . По результатам эксперимента мы составили таблицу и нарисовали график (рисунок 1).

Н (м) t (сек)
1,1 1,4 1,6 1,7 1,9 2,1 2,2 2,3 2,5

Рисунок1. Табличное и графическое представление данных.

Мы рассмотрели три способа отображения зависимости величин: функциональный (формула), табличный и графический. Но математической моделью процесса падения тела на землю можно назвать только формулу, т.к. формула универсальна. Таблица и диаграмма (график) констатируют факты, а математическая модель позволяет прогнозировать, предсказывать путем расчетов.

Статистические данные всегда являются приближенными, усредненными. Поэтому они носят оценочный характер. Однако, они верно отражают характер зависимости величин. И еще одно важное замечание: для достоверности результатов, полученных путем анализа статистических данных, этих данных должно быть много.

График искомой функции должен проходить близко к точкам диаграммы экспериментальных данных. Строить функцию так, чтобы ёе график точно проходил через все данные точки (рисунок 2), не имеет смысла. Во-первых, математический вид такой функции может оказаться слишком сложным. Во-вторых, уже говорилось о том, что экспериментальные значения являются приближенными.

Отсюда следуют основные требования к искомой функции:

Она должна быть достаточно простой для использования её в дальнейших вычислениях;

График этой функции должен проходить вблизи экспериментальных точек так, чтобы отклонения этих точек от графика были минимальны и равномерны (рисунок 3).

Рисунок 3. Два варианта построения графической зависимости по экспериментальным данным.

Полученную функцию, график которой приведен на рисунке 3(б), принято называть в статистике регрессионной моделью. Регрессионная модель - это функция, описывающая зависимость между количественными характеристиками сложных систем.

Получение регрессионной модели происходит в два этапа:

1. Подбор вида функции;

2. Вычисление параметров функции.

Чаще всего выбор производится среди следующих функций:

y = ax + b - линейная функция;

y = ax 2 + bx + c - квадратичная функция;

y = aln(x) + b - логарифмическая функция;

y = ae bx - экспоненциальная функция;

y = ax b - степенная функция.

Если Вы выбрали (сознательно или наугад) одну из предлагаемых функций, то следующим шагом нужно подобрать параметры (a ,b, c и пр.) так, чтобы функция располагалась как можно ближе к экспериментальным точкам. Для этого подходит метод наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у - координат всех экспериментальных точек от у - координат графика функции была бы минимальной.

Важно понимать следующее : методом наименьших квадратов по данному набору экспериментальных точек можно построить любую функцию. А вот будет ли она нас удовлетворять, это уже другой вопрос - вопрос критерия соответствия. На рисунке 4 изображены 3 функции, построенные методом наименьших квадратов.

Рисунок 4

Данные рисунки получены с помощью Ms Excel. График регрессионной модели называется трендом (trend - направление, тенденция).

График линейной функции - это прямая. Полученная по методу МНК прямая отражает факт роста заболеваемости от концентрации угарного газа, но по этому графику трудно что - либо сказать о характере этого роста. А вот квадратичный и экспоненциальный тренды - ведут себя очень правдоподобно.

На графиках присутствует ещё одна величина, полученная в результате построения трендов. Она обозначена как R 2 . В статистике эта величина называется коэффициентом детерминированности. Именно она определяет, насколько удачной получится регрессионная модель. Коэффициент детерминированности всегда заключен в диапазоне от 0 до 1. Если он равен 1, то функция точно проходит через табличные значения, если 0, то выбранный вид регрессионной модели неудачен. Чем R 2 ближе к 1, тем удачнее регрессионная модель.

Метод наименьших квадратов используется для вычисления параметров регрессионной модели. Этот метод содержится в математическом арсенале электронных таблиц.

Получив регрессионную математическую модель мы можем прогнозировать процесс путем вычислений. Теперь можно оценить уровень заболеваемости астмой не только для тех значений концентрации угарного газа, которые были получены путем измерений, но и для других значений. Это очень важно с практической точки зрения. Например, если в городе планируется построить завод, который будет выбрасывать в атмосфере угарный газ, то, рассчитав возможную концентрацию газа, можно предсказать, как это отразится на заболеваемости астмой жителей города.

Существуют два способа прогнозов по регрессионной модели. Если прогноз производится в пределах экспериментальных значений независимой переменной (в нашем случае это значение концентрации угарного газа - С), то это называется восстановлением значения .

Прогнозирование за пределами экспериментальных данных называется экстраполяцией.

Имея регрессионную модель, легко прогнозировать, производя расчеты с помощью электронной таблицы.

Табличный процессор дает возможность производить экстраполяцию графическим способом, продолжая тренд за пределы экспериментальных данных. Как это выглядит при использовании квадратичного тренда для С = 7 показано на рисунке 5.

Рисунок 5

В ряде случаев с экстраполяцией надо быть осторожным. Применимость всякой регрессионной модели ограничена, особенно за пределами экспериментальной области.

Список литературы.

1. Новиков Ф.А., Яценко А.Д.. Microsoft Office. С.-П.:БХВ-Петербург, 2002г. стр.449-458

2. Семакин И.Г., Хеннер Е.К. Информатика.11класс. М.: БИНОМ. Лаборатория знаний, 2003г. стр.102-117



Вверх