Значимость f в регрессии excel что значит
Перейти к содержимому

Значимость f в регрессии excel что значит

Значимость f в регрессии excel что значит

Для реализации процедуры Регрессия необходимо: выбрать в меню Сервис команду Анализ данных. В появившемся диалоговом окне Анализ данных в списке Инструменты анализа выбрать строку Регрессия.

1_2.png

В появившемся диалоговом окне (рис.1) задать:

Входной интервал Y– диапазон (столбец), содержащий данные со значениями объясняемой переменной;

Входной интервал Х– диапазон (столбцы), содержащий данные с заголовками.

Метки – флажок, который указывает, содержат ли первые элементы отмеченных диапазонов названия переменных (столбцов) или нет;

Константа-ноль– флажок, указывающий на наличие или отсутствие свободного члена в уравнении (а);

Уровень надежности– уровень значимости, (например, 0,05);

Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона, в котором будет сохранен отчет по построению модели;

Новый рабочий лист– поставить значок и задать имя нового листа (Отчет – регрессия), в котором будет сохранен отчет.

Если необходимо получить значения и график остатков, а также график подбора (чтобы визуально проверить отличие экспериментальных точек от предсказанных по регрессионной модели), установите соответствующие флажки в диалоговом окне.

Рассмотрим результаты регрессионного анализа (рис. 2, 3).

2_3.png

Рис. 2. Вывод итогов регрессионного анализа

3_2.png

Рис. 3. Вывод остатков и вероятности по результатам регрессионного анализа

Множественный R – коэффициент корреляции

R-квадрат – это коэффициент линейной детерминации. Коэффициент является одной из наиболее эффективных оценок адекватности регрессионной R2модели, мерой качества уравнения регрессии в целом (или, как говорят, мерой качества подгонки регрессионной модели к наблюденным значениям.

Если R-квадрат > 0,95, говорят о высокой точности аппроксимации (модель хорошо описывает явление). Если R-квадрат лежит в диапазоне от 0,8 до 0,95, говорят об удовлетворительной аппроксимации (модель в целом адекватна описываемому явлению). Если R-квадрат < 0,6, принято считать, что точность аппроксимации недостаточна и модель требует улучшения (введения новых независимых переменных, учета нелинейностей и т. д.).

Нормированный R-квадрат – скорректированный (адаптированный, поправленный) коэффициент детерминации.

Недостатком коэффициента детерминации R-квадратявляется то, что он увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать нормированный, который в отличие от R-квадрат может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенное влияние на зависимую переменную.

Наблюдения – число наблюдений (в нашем случае 10 стран).

Df– число степеней свободы связано с числом единиц совокупности и с числом определяемых по ней констант.

F и Значимость F позволяют проверить значимость уравнения регрессии, т.е. установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

SS – Сумма квадратов отклонений значений признака Y.

MS – Дисперсия на одну степень свободы.

F – Наблюдаемое (эмпирическое) значение статистики F, по которой проверяется гипотеза равенства нулю одновременно всех коэффициентов модели. Значимость F – теоретическая вероятность того, что при гипотезе равенства нулю одновременно всех коэффициентов модели F-статистика больше эмпирического значения F.

На уровне значимости α=0,05 гипотеза H0:b1=0отвергается, если Значимость F<0.05, и принимается, если Значимость F

Значения коэффициентов регрессии находятся в столбце Коэффициенты и соответствуют:

переменная XI – b1;

переменная Х2 – b2 и т. Д.

Таким образом, получена следующая модель регрессии:

t-статистика соответствующего коэффициента.

P-Значение – вероятность, позволяющая определить значимость коэффициента регрессии. В случаях, когда Р-Значение>0,05, коэффициент может считаться нулевым, что означает, что соответствующая независимая переменная практически не влияет на зависимую переменную.

В нашем случае оба коэффициента оказались «нулевыми», а значит обе независимые переменные не влияют на модель.

Нижние 95% – Верхние 95% – доверительный интервал для параметра , т.е. с надежностью 0.95 этот коэффициент лежит в данном интервале. Поскольку коэффициент регрессии в исследованиях имеют четкую интерпретацию, то границы доверительного интервала для коэффициента регрессии не должны содержать противоречивых результатов. Так, например, «Доля городского населения, в %» не может лежать в интервале -0,25≥b1≥2,7. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

Предсказанное Y — теоретические (расчетные) значения результативного признака.

Остатки – остатки по модели регрессии.

На основе данных об остатках модели регрессии был построен график остатков (рис. 4) и график подбора – поле корреляции фактических и теоретических (расчетных) значений результативной переменной (рис.5).

Рис. 4. График остатков по значениям признака «Доля городского населения, %»

Рис. 5. График подбора для признаков «Доля городского населения, %» и «Число мобильных телефонов на 100 жителей»

Рассмотрение графиков подбора позволяет предположить, что, возможно, качество модели можно усовершенствовать, исключив данные по Белоруссии как аномальные значения.

Регрессионный анализ в Microsoft Excel

Регрессивный анализ в Microsoft Excel

Регрессионный анализ является одним из самых востребованных методов статистического исследования. С его помощью можно установить степень влияния независимых величин на зависимую переменную. В функционале Microsoft Excel имеются инструменты, предназначенные для проведения подобного вида анализа. Давайте разберем, что они собой представляют и как ими пользоваться.

Подключение пакета анализа

Но, для того, чтобы использовать функцию, позволяющую провести регрессионный анализ, прежде всего, нужно активировать Пакет анализа. Только тогда необходимые для этой процедуры инструменты появятся на ленте Эксель.

    Перемещаемся во вкладку «Файл».

Переход во вкладку Файл в Microsoft Excel

Переход в параметры в программе Microsoft Excel

Переход в надстройки в программе Microsoft Excel

Перемещение в надстройки в программе Microsoft Excel

Активация пакета анализа в программе Microsoft Excel

Теперь, когда мы перейдем во вкладку «Данные», на ленте в блоке инструментов «Анализ» мы увидим новую кнопку – «Анализ данных».

Блок настроек Анализ в программе Microsoft Excel

Виды регрессионного анализа

Существует несколько видов регрессий:

  • параболическая;
  • степенная;
  • логарифмическая;
  • экспоненциальная;
  • показательная;
  • гиперболическая;
  • линейная регрессия.

О выполнении последнего вида регрессионного анализа в Экселе мы подробнее поговорим далее.

Линейная регрессия в программе Excel

Внизу, в качестве примера, представлена таблица, в которой указана среднесуточная температура воздуха на улице, и количество покупателей магазина за соответствующий рабочий день. Давайте выясним при помощи регрессионного анализа, как именно погодные условия в виде температуры воздуха могут повлиять на посещаемость торгового заведения.

Общее уравнение регрессии линейного вида выглядит следующим образом: У = а0 + а1х1 +…+акхк . В этой формуле Y означает переменную, влияние факторов на которую мы пытаемся изучить. В нашем случае, это количество покупателей. Значение x – это различные факторы, влияющие на переменную. Параметры a являются коэффициентами регрессии. То есть, именно они определяют значимость того или иного фактора. Индекс k обозначает общее количество этих самых факторов.

  1. Кликаем по кнопке «Анализ данных». Она размещена во вкладке «Главная» в блоке инструментов «Анализ».

Переход в анализ данных в программе Microsoft Excel

Запуск регрессии в программе Microsoft Excel

В поле «Входной интервал Y» указываем адрес диапазона ячеек, где расположены переменные данные, влияние факторов на которые мы пытаемся установить. В нашем случае это будут ячейки столбца «Количество покупателей». Адрес можно вписать вручную с клавиатуры, а можно, просто выделить требуемый столбец. Последний вариант намного проще и удобнее.

В поле «Входной интервал X» вводим адрес диапазона ячеек, где находятся данные того фактора, влияние которого на переменную мы хотим установить. Как говорилось выше, нам нужно установить влияние температуры на количество покупателей магазина, а поэтому вводим адрес ячеек в столбце «Температура». Это можно сделать теми же способами, что и в поле «Количество покупателей».

Ввод интервала в настройках регрессии в программе Microsoft Excel

С помощью других настроек можно установить метки, уровень надёжности, константу-ноль, отобразить график нормальной вероятности, и выполнить другие действия. Но, в большинстве случаев, эти настройки изменять не нужно. Единственное на что следует обратить внимание, так это на параметры вывода. По умолчанию вывод результатов анализа осуществляется на другом листе, но переставив переключатель, вы можете установить вывод в указанном диапазоне на том же листе, где расположена таблица с исходными данными, или в отдельной книге, то есть в новом файле.

Параметры вывода в настройках регрессии в программе Microsoft Excel

Запуск регрессивного анализа в программе Microsoft Excel

Разбор результатов анализа

Результаты регрессионного анализа выводятся в виде таблицы в том месте, которое указано в настройках.

Результат анализа регрессии в программе Microsoft Excel

Одним из основных показателей является R-квадрат. В нем указывается качество модели. В нашем случае данный коэффициент равен 0,705 или около 70,5%. Это приемлемый уровень качества. Зависимость менее 0,5 является плохой.

Ещё один важный показатель расположен в ячейке на пересечении строки «Y-пересечение» и столбца «Коэффициенты». Тут указывается какое значение будет у Y, а в нашем случае, это количество покупателей, при всех остальных факторах равных нулю. В этой таблице данное значение равно 58,04.

Значение на пересечении граф «Переменная X1» и «Коэффициенты» показывает уровень зависимости Y от X. В нашем случае — это уровень зависимости количества клиентов магазина от температуры. Коэффициент 1,31 считается довольно высоким показателем влияния.

Как видим, с помощью программы Microsoft Excel довольно просто составить таблицу регрессионного анализа. Но, работать с полученными на выходе данными, и понимать их суть, сможет только подготовленный человек.

ЗакрытьМы рады, что смогли помочь Вам в решении проблемы.

Пакет анализа Excel (Регрессия)

Построение линейной регрессии, оценивание ее параметров и их значимости можно выполнить значительнее быстрей при использовании пакета анализа Excel (Регрессия). Рассмотрим интерпретацию полученных результатов в общем случае (k объясняющих переменных) по данным примера 3.5.

Вывод итогов
Регрессионная статистика
Множественный R 0,940
R-квадрат 0,884
Нормированный R – квадрат 0,868
Стандартная ошибка 22,87
Наблюдения

В таблице регрессионной статистики приводятся значения:

Множественный R – коэффициент множественной корреляции ;

Rквадрат – коэффициент детерминации R 2 ;

Нормированный Rквадрат – скорректированный R 2 с поправкой на число степеней свободы;

Стандартная ошибка– стандартная ошибка регрессии S;

Наблюдения –число наблюдений n.

Дисперсионный анализ
df SS MS F Значимость F
Регрессия 28102,2 28102,2 53,69 0,00016
Остаток 3663,7 523,3
Итого

В таблице Дисперсионный анализприведены:

1. Столбец df — число степеней свободы, равное

для строки Регрессия df = k;

для строкиОстатокdf = nk – 1;

для строкиИтогоdf = n – 1.

2. Столбец SS –сумма квадратов отклонений, равная

для строки Регрессия ;

для строкиОстаток ;

для строкиИтого .

3. Столбец MSдисперсии, определяемые по формуле MS = SS/df:

для строки Регрессия – факторная дисперсия;

для строкиОстаток– остаточная дисперсия.

4. Столбец F – расчетное значение F-критерия, вычисляемое по формуле

F = MS(регрессия)/MS(остаток).

5. Столбец Значимость F –значение уровня значимости, соответствующее вычисленной F-статистике.

Значимость F = FРАСП(F-статистика, df(регрессия), df(остаток)).

Если значимость F < стандартного уровня значимости, то R 2 статистически значим.

Коэффи-циенты Стандартная ошибка t-cта-тистика P-значение Нижние 95% Верхние 95%
Y 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

В этой таблице указаны:

1. Коэффициенты– значения коэффициентов a, b.

2. Стандартная ошибка–стандартные ошибки коэффициентов регрессии Sa, Sb.

3. t-статистика – расчетные значения t-критерия, вычисляемые по формуле:

t-статистика = Коэффициенты / Стандартная ошибка.

4.Р-значение (значимость t)– это значение уровня значимости, соответствующее вычисленной t-статистике.

Р-значение = СТЬЮДРАСП(t-статистика, df(остаток)).

Если Р-значение < стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. Нижние 95% и Верхние 95%– нижние и верхние границы 95 %-ных доверительных интервалов для коэффициентов теоретического уравнения линейной регрессии.

ВЫВОД ОСТАТКА
Наблюдение Предсказанное y Остатки e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

В таблице ВЫВОД ОСТАТКАуказаны:

в столбце Наблюдение– номер наблюдения;

в столбце Предсказанное y– расчетные значения зависимой переменной;

в столбце Остатки e– разница между наблюдаемыми и расчетными значениями зависимой переменной.

Пример 3.6.Имеются данные (усл. ед.) о расходах на питание y и душевого дохода x для девяти групп семей:

x
y

Используя результаты работы пакета анализа Excel (Регрессия), проанализируем зависимость расходов на питание от величины душевого дохода.

Результаты регрессионного анализа принято записывать в виде:

где в скобках указаны стандартные ошибки коэффициентов регрессии.

Коэффициенты регрессии а = 65,92 и b = 0,107. Направление связи между y и xопределяет знак коэффициентарегрессии b = 0,107, т.е. связь является прямой и положительной. Коэффициент b = 0,107 показывает, что при увеличении душевого дохода на 1 усл. ед. расходы на питание увеличиваются на 0,107 усл. ед.

Оценим значимость коэффициентов полученной модели. Значимость коэффициентов (a, b) проверяется по t-тесту:

Р-значение (a) = 0,00080 < 0,01 < 0,05

Р-значение (b) = 0,00016 < 0,01 < 0,05,

следовательно, коэффициенты (a, b) значимы при 1 %-ном уровне, а тем более при 5 %-ном уровне значимости. Таким образом, коэффициенты регрессии значимы и модель адекватна исходным данным.

Результаты оценивания регрессии совместимы не только с полученными значениями коэффициентов регрессии, но и с некоторым их множеством (доверительным интервалом). С вероятностью 95 % доверительные интервалы для коэффициентов есть (38,16 – 93,68) для a и (0,0728 – 0,142) для b.

Качество модели оценивается коэффициентом детерминации R 2 .

Величина R 2 = 0,884 означает, что фактором душевого дохода можно объяснить 88,4 % вариации (разброса) расходов на питание.

Значимость R 2 проверяется по F-тесту: значимость F = 0,00016 < 0,01 < 0,05, следовательно, R 2 значим при 1 %-ном уровне, а тем более при 5 %-ном уровне значимости.

В случае парной линейной регрессии коэффициент корреляции можно определить как . Полученное значение коэффициента корреляции свидетельствует, что связь между расходами на питание и душевым доходом очень тесная.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *