На бирже курсовых и дипломных проектов можно найти образцы готовых работ или получить помощь в написании уникальных курсовых работ, дипломов, лабораторных работ, контрольных работ, диссертаций, рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.

ЛИЧНЫЙ КАБИНЕТ 

 

Здравствуйте гость!

 

Логин:

Пароль:

 

Запомнить

 

 

Забыли пароль? Регистрация

Повышение уникальности

Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение уникальности любого файла в формате MS Word. После такого повышения уникальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, etxt.ru или advego.ru. Программа «StudentHelp» работает по уникальной технологии и при повышении уникальности не вставляет в текст скрытых символов, и даже если препод скопирует текст в блокнот – не увидит ни каких отличий от текста в Word файле.

Результат поиска


Наименование:


Лекции Регрессионный анализ

Информация:

Тип работы: Лекции. Добавлен: 12.05.2012. Сдан: 2011. Страниц: 9. Уникальность по antiplagiat.ru: < 30%

Описание (план):


Лекция 5. Регрессионный анализ 

Цель  занятия - научиться при помощи пакета SPSS 15.0 (и ниже) строить по имеющимся данным простую линейную, нелинейную и множественную регрессию. 

Содержание

5.1. Простая линейная регрессия

5.1.1. Назначение простой линейной регрессии

 
      Основная  цель построения регрессии - это стремление, используя некий набор «наблюдений», получить количественные и качественные зависимости для различных соотношений. Очевидно, что мы не можем просчитать влияние абсолютно всех факторов - мы осознанно упрощаем действительность, строя модель. Таким образом, мы работаем уже с некоторой эконометрической моделью, которая выражается в достаточно простой математической форме. Отличительной особенностью эконометрической модели будет являться наличие случайной (стохастической) составляющей (ei), учитывающей возможные ошибки при сборе данных, построении выборки и ее обработки.
      Простейшей  эконометрической моделью является простая линейная регрессия, имеющая вид:
Yj = а + bXi + ei,  где
Yj- является зависимой переменной;
Xi - регрессором (объясняющей переменной);
а и b – коэффициенты;
еi - случайная составляющая.
      Для нахождения неизвестных коэффициентов SPSS использует метод наименьших квадратов (МНК). Введем основные предпосылки:
1. Yj = а + bXi + еi - спецификация модели.
2. Xi-детерминированная величина.
3. ?(еi)=0
4. Var(ei)=cr2
5. ? (еi, ej) = 0, при i?j - некоррелированность ошибок для разных наблюдений.  

       Суть  метода заключается в следующем. У нас есть набор наблюдений Yi, Xi и требуется подобрать функцию Y = f(X), наилучшим образом описывающую зависимость у от х (рис.5-1).
    Фактически  задача сводится к наилучшему подбору  коэффициентов с тем, чтобы сумма  квадратов отклонений была минимальной.

    Рис.5-1. Графическая интерпретация простой линейной регрессии
Решая стандартную  задачу минимизации, получаем, что

5.1.2. Вызов процедуры

 
      Для вызова процедуры линейной регрессии  необходимо выполнить следующую  последовательность действий:
в командной  строке окна ввода данных открыть  меню Analyze , далее подменю Regression и затем Linear.

5.1.3. Установка параметров

 
После вызова процедуры  появится диалоговое окно Linear Regression (рис.5-2):

Рис.5- 2. Вид диалогового окна Linear Regression 

    1.В строку Dependent должна быть занесена зависимая переменная (yi) в строку Independent- независимая.
    2. Независимые переменные могут задаваться двумя способами: блоками и путем выбора метода (меню Method) формирования группы.
    В списке Method имеются следующие возможности:
    Enter - простейший способ - все данные формируются в единую группу.
    Remove - это метод, который позволяет отбрасывать переменные в процессе определения конечной модели.
    Stepwise - это метод, который позволяет добавлять и удалять отдельные переменные в соответствии с параметрами, установленными в окне Options.
    Backward - данный метод позволяет последовательно удалять переменные из модели в соответствии с параметрами в окне Options, до того момента, пока это возможно (например по критерию значимости).
    Forward - данный метод позволяет последовательно добавлять переменные в модель в соответствии с параметрами в окне Options, до того момента, пока это возможно.
 
      Рассмотрим  другие клавиши диалогового окна:
WLS - взвешенный метод наименьших квадратов - присваивает наблюдениям различные веса, чтобы компенсировать различную точность измерений.
Statistics - параметры вывода (диалоговое окно представлено на рис 5-3).

Рис.5-3. Вид диалогового окна Statistics 

В диалоговом окне Statistics имеются следующие возможности: 

    Estimates- выводит непосредственно оценки коэффициентов.
    Confidence intervals - доверительный интервал для коэффициентов (уровень значимости)
    Covariance matrix - выводит ковариационную матрицу оценок коэффициентов.
    Model fit - включает множественный R, R-квадрат, нормированный R-квадрат, стандартную ошибку оценки и таблицу анализа дисперсии (TSS, RSS).
    R squared change - включает R, R-квадрат, F-статистику и их изменения при добавлении-удалении переменных.
    Descriptives – выдается число наблюдений без пропущенных значений, среднее значение и стандартное отклонение для каждой анализируемой переменной. Также выводится корреляционная матрица с односторонним уровнем значимости и число наблюдений для каждой корреляции.
    Part and partial correlations - выдаются корреляции нулевого порядка (те. Обычные парные), частные и частичные корреляции.
    Collinearity diagnostics – выдаются собственные значения масштабированной и нецентрированной матрицы сумм перекрестных произведений, числа обусловленности, доли в разложении дисперсии, коэффициенты разбухания дисперсии (VIF – variance inflation factor), толерантности для отдельных переменных.
    Durbin-Watson - тест для выявления автокорреляции. Если DW больше 2 -отрицательная автокорреляция, меньше 2 - положительная.
 
      Plots - графическая иллюстрация. При ее активизации выводится диалоговое окно (рис.5-4).
      В диалоговом окне Plots имеются возможности:
Типы  переменных:
    DEPENDNT - зависимая переменная;
    ZPRED - предсказываемые значения зависимой переменной (экстраполяция). Может быть стандартизирована с математическим ожиданием 0 и стандартным отклонением 1;
    ZRESID - отклонение: еi=Уi- Y^ ;
    DRESID - исключенные остатки (разности) ;
    ADJPRED - нормированные предсказанные значения;
    SRESID - остатки, стандартизованные на оценку их стандартного отклонения.
Produce all partial plots - строит точечную диаграмму остатков независимых переменных.

Рис.5-4. Вид диалогового окна Plots 

Save - каждый пункт добавляет одну или более переменных в файл данных Predicted Values
      Standardized - экстраполирование зависимой переменной;
      Adjusted - экстраполирование для случая, который выбрасывается при вычислении коэффициентов регрессии;
      S.E. of mean pred. value - оценка стандартного отклонения среднего значения зависимой переменной для случая, когда независимые переменные имеют такие же значения Residuals;
      Unstandardized - отклонение: еi = Yi - Y^;
      Deleted - исключенные остатки (разности).
 
Options - настройка для пошагового метода:
    Use probability of F - уровень значимости (для ввода должен быть меньше, чнм для удаления);
    Use P value - использование Р-значений;
    Exclude cases listwise - использование только тех ячеек, которые содержат верные (корректные) значения;
    Exclude cases painwise - рассчитывает каждый коэффициент корреляции, используя все ячейки с корректными значениями;
    Replace with mean - замещает недостающее значение средним значением переменной.

5.1.4. Вид результатов

 
      Результаты  расчета линейной регрессии представлены большим количеством таблиц. Приведем самые основные из них. На рис. 5-5 представлена таблица суммарных характеристик. В ней нужно обратить внимание на R, R square, F Change, Sig. F Change, Durbin-Watson. Из рис.5-5 следует, что рассчитанная модель адекватна, коэффициент корреляции очень высок, в остатках сериальная составляющая (Durbin-Watson) отсутствует.
      На  рис.5-6 проиллюстрирована таблица коэффициентов регрессии. Из нее следует, что полученные коэффициенты статистически значимы t- критерий и Sig. Показатель IMQ влияет на индекс РТС положительно. 


Рис.5-5. Суммарные характеристики модели 


Рис.5-6. Таблица коэффициентов регрессии 

Таблица дисперсионного анализа (рис.5-7) показывает, что модель адекватна (F и Sig).

Рис.5-7. Дисперсионный анализ модели

5.2. Простая множественная регрессия

5.2.1. Назначение простой множественной регрессии

 
      Простая множественная регрессия - есть некоторое усложнение простой линейной регрессии - предполагается, что может быть более одной независимой переменной. Модель будет выглядеть следующим образом:

      Также можно воспользоваться матричной записью (X и Y матрицы)

      Наиболее  распространенный метод решения - Метод наименьших квадратов (МНК) получения коэффициентов модели

      По  МНК:
b^ = (X’X)-1 Х’ Y.
      Таким образом, видно, что добавление регрессоров  не повлияло ни на наши предпосылки, ни на алгоритм построения, ни на интерпретацию результата.  Единственное отличие будет наблюдаться в окне ввода независимых переменных.

5.2.2. Отбор переменных во множественной регрессии

5.2.2.1. Назначение отбора переменных

 
      SPSS может строить модели множественной регрессии с очень большим количеством независимых переменных. Такая возможность полезна, когда на исследуемый зависимый параметр влияет множество различных факторов. При этом иногда известно, какие именно переменные включить в модель в качестве предикторов. В этом случае вам следует построить модель, используя метод принудительного включения (ENTER), и все указанные вами переменные будут включены в модель. Этот способ построения уравнения регрессии используется по умолчанию.
      Однако  зачастую вы не можете точно знать, какие именно переменные из имеющихся, нужно включить в модель, а какие  переменные отбросить, как не оказывающие  влияния на исследуемый параметр. Для этого случая в SPSS имеется  несколько методов подбора множества независимых переменных для регрессионной модели, которые мы и рассмотрим в данном разделе.
      Входные данные, требуемые для использования  различных методов подбора множества  независимых переменных, такие же, как и для обычной процедуры  построения линейной регрессии.
      Нам требуется исследовать, от чего и  как зависит индекс РТС. На первый взгляд сложно определить, какие факторы  оказывают, а какие не оказывают  влияние на индекс РТС, и для  выбора множества независимых переменных в регрессионной модели мы должны использовать один из трех методов подбора, встроенных в SPSS.

5.2.2.2. Метод пошагового исключения (backward elimination)

 
      Метод пошагового исключения (backward elimination) начинается с построения модели, куда включены все переменные (модель, аналогичная строящейся по умолчанию). Затем на каждом шаге из модели удаляется наименее полезный из предикторов, т.е. предиктор с минимальным значением F-статистики, причем это значение должно быть меньше заранее выбранного порога, чтобы не удалять из модели наименее значимые, но все же значимые переменные. Процедура пошагового исключения останавливается, когда из модели больше нечего удалять, т.е. когда значения F-статистики для всех оставшихся предикторов выше выбранного порога.

5.2.2.3. Метод пошагового включения (forward selection)

 
      Метод пошагового включения (forward selection) вводит переменные в модель по одной (шаг за шагом). На первом шаге вводится переменная, обычная корреляция которой с зависимой переменной максимальна, при этом знак корреляции, естественно, не важен. На каждом следующем шаге вводится переменная с самой сильной частной корреляцией. Причем для каждого шага с помощью F-статистики проверяется гипотеза о равенстве нулю коэффициента при вновь введенной переменной. Процедура останавливается, когда установленный критерий для F-статистики больше не выполняется, т.е. независимая переменная, которая должна быть введена в модель следующей, не является значимой.

5.2.2.4. Метод пошагового отбора (stepwise selection)

 
        Пошаговый отбор  (stepwise selection) начинается так же, как метод пошагового включения, но на каждом шаге переменные проверяются так же, как в методе исключения. Этот метод используется наиболее часто, особенно когда независимые переменные сильно коррелированы, т.е. наблюдается мультиколлинеарность. Поскольку включение в модель, скажем, пятой переменной может уменьшить важность всех уже включенных переменных, одна из включенных в уравнение переменных может быть удалена с использованием метода пошагового исключения. При использовании «чистого» метода пошагового включения эта переменная остается в модели.

5.2.2.5. "Оптимальное" число независимых переменных

 
      Рассмотрим, как будут изменяться параметры  уравнения, когда мы будем добавлять  по очереди дополнительные независимые переменные. Коэффициенты корреляции не должны убывать по мере того, как включаются новые объясняющие переменные. Это утверждение всегда справедливо и в регрессионном анализе. Однако это не означает, что уравнение с огромным числом переменных всегда лучше описывает исследуемый процесс, поскольку по мере того, как растет число параметров,  исчерпываются степени свободы, предоставленные выборочными данными. Каждый раз переменная, добавленная в уравнение, вычитает одну степень свободы из суммы квадратов остатков и одна добавляется в сумму квадратов, объясненных регрессией.
      Как уже упоминалось ранее, коэффициент  корреляции - весьма оптимистическая мера для определения тесноты связи. Скорректированный коэффициент R2 учитывает это обстоятельство путем введения поправки на число степеней свободы. Скорректированный коэффициент не обязательно возрастает по мере введения дополнительных переменных в уравнение, поэтому он представляет собой более предпочтительную меру  качества уравнения регрессии. Эта статистика показана в колонке (рис.5-5) с обозначением Adjusted R Square.
      Наблюдаемое значение R2 не обязательно отражает улучшение выборочных оценок  генеральной совокупности данных. Включение неподходящих переменных  часто дает серьезные осложнения для интерпретации переменных. С другой стороны, важно не исключить по этим соображением потенциально важную переменную.  

      При использовании метода включения  (Forward), первая переменная  для ввода в уравнение определяется наибольшим положительным или отрицательным коэффициентом корреляции с зависимой переменной. Вычисляется F критерий для гипотезы о равенстве нулю коэффициента регрессии включаемой переменной. Для определения   того, следует или нет вводить переменную в уравнение (как и каждую последующую)  значение F критерия сравнивается с заданным уровнем.  В SPSS можно использовать один из двух критериев. Во-первых, это  минимальное значение F- статистики, для   включения переменной в уравнение.  Это значение называемое F- to enter –“Значение F, достаточное для включения” (FIN).
      Другой  критерий, который можно использовать для этой цели - вероятность, связанная  с  F- статистикой, называемая вероятность P, достаточная для включения в уравнение - Probability of F to enter (PIN). В этом случае переменная входит в уравнение только в случае, если вероятность, связанная с F критерием,  меньше или равна вероятности по умолчанию или той вероятности, которую мы зададим (по умолчанию это значение 0,05).
      PIN и FIN критерии не обязательно эквивалентны. При добавлении переменных к уравнению число степеней свободы для суммы квадратов остатков уменьшается, в то время как число степеней свободы для суммы квадратов регрессии возрастает. Таким образом, при фиксированном значении F-статистики могут существовать различные уровни значимости, зависящие от текущего числа переменных в уравнении. Для больших выборок этими различиями можно пренебречь.
      Реальный  уровень значимости для статистики F-включения не является уровнем  значимости, получаемым обычно из F-распределения, поскольку проверяются многие переменные и выбирается наибольшее значение F-статистики. К сожалению, истинный уровень значимости вычислить трудно, так как он зависит не только от числа наблюдений и количества переменных, но и от корреляций между независимыми переменными.
      Если  первая переменная, выбранная для включения в уравнение, удовлетворяет соответствующему критерию, процедура последовательного включения продолжается. В противном случае, она завершается, и уравнение остается без переменных. Как только в уравнение добавлена одна переменная, при выборе следующей используются статистики для переменных, не включенных в уравнение. Вычисляются частные коэффициенты корреляции между зависимой переменной и каждой из независимых переменных, не включенных в уравнение, скорректированные по независимым переменным из уравнения. Следующим кандидатом на включение в уравнение становится переменная с наибольшей частной корреляцией. Выбор переменной с наибольшим по абсолютной величине значением частного коэффициента корреляции эквивалентен выбору переменной с наибольшим значением F-статистики.
      Если  заданный критерий выполняется, то эта  переменная включается в модель, и  процедура повторяется заново, завершаясь тогда, когда ни одна из оставшихся переменных, не удовлетворяет критерию включения. 

      Процедуры исключения (Backward) основана на элиминировании воздействия переменных, когда  оценка вариантов начинается с оценки уравнения для всех потенциальных объясняющих переменных, а затем последовательно отбрасываются переменные, статистические характеристики которых оказываются хуже других. Поэтому и критерии отбора  в этой процедуре  другие: они являются критериями удаления переменных. В SPSS предлагается для этой процедуры также два критерия. Первый определяется как минимальное значение F - статистики для переменной, которая должна оставаться в уравнении.  Переменные с критериями менее чем F, должны удаляться из уравнения.  В соответствии с избранной терминологией это значение, определяется как F  для удаления - F-to remove (FOUT).  Переменные с F оценкой меньше, чем это значение являются первоочередными претендентами на исключение из уравнения. Второй критерий - вероятность F- статистики  для удаления - probability of F to remove (POUT) – максимальный уровень значения F-статистики, который может иметь эта переменная.
      После исключения переменной – кандидата, модель вычисляется заново уже без  удаленной переменной для проверки следующей переменной. Процедура  последовательного исключения прекращается, когда значимость рассматриваемой  переменной станет меньше эталонного.
      Необходимо  отметить, что методы последовательного  включения и последовательного  исключения переменных, не всегда приводят к одинаковым результатам, даже при сравнимых критериях ввода и удаления.

5.2.3. Вид результатов расчета множественной линейной регрессии

 
      Представим  результаты расчета для параметров, приведенных на рис.5-8.   


Рис. 5-8. Множественная регрессия с методом пошагового включения и выключения переменных в модель 


Рис.5-9. Общие параметры 


Рис.5-10. Суммарные характеристики модели по шагам 


Рис.5-11. Коэффициенты моделей по шагам

Рис.5-12. Изменение модели по шагам 


Рис.5-13. Исключенные из моделей переменные по шагам 

      Детальный анализ результатов произведем на практическом занятии. Заметим только, что переменные Wag_R_M и RTRD имеют положительную корреляция с зависимой переменной, а IPCDE и IMQ – отрицательную.

5.3. Нелинейная регрессия

 
      Регрессия, парная или множественная, совсем не обязательно должна быть линейной. Существует много других, нелинейных, форм для ее выражения. В SPSS для формирования нелинейной регрессии предусмотрены следующие технологии:
      подгонка кривых;
      использование фиктивных переменных,
      собственно нелинейная регрессия.
      Кроме того, предусмотрены методы расчета  специфических форм регрессии.

5.3.1. Подгонка кривых

 
      Подгонка кривых предназначена, в первую очередь, для вычисления парной нелинейной регрессии. Косвенно, с некоторыми усложнениями, она может быть использована и для расчета множественной нелинейной регрессии. Эта процедура позволяет вычислять статистики и строить графики для различных типовых регрессионных моделей. Можно также сохранять предсказанные значения, остатки и интервалы прогнозирования в виде новых переменных.
Предлагаемые  модели соответствуют следующим  типам (выражаемым посредством формул) - см. табл. 5.1.
Таблица 5.1
  Типы моделей
Модель Формула
Линейная у = b0 + b1
Логарифмическая y = b0 + b1*lnx
Обратная (гиперболическая) y = b0+b1/x
Квадратичная у=b0 + b1*х + b22
Кубическая у = b0 + b1*х + b22 + b33
Степенная у = b0*xb1
Показательная у=b0*b1x
S у=еb0+b1*x
Логистическая у=1/(1/u+b0(b1x))
Рост у = e(b0+b1x)
Экспоненциальная у=b0(eb1x)
 
      Требования  к данным:
      зависимые и независимые переменные должны быть количественными;
      если в качестве независимой переменной выбрано Время, а не переменная из исходного файла данных, зависимая переменная должна представлять собой временной ряд.
      Исходные  допущения:
      остатки должны представлять собой случайные величины и распределяться по нормальному закону.
      При использовании линейной модели предъявляются  такие же требования, как и для  обычной линейной регрессии.
      Прежде  чем запустить выполнение процедуры, полезно ознакомиться с расположением  исходных точек на графике, чтобы  определить наиболее подходящие кривые. Хотя, это не обязательно.
      Выполним последовательность команд Chart/Legacy Dialogs (рис.5-14). В окне Scatter/Dot (рис. 5-15) установим флажок в ячейке Простая. Затем в следующем диалоговом окне Диаграмма рассеяния (рис. 5-16) укажем показатели для осей графика.

Рис.5-14. Выбор команд просмотр графика рассеяния 


Рис.5-15. Уточнение типа графика

Рис.1-16. Установка параметров графика

Рис.5-17. Облако исходных точек по годам 

      В результате получим облако рассеяния  исходных точек (рис. 5-17).
      Предполагаем, что наилучшее приближение к этому облаку может обеспечить одна из следующих моделей: логарифмическая, квадратичная, кубическая, гиперболическая.
      Теперь  обратимся к процедуре подгонка кривых, для чего выполним последовательность команд Анализ >• Регрессия >¦ Подгонка кривых (рис.5-18). 


Рис.5-18. Выбор команд по подбору кривых 
 
 
 
 

      В окне Подгонка кривых (рис. 5-19) активизируем отобранные модели. Кроме того, установим флажки в ячейках Включать константу (в формуле для каждой модели), Графики моделей (для вывода графических зависимостей), Вывести таблицу дисперсионного анализа (для фиксации оценок качества регрессии). В результате получатся графики отобранных функций и, дополнительно, график аппроксимации наблюденных значений.

Рис. 5-19. Окно Подгонка кривых 

      Сравнение всех этих кривых (рис.5-20) показывает, что наилучшее приближение к множеству исходных точек дает кубическая модель:
Индекс РТС = b0+ b1(Время) +  b2*( Время)^2 + b3*( Время)^3.
Оснований для  такого утверждения два:
      это видно из подобия кривых кубической модели и реальных значений (рис. 5-20);
      данный вывод подтверждается результатами дисперсионного анализа для кубической модели (рис. 5-21), согласно которым R2 = 0,915, F=468,860, что говорит о хорошем приближении. Данный анализ проводится для каждой из сравниваемых моделей, и для кубической модели значения являются наибольшими.
 
      Параметры кубической модели:
b0=957,535;
b1=113,857;
b2=-2,913;
b3=0,022.

Рис.5-20. Графики подогнанных кривых и исходные точки 


Рис.5-21. Суммарные характеристики моделей

5.3.2. Использование фиктивных переменных

 
      Фиктивные переменные достаточно широко применяются в регрессионном анализе.
      Нелинейные  регрессионные модели
и т.д.................


Перейти к полному тексту работы


Скачать работу с онлайн повышением уникальности до 90% по antiplagiat.ru, etxt.ru или advego.ru


Смотреть полный текст работы бесплатно


Смотреть похожие работы


* Примечание. Уникальность работы указана на дату публикации, текущее значение может отличаться от указанного.