На бирже курсовых и дипломных проектов можно найти образцы готовых работ или получить помощь в написании уникальных курсовых работ, дипломов, лабораторных работ, контрольных работ, диссертаций, рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.

ЛИЧНЫЙ КАБИНЕТ 

 

Здравствуйте гость!

 

Логин:

Пароль:

 

Запомнить

 

 

Забыли пароль? Регистрация

Повышение уникальности

Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение уникальности любого файла в формате MS Word. После такого повышения уникальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, etxt.ru или advego.ru. Программа «StudentHelp» работает по уникальной технологии и при повышении уникальности не вставляет в текст скрытых символов, и даже если препод скопирует текст в блокнот – не увидит ни каких отличий от текста в Word файле.

Результат поиска


Наименование:


контрольная работа Простой линейный регрессионный анализ

Информация:

Тип работы: контрольная работа. Добавлен: 27.04.2012. Сдан: 2011. Страниц: 4. Уникальность по antiplagiat.ru: < 30%

Описание (план):


 
ГОСУДАРСТВЕННЫЙ КОМИТЕТ ПО РЫБОЛОВСТВУ 

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ  УЧРЕЖДЕНИЕ
«МУРМАНСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» 
 
 
 

Кафедра ИС и ПМ 
 
 
 
 
 

РГЗ № 2
по  дисциплине «Прикладная статистика и планирование эксперимента» 

Простой линейный
регрессионный анализ 

№ 10 
 
 

                  Выполнила студентка              экономического факультета, группы Мар-371:
                  Мельник И.С. 

                      Проверил:
                      Пантелеев В.П.  
                     
                     
                     
                     
                     
                     

Мурманск
2009

Оглавление

 

Введение

 
 
Цель  работы: Освоить элементы корреляционного  и простого линейного регрессионного анализа. 

Стохастическая  зависимость случайной величины Y от величины X, случайной или не случайной, в отличие от функциональной не предполагает однозначности. Каждому значению xIX отвечает, в целом, множество значений yIY с условным распределением вероятностей Fx(y) =P(Y<y /X=x). Меж тем стохастическая зависимость не всегда нужна во всей её полноте. Нас могут интересовать частные её проявления, например, как сильно влияет изменение величины X на величину Y (корреляционный анализ), или какова зависимость условной средней M(Y /X = x) от значений xIX (регрессионный анализ). Будет ли эта зависимость линейной y=a+bx, параболической y=a+bx+ cx2, гиперболической y=a/(x+b), экспоненциальной y=aebx и т. п.? Те же вопросы возникают и в том случае, когда X – вектор.
      Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов. В отличие от функциональной (однозначной), стохастическая зависимость имеет ту особенность, что регрессия x=M(X /Y=y) величины X по Y в общем случае отлична от y=M(Y /X=x), имеет, в целом, другой график и другое уравнение. Слово регрессия впервые появилось в 1889 г. в статье английского статистика Ф. Гальтона (Francis Galton) и означало отступление в детях от экстремальных свойств родителей, например рост детей, в целом, отступает к среднему статическому. Этот исходный смысл слова регрессия сохраняется и ныне, предполагается снятие крайних отклонений, выделяется по возможности характерная для исследуемых величин устойчивая связь.
      Регрессионный анализ во многом близок другой дисциплине – корреляционному анализу. Последний исследует силу линейной связи случайных величин Y и X посредством статистических оценок коэффициента корреляции r = М[(X- MX)(Y-MY)] /(sxsy), а также силу нелинейной связи посредством корреляционного отношения s/sy, составляемого для дисперсии уловных средних M(Y/X=x) по значениям величины X. Если же коэффициент корреляции r =±1, то величины X и Y связаны линейной функциональной зависимостью
.                                              (1)
При r =1 величина Y возрастает по X, а при r =–1 убывает. При значениях |r|, близких к 1, линейное уравнение (1) выражает приближенную зависимость Y от X. В целом большим значениям X отвечают большие значения величины Y, если r близко к 1, и меньшие, если r близко к -1. Когда корреляционное отношение sf/sy = 1, величины X и Y связаны функциональной зависимостью.
      Если  ковариация C(X,Y) = М[(X-MX)(Y-MY)] = 0, величины X и Y называются некоррелированными. В противном случае, когда C(X,Y) ? 0, величины X и Y называются коррелированными. Независимые величины X и Y заведомо не коррелированны, поскольку для них M(XY) = MXMY и C(X,Y) = М[(X-MX)(Y-MY)] = М(XY) – МX MY=0. Для нормальных величин верно и обратное, если X и Y не коррелированны, то они и независимы.
      Чтобы получить представление о параметрах – числовых характеристиках случайного вектора (X,Y), производится их статистическое оценивание по двумерной выборке (Xi,Yi) – результатам n независимых измерений одновременно обеих составляющих X и Y вектора (X,Y), i=1, 2,…, n. Сопоставление данных выборки (Xi,Yi) с теоретически возможной регрессионной зависимостью Y от X осуществляется обычно методом наименьших квадратов. Например, предполагается, что регрессия Y по X выражена функцией y = f(x,a,b) аргумента x, но истинные числовые значения параметров a и b нам не известны. Метод наименьших квадратов подбирает для a, b такие приближенные значения a, b, которые минимизируют расхождение Q между значениями функции f(xi,a,b) и выборочными значениями yi, выраженное функцией
2.
Отсюда  происходит и название метода наименьших квадратов – по виду функции Q и способу получения оценок a, b для неизвестных a и b, определяющих истинную регрессионную зависимость y = f(x,a,b). Как известно, минимум функции Q достигается при значениях a, b, когда частные производные равны нулю:
                        (2)
Если  имеются основания полагать, что  Y и X связаны линейной регрессией y=a+bx, то эта зависимость ищется в классе линейных функций y=a+bx. В этом случае равенства (2) принимают вид линейных уравнений относительно a и b:

Решая эту систему линейных уравнений, например, по формулам Крамера, получаем . Здесь , , и – статистические оценки ожиданий и дисперсий, составленные соответственно для X и Y, а r – эмпирический (выборочный) коэффициент корреляции,
, .
Коэффициент b перед аргументом x уравнении линейной регрессии y=a+bx, называют её коэффициентом, а его статистическую оценку rsy/sx, найденную методом наименьших квадратов, эмпирическим коэффициентом регрессии. Аналогично выводится уравнение линейной регрессии случайной величины X по аргументу Y. Уравнения линейной регрессии Y по X и X по Y при |r| ? 1 существенно отличны один от другого, имеют разные графики.
      Некоррелированность означает равенство нулю коэффициента корреляции r = 0, равно как и регрессии rsy/sx= 0. В то же время для непрерывных величин X и Y их эмпирический коэффициент регрессии = rsy/sx в силу чистой случайности непременно отличен от нуля, 0. Поэтому случайное отклонение r от нуля в сторону положительных или отрицательных значений не даёт оснований предполагать, что Y в целом возрастает при возрастании X. В этом смысле эмпирические уравнения регрессии
   и                                         (3)
с не равными  нулю коэффициентами =rsy/sx 0 и bxy rsx/sy0 сомнительны. Необходимо избежать ошибки, предсказывая рост или убывание величины Y, когда к этому нет достаточных оснований, поскольку коэффициент регрессии b ненадежен или, как говорят, незначимый. В этом случае из двух альтернатив, зависит Y от X или не зависит, лучше выбрать второе – независимость Y от X. Пользуясь эмпирическим уравнением (3) регрессии Y по X, надо помнить, что имеющийся статистический материал не позволяет сделать вывод, что истинный коэффициент регрессии rsy/sx отличен от 0, являясь строго положительным или строго отрицательным.
      Вопрос  о некоррелированности величин  X, Y решается статистикой
,
составляемой  по n наблюдениям вектора (X, Y). Для нормально распределенных независимых величин X, Y коэффициент корреляции равен нулю (r = 0 –величины не коррелированны) статистика T распределена по закону Стьюдента с n-2 степенями свободы. Поэтому проверка гипотезы H0:r = 0 о равенстве нулю коэффициента корреляции r состоит в следующем. Выбираем уровень значимости a, то есть малую вероятность риска совершить ошибку первого рода, отвергнув основную гипотезу H0, когда она верна. Для распределения Стьюдента с n-2 степенями свободы находим верхний квантиль ta уровня a/2, решая уравнение P(>ta) = a/2 или равнозначное ему P(|| > ta) = a. Для альтернативной гипотезы H1r ? 0 критическую область выбираемся двустороннюю (-?,-ta(ta,+?). Если вычисленная по выборке статистика T попадает в критическую область, что происходит, когда | |>ta, основная гипотеза H0 отвергается, принимается альтернативная ей гипотеза H1. В противном случае, когда || < ta, принимается гипотеза H0:= 0 о некоррелированности и независимости величин X и Y. Последнее надо понимать так, что X и Y не имеют заметной или, как говорят, значимой корреляционной связи.
      Для величины Z, связанной с X линейной регрессионной зависимостью z =a+bzxx, возникает необходимость в надежной интервальной оценке коэффициента bzx rzxsz/sx регрессии Z по X. В этом случае величины Y=Z-bzxX и X не коррелированны. Действительно, условное ожидание величины Y=Z-bzxX при условии X=x равно M(Y/X=x) = M((Z-bzxX)/X=x) = a+bzxx–bzxx=a. Величина Y не зависит от x, byx= ryxsy/sx= 0, и следовательно, коэффициент корреляции ryx= 0 – величины Y и X не коррелированны. Поэтому статистика
или, что то же самое, ,
составленная  для величин X и Y, распределена по Стьюденту с n-2 степенями свободы. Ранее рассмотренная статистика , вычисленная для X и Z, при rzx?0, конечно же, не распределена по Стьюденту, но если её использовать, Tb можно записать в более простом виде Tb=T(bzxbzx)/bzx.
      Зададимся надежностью g и для распределения Стьюдента с n-2 степенями свободы выберем квантиль ta уровня = (1+g)/2 так, чтобы P(|Tb| < ta) = g. Неравенство |Tb| < ta равнозначно |bzx  bzx| < tabzx/T и двойному неравенству bzx(1– ta/T)< bzx< bzx(1+ ta/T). Тем самым определился доверительный интервал (bzx(1– ta/T), bzx(1+ ta/T)) надежности g для коэффициента bzx регрессии. Надежность g выражает вероятность P(bzx(1–ta/) < bzx bzx(1+ta/)) = g попадания коэффициента bzx= rsz/sx линейной регрессии в доверительный интервал. Статистика T позволяет также наиболее просто записать доверительный интервал надежности g для линейной регрессии z = a+bx случайной величины Z по X.
. 
 

 

Выполнение  работы

 
    Работа  выполняется по вариантам в пакете программ Excel, вариант m определяется порядковым номером студента в журнале учебной группы. Статистический материал в виде двумерной выборки для пары величин X и Y вносится в электронную таблицу Excel. Мы избегаем трудоемкой работы по его составлению, для учебных целей мы имитируем его для пары нормальных случайных величин
    и т.д.................


Перейти к полному тексту работы


Скачать работу с онлайн повышением уникальности до 90% по antiplagiat.ru, etxt.ru или advego.ru


Смотреть полный текст работы бесплатно


Смотреть похожие работы


* Примечание. Уникальность работы указана на дату публикации, текущее значение может отличаться от указанного.