На бирже курсовых и дипломных проектов можно найти образцы готовых работ или получить помощь в написании уникальных курсовых работ, дипломов, лабораторных работ, контрольных работ, диссертаций, рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.

ЛИЧНЫЙ КАБИНЕТ 

 

Здравствуйте гость!

 

Логин:

Пароль:

 

Запомнить

 

 

Забыли пароль? Регистрация

Повышение уникальности

Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение уникальности любого файла в формате MS Word. После такого повышения уникальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, etxt.ru или advego.ru. Программа «StudentHelp» работает по уникальной технологии и при повышении уникальности не вставляет в текст скрытых символов, и даже если препод скопирует текст в блокнот – не увидит ни каких отличий от текста в Word файле.

Результат поиска


Наименование:


реферат Корреляционный анализ количественных данных

Информация:

Тип работы: реферат. Добавлен: 19.07.2012. Сдан: 2011. Страниц: 6. Уникальность по antiplagiat.ru: < 30%

Описание (план):


ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ  РФ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ  УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО  ОБРАЗОВАНИЯ
«РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ  УНИВЕРСИТЕТ ТУРИЗМА  И СЕРВИСА»
(ФГОУВПО  «РГУТИс»)
ИНСТИТУТ  ТУРИЗМА И ГОСТЕПРИИМСТВА (г. Москва) (филиал) 

Реферат 

по  дисциплине: «Статистика». 

На  тему: «Корреляционный анализ количественных данных». 

Выполнил:                            Куликова А.А. 

Группа:                            СМЗ-3 

Проверил:                                              Силаева И.В. 
 
 
 
 
 
 
 

МОСКВА
2011
ОГЛАВЛЕНИЕ:
ВВЕДЕНИЕ……………………………………………………………………………..3
1.Корреляционный  анализ количественных данных………………………………...4
      1.1. Определение формы связи………………………………………………….5
      1.2. Выбор формы связи…………………………………………………………5
      1.3. Аналитическое выражение связи………………………………………..…6
      1.4. Изменение тесноты связи………………………………………………..…9
      1.5. Множественная корреляция…………………………………………...….12
      1.6. Методы измерения тесноты связи…………………………………….….14
ЗАКЛЮЧЕНИЕ………………………………………………………………………..17
СПИСОК  ЛИТЕРАТУРЫ………………………………………………………….…18 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

ВВЕДЕНИЕ.
     Важнейшей целью статистики является изучение объективно существующих связей между  явлениями. В ходе статистического  исследования этих связей необходимо выявить причинно-следственные зависимости  между показателями, т.е. насколько изменение одних показателей зависит от изменения других показателей.
     Существует  две категории зависимостей (функциональная и корреляционная) и две группы признаков (признаки-факторы и результативные признаки). В отличие от функциональной связи, где существует полное соответствие между факторными и результативными признаками, в корреляционной связи отсутствует это полное соответствие.
     У животных часто имеет место сопряженная (совместная) изменчивость признаков, например, удоя и жирномолочности, яйценоскости и веса яйца и т.д. Совместную изменчивость разных признаков называют ?корреляция? (co-relation -связь, соотношение) и обозначают символом ?r? (понятие ?корреляция? в современном значении появилось в середине XIX века благодаря работам сэра Френсиса Гальтона (двоюродного брата Чарльза Дарвина) и Карла Пирсона). Через 20 лет после того, как Френсис Гальтон впервые приступил к решению проблемы вероятностной взаимосвязи, К.Пирсон обнаружил, что эта задача была решена 50 лет назад французским астрономом А Бравэ в статье об ошибках в определении нахождения точки в пространстве. 
 
 
 
 
 
 
 
 

1.Корреляционный  анализ количественных  данных.
     Корреляционный  анализ - совокупность основанных на математической теории корреляции методов обнаружения корреляционной зависимости между двумя случайными признаками или факторами. Корреляционный анализ экспериментальных данных заключает в себе следующие основные практические приёмы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции или корреляционного отношения; 3) проверка статистической гипотезы значимости связи.
     Корреляционная  связь является, во-первых, вероятностной - изменение одного признака у ряда особей на определенную величину сопровождается изменениями другого признака на различные (варьирующие) значения; во-вторых, статистической – проявляется лишь в среднем для всей выборки; в отношении отдельных наблюдений она очень неполная и неточная.
       Корреляционную связь следует  отличать от функциональной. При последней изменение одного показателя (аргумента) на определенную величину приводит к изменению другого показателя (функции) тоже на определенную величину (как, например, в формуле площади круга - S =?R2 , здесь R - радиус круга; ? = 3,14...).
     Корреляция  не вскрывает причины связи. Она  дает лишь оценку силы, или тесноты  связи между переменными. Однако знать корреляции важно. Так, при  селекции животных никогда не отбирают только по одному признаку. Более того, это невозможно, т.к. секционируются особи. А особь - это десятки признаков, которые необходимо учитывать при отборе. Если бы корреляция между признаками отсутствовала, то селекция была бы проще. Отбор мог бы проводиться независимо и отдельно по каждому признаку. 
 
 
 

      Определение формы связи.
Корреляционный  анализ решает две основные задачи:
1.Первая задача заключается в определении формы связи, т.е. в установлении математической формы, в которой выражается данная связь. Это очень важно, так как от правильного выбора формы связи зависит конечный результат изучения взаимосвязи между признаками.
2.Вторая задача состоит в измерении тесноты, т.е. меры связи между признаками с целью установить степень влияния данного фактора на результат. Она решается математически путем определения параметров корреляционного уравнения.
     Затем проводятся оценка и анализ полученных результатов при помощи специальных  показателей корреляционного метода (коэффициентов детерминации, линейной и множественной корреляции и  т.д.), а также проверка существенности связи между изучаемыми признаками.
1.2. Выбор формы связи.
     Определяющая  роль в выборе формы связи между  явлениями принадлежит теоретическому анализу. Так, например, чем больше размер основного капитала предприятия (факторный  признак), тем больше при прочих равных условиях оно выпускает продукции (результативный признак).
С ростом факторного признака здесь, как правило, равномерно растет и результативный, поэтому зависимость между ними может быть выражена уравнением прямой Y=a+b*x, которое называется линейным уравнением регрессии.
Параметр b называется коэффициентом регрессии  и показывает, насколько в среднем  отклоняется величина результативного  признака у при отклонении величины факторного признаках на одну единицу. При x = 0 a = Y. Увеличение количества внесенных удобрений приводит, при прочих равных условиях, к росту урожайности, но чрезмерное внесение их без изменения других элементов к дальнейшему повышению урожайности не приводит, а, наоборот, снижает ее.
Такая зависимость может быть выражена уравнением параболы Y=a+b*x+c*x2.
Параметр c характеризует степень ускорения  или замедления кривизны параболы, и при c>0 парабола имеет минимум, а при c<0 - максимум. Параметр b, характеризует  угол наклона кривой, а параметр a - начало кривой.
Однако  с помощью теоретического анализа не всегда удается установить форму связи. В таких случаях приходится только предполагать о наличии определенной формы связи. Проверить эти предположения можно при помощи графического анализа, который используется для выбора формы связи между явлениями, хотя графический метод изучения связи применяется и самостоятельно. 

1.3. Аналитическое выражение связи.
Применение  методов корреляционного анализа  дает возможность выражать связь  между признаками аналитически - в  виде уравнения - и придавать ей количественное выражение. Рассмотрим применение приемов корреляционного анализа на конкретном примере.
Допустим, что между стоимостью основного  капитала и выпуском продукции существует прямолинейная связь, которая выражается уравнением прямой Y=a+b*x.
Необходимо найти параметры a и b, что позволит определить теоретические значения Y для разных значений x. Причем a и b должны быть такими, чтобы было достигнуто максимальное приближение к первоначальным (эмпирическим) значениям теоретических значений Y. Эта задача решается при помощи способа наименьших квадратов, основное условие которого сводится к определению параметров a и b, таким образом, чтобы
.

Математически доказано, что условие минимума обеспечивается, если параметры a и b, определяются при  помощи системы двух нормальных уравнений, отвечающих требованию метода наименьших квадратов:

     Первое  уравнение есть сумма всех первоначальных уравнений. Второе получается умножением обеих частей уравнения прямой на один и тот же множитель.
     Математически доказано, что условие соблюдается, если в качестве такого множителя принять значение факторного признака, т.е. если уравнение прямой умножить на х. Кроме рассмотренных функций связи в экономическом анализе часто применяются степенная, показательная и гиперболическая функции. Степенная функция имеет вид Y=axb.
     Параметр b степенного уравнения называется показателем эластичности и указывает, на сколько процентов изменится  у при возрастании х на 1 %. При  х = 1 a = Y.
     Для определения параметров степенной  функции вначале ее приводят к линейному виду путем логарифмирования: lg y=lg a+ blg x, а затем строят систему нормальных уравнений:

     Решив систему двух нормальных уравнений, находят логарифмы параметров логарифмической  функции a и b, а затем и сами параметры a и b. При помощи степенной функции определяют, например, зависимость между фондом заработной платы и выпуском продукции, затратами труда и выпуском продукции и т.д.
     Если  факторный признака x растет в арифметической прогрессии, а результативный у - в  геометрической, то такая зависимость выражается показательной функцией Y=a+bx. Для определения параметров показательной функции ее также вначале приводят к линейному виду путем логарифмирования: lg y=lg a+ xlg b, а затем строят систему нормальных уравнений:

     Вычислив  соответствующие данные и решив систему двух нормальных уравнений, находят параметры показательной функции a и b. В ряде случаев обратная связь между факторным и результативным признаками может быть выражена уравнением гиперболы:
Y=a+b/x.
     И здесь задача заключается в нахождении параметров a и b при помощи системы двух нормальных уравнений:

     При помощи гиперболической функции  изучают, например, связь между выпуском продукции и себестоимостью, уровнем  издержек обращения (в процентах  к товарооборот и товарооборотом в торговле, сроками уборки и урожайностью и т.д.).
     Таким образом, применение различных функций  в качестве уравнения связи сводится к определению параметров уравнения  по способу наименьших квадратов  при помощи системы нормальных уравнений.
     В малых совокупностях значение коэффициента регрессии подвержено случайным колебаниям. Поэтому возникает необходимость в определении достоверности коэффициента регрессии. Достоверность коэффициента регрессии определяется так же, как и в выборочном наблюдении, т.е. устанавливаются средняя и предельная ошибки для выборочной средней и доли.
Средняя ошибка коэффициента регрессии определяется по формуле:

где ?20 - случайная дисперсия;
?2 - общая дисперсия,
n - число  коррелируемых пар.
1.4. Измерение тесноты связи.
     Чтобы измерить тесноту прямолинейной связи между двумя признаками, пользуются парным коэффициентом корреляции, который обозначается r.
     Так как при корреляционной связи  имеют дело не с приращением функции  в связи с изменением аргумента, а с сопряженной вариацией  результативных и факторных признаков, то определение тесноты связи, по существу, сводится к изучению этой сопряженности. Это значит, что при наличии полной прямой связи все значения (х-X) и (у-Y) должны иметь одинаковые знаки, при полной обратной - разные, при частичной связи знаки в преобладающем числе случаев будут совпадать, а при отсутствии связи - совпадать примерно в равном числе случаев. Для оценки существенности коэффициента корреляции пользуются специально разработанной таблицей критических значений r.
     Коэффициент корреляции r применяется только в  тех случаях, когда между явлениями  существует прямолинейная связь. Если же связь криволинейная, то пользуются индексом корреляции, который рассчитывается по формуле:

где у - первоначальные значения;
- среднее значение;
Y - теоретические  (выровненные) значения переменной  величины.
Показатель  остаточной, случайной  дисперсии определяется по формуле:

Она характеризует  размер отклонений эмпирических значений результативного признака у от теоретических Y, т.е. случайную вариацию. 

Общая дисперсия:

характеризует размер отклонений эмпирических значений результативного признака у от , т.е. общую вариацию.
Отношение случайной дисперсии к общей  характеризует долю случайной вариации в общей вариации, а

есть не что иное, как доля факторной вариации в общей, потому что по правилу сложения дисперсий общая дисперсия равна сумме факторной и случайной дисперсий:
?2=?2Y+?20.
Подставим в формулу индекса корреляции соответствующие обозначения случайной, общей и факторной дисперсий и получим:

Таким образом, индекс корреляции характеризует  долю факторной вариации в общей:

однако  с той лишь разницей, что вместо групповых средних берутся теоретические  значения Y.
Индекс  корреляции по своему абсолютному значению колеблется в пределах от 0 до 1. При функциональной зависимости случайная вариация , индекс корреляции равен 1. При отсутствии связи R = 0, потому что Y=y. Коэффициент корреляции является мерой тесноты связи только для линейной формы связи, а индекс корреляции - и для линейной, и для криволинейной. При прямолинейной связи коэффициент корреляции по своей абсолютной величине равен индексу корреляции:
|r|=R.
Если  индекс корреляции возвести в квадрат, то получим коэффициент детерминации
R2=?2Y/?2.
Он характеризует  роль факторной вариации в общей вариации и по построению аналогичен корреляционному отношению ?2.
     Как и корреляционное отношение, коэффициент  детерминации R2может быть исчислен при помощи дисперсионного анализа, так как дисперсионный анализ позволяет расчленить общую дисперсию на факторную и случайную.
Однако  при дисперсионном анализе для  разложения дисперсии пользуются методом  группировок, а при корреляционном анализе - корреляционными уравнениями.
     Коэффициент детерминации является наиболее конкретным показателем, так как он отвечает на вопрос о том, какая доля в общем результате зависит от фактора, положенного в основание группировки.
При прямолинейной  парной связи факторную дисперсию  можно определить без вычисления теоретических значений Y по следующей  формуле:
 
 

1.5. Множественная корреляция.
До сих  пор мы рассматривали корреляционные связи между двумя признаками: результативным (у) и факторным (х). Например, выпуск продукции зависит не только от размера основного капитала, но и от уровня квалификации рабочих, состояния оборудования, обеспеченности и качества сырья и материалов, организации труда и т.д. В связи с этим возникает необходимость в изучении, измерении связи между результативным признаком, двумя и более факторными. Этим занимается множественная корреляция.
Множественная корреляция решает три задачи. Она  определяет:
-форму связи;
-тесноту связи;
-влияние отдельных факторов на общий результат.
Определение формы связи.
Определение формы связи сводится обычно к  отысканию уравнения связно с  факторами x,z,w,...v. Так, линейное уравнение зависимости результативного признака от двух факторных определяется по формуле
a0+a1x+a2z
Для определения  параметров а0, a1и а2, по способу наименьших квадратов необходимо решить следующую систему трех нормальных уравнений:

Измерение тесноты связи.
При определении  тесноты связи для множественной  зависимости пользуются коэффициентом  множественной (совокупной) корреляции, предварительно исчислив коэффициенты парной корреляции. Так, при изучении связи между результативным признаком y и двумя факторными признаками - х и z, нужно предварительно определить тесноту связи между у и х, между у и z, т.е. вычислить коэффициенты парной корреляции, а затем для определения тесноты связи результативного признака от двух факторных исчислить коэффициент множественной корреляции по следующей формуле:

где rxy, rzy, rzx - парные коэффициенты корреляции. 

     Коэффициент множественной корреляции колеблется в пределах от 0 до 1. Чем он ближе  к 1, тем в большей мере учтены факторы, определяющие конечный результат.
Если  коэффициент множественной корреляции возвести в квадрат, то получим совокупный коэффициент детерминации, который  характеризует долю вариации результативного  признака у под воздействием всех изучаемых факторных признаков.
Совокупный коэффициент детерминации, как и при парной корреляции, можно исчислить по следующей формуле:
R2=?2y/?2y
где ?2Y - дисперсия факторных признаков,
?2y - дисперсия результативного признака.
     Однако  вычисление теоретических значений Y при множественной корреляции и сложно, и громоздко. Поэтому факторную дисперсию ?2Yисчисляют по следующей формуле:

     Проверка  существенности связи при множественной  корреляции по сути ничем не отличается от проверки при парной корреляции. Поскольку факторные признаки действуют не изолированно, а во взаимосвязи, то может возникнуть задача определения тесноты связи между результативным признаком и одним из факторных при постоянных значениях прочих факторов. Она решается при помощи частных коэффициентов корреляции. Например, при линейной связи частный коэффициент корреляции между х и у при постоянном z рассчитывается по следующей формуле:

В настоящее  время на практике широкое распространение  получил многофакторный корреляционный анализ; 

1.6. Методы измерения тесноты связи.
Измерение тесноты связи при помощи дисперсионного и корреляционного анализа связано с определенными сложностями и требует громоздких вычислений. Для ориентировочной оценки тесноты связи пользуются приближенными показателями, не требующими сложных, трудоемких расчетов. К ним относятся: коэффициент корреляции знаков Фехнера, коэффициент корреляции рангов, коэффициент ассоциации и коэффициент взаимной сопряженности.
Коэффициент корреляции знаков основан на сопоставлении  знаков отклонений от средней и подсчете числа случаев совпадения и несовпадения знаков, а не на сопоставлении попарно размеров отклонений индивидуальных значений факторного и результативного признаков от средней
(x-
) и (y-
):

i=(u-v)/(u+v),
где u - число пар с одинаковыми знаками  отклонений х и у от и ;
v - число  пар с разными знаками отклонений  х и у от и .
     Коэффициент корреляции знаков колеблется в пределах от -1 до +1. Чем ближе коэффициент  к 1, тем теснее связь. Если и<v, то i>0, так как число согласованных  знаков больше, чем несогласованных, и связь прямая. При и< v имеем i<0, потому что число несогласованных знаков больше, чем согласованных, и связь обратная. Если и = v, то i =0, и связи нет.
     Коэффициент корреляции рангов исчисляется не по первичным данным, а по рангам (порядковым номерам), которые присваиваются всем значениям изучаемых признаков, расположенным в порядке их возрастания.
Если  значения признака совпадают, то определяется средний ранг путем деления суммы  рангов на число значений. Коэффициент  корреляции рангов определяется по формуле

где d2 - квадрат разности рангов для каждой единицы, d=x-y;
n - число  рангов;
s - средний  ранг.
     Коэффициент корреляции рангов также колеблется в пределах от -1 до +1. Если ранги по обоим признакам совпадают, то ?d2=0, значит, ?=1 и, следовательно, связь полная прямая. Если ?= -1, связь полная обратная, при ?=0 связь между признаками отсутствует.
Коэффициент ассоциации применяется для установления меры связи между двумя качественными  альтернативными признаками. Для его вычисления строится комбинационная четырехклеточная таблица, которая выражает связь между двумя альтернативными явлениями.
Коэффициент ассоциации рассчитывается по формуле:

Коэффициент ассоциации также изменяется от -1 до +1. Чем А ближе к единице, тем  сильнее связаны между собой  изучаемые признаки. При ad>bc связь прямая, а при ad<bc связь обратная, при ad = bc A = 0 и связь отсутствует.
     Коэффициент взаимной сопряженности применяется  в тех случаях, когда требуется  установить связь между качественными  признаками, каждый из которых состоит из трех и более групп.
     Различия  между условным и безусловным  распределением свидетельствуют о  влиянии факторного признака на распределение  совокупности по результативному признаку, т.е. о наличии связи между факторным  и результативным признаками, а чем больше эти различия, тем в большей мере признаки связаны между собой, тем теснее связь между ними. Для определения степени тесноты связи вычисляется специальный показатель, который называется коэффициентом взаимной сопряженности. Он определяется по следующей формуле:

где n - число единиц совокупности;
m1и m2 - число групп по первому и второму признакам;
X2 - показатель абсолютной квадратической сопряженности Пирсона.
Показатель  абсолютной квадратической сопряженности Пирсона  характеризует  близость условных распределений к безусловным. Этот показатель, как и критерий X2, исчисляется по формуле:

где ?ij - частости условного распределения в i-й строке;
?j - частости безусловного распределения;
j - номер  столбца.
     Если  признаки независимы, то ?ij=?j, откуда X2=0 и, значит, С = 0. Если же связь функциональная, то коэффициент взаимной сопряженности будет равен единице. 

ЗАКЛЮЧЕНИЕ.
     Термин  «корреляция» был введен в науку  выдающимся английским естествоиспытателем  Френсисом Гальтоном в 1886 году. Однако точную формулу для подсчета коэффициента корреляции разработал его ученик Карл Пирсон.
     Задачи  с одним выходным параметром имеют  очевидные преимущества. Но на практике чаще всего приходится учитывать  несколько выходных параметров. Иногда их число довольно велико. Так, например, при производстве резиновых и пластмассовых изделий приходится учитывать физико-механические, технологические, экономические, художественно-эстетические и другие параметры (прочность, эластичность, относительное удлинение и т.д.). Математические модели можно построить для каждого из параметров, но одновременно оптимизировать несколько функций невозможно.
     Обычно  оптимизируется одна функция, наиболее важная с точки зрения цели исследования, при ограничениях, налагаемых другими  функциями. Поэтому из многих выходных параметров выбирается один в качестве параметра оптимизации, а остальные служат ограничениями. Всегда полезно исследовать возможность уменьшения числа выходных параметров. Для этого и используется корреляционный анализ.
     Особенно  реальную пользу применение аппарата корреляционного анализа может принести на стадии ранних исследований в областях, где характеры причин определённых явлений ещё недостаточно понятны. Это может касаться изучения очень сложных систем различного характера: как технических, так и социальных. 
 
 
 
 
 
 

СПИСОК  ЛИТЕРАТУРЫ:
1. Курс теории статистики: Учебник/Под ред. В.Н. Салина, Э.Ю. Чурикова. – М.: Финансы и Статистика, 2006.
2.  Годин А.М. Статистика: Учебник. – М.: Дашков и К’, 2008.
3.  Статистика: Учебник/Под ред. И.И. Елисеевой. – М.: Крокус, 2008
4.  Теория статистики: Учебник/Под ред. Г.П. Громыко. – М.: ИНФРА-М, 2000.
и т.д.................


Перейти к полному тексту работы


Скачать работу с онлайн повышением уникальности до 90% по antiplagiat.ru, etxt.ru или advego.ru


Смотреть полный текст работы бесплатно


Смотреть похожие работы


* Примечание. Уникальность работы указана на дату публикации, текущее значение может отличаться от указанного.