Значимость коэффициента корреляции зависит от. Понятие о ложности корреляции. Как рассчитать коэффициента корреляции Пирсона

Некоторые исследователи, вычислив значение коэффициента корреляции, на этом и останавливаются. Но с точки зрения грамотной методологии эксперимента следует определить и уровень значимости (то есть степень достоверности) данного коэффициента.

Уровень значимости коэффициента корреляции вычисляется при помощи таблицы критических значений. Ниже дан фрагмент указанной таблицы, позволяющий определить уровень значимости полученного нами коэффициента.

Мы выбираем ту строку, которая соответствует объему выборки. В нашем случае n = 10. Мы выбирает в данной строке то табличное значение, которое чуть меньше эмпирического (или точно равно ему, что бывает крайне редко). Это выделенное жирным шрифтом число 0,632. Оно относится к столбцу со значением уровня достоверности p = 0,05. То есть, фактически, эмпирическое значение занимает промежуточное положение между столбцами p = 0,05 и p = 0,01, следовательно, 0,05  p  0,01. Таким образом, мы отвергаем нулевую гипотезу и приходим к выводу, что полученный результат (R xy = 0,758) значим на уровне p < 0,05 (это уровень статистической значимости): R эмп > R кр (p < 0,05) H 0 ,  Н 1 ! ст. зн.

На бытовом языке это можно проинтерпретировать следующим образом: можно ожидать, что эта сила связи будет иметь место в выборке реже, чем в пяти случаях из 100, если эта связь – следствие случайности.

    1. Регрессионный анализ

X (рост)

Y (вес)

М х = 166,6

М y = 58,3

x = 6 , 54

y = 8 , 34

Регрессионный анализ используется для изучения взаимосвязи между двумя величинами, измеренными в интервальной шкале. Этот вид анализа предусматривает построение регрессионного уравнения, позволяющего количественно описать зависимость одного признака от другого (коэффициент корреляции Пирсона указывает на наличие или отсутствие связи, но эту связь не описывает). Зная случайную величину одного из признаков и используя данное уравнение, исследователь может с определенной степенью вероятности предсказать соответствующее значение второго признака. Линейная зависимость признаков описывается уравнением следующего типа:

у = а + b y * x ,

где а - свободный член уравнения, равный подъему графика в точке х=0 относительно оси абсцисс, b – угловой коэффициент наклона линии регрессии равный тангенсу угла наклона графика к оси абсцисс (при условии, что масштаб значений на обеих осях одинаков).

Зная значения исследуемых признаков, можно определить величину свободного члена и коэффициента регрессии по следующим формулам:

а = M y b y * M x

В нашем случае:
;

а = 58,3 – 0,97 * 166,6 = -103,3

Таким образом, формула зависимости веса от роста выглядит следующим образом: у = 0,969 * х – 103,3

Соответствующий график приведен ниже.

Если необходимо описать зависимость роста от веса (х от у ), то значения а и b становятся другими и формулы необходимо соответствующим образом модифицировать:

x = а + b x * у

а = M x b x * M y

Изменяется в таком случае и вид графика.

Коэффициент регрессии находится в тесной связи с коэффициентом корреляции. Последний представляет собой среднее геометрическое из коэффициентов регрессии признаков:

Квадрат коэффициента корреляции называется коэффициентом детерминации. Его величина определяет процентное взаимное влияние переменных. В нашем случае R 2 = 0,76 2 = 0,58 . Это значит, что 58 % общей дисперсии Y объясняется влиянием переменной X, остальные 42 % обусловлены влиянием неучтенных в уравнении факторов.

КУРСОВАЯ РАБОТА

Тема: Корреляционный анализ

Введение

1. Корреляционный анализ

1.1 Понятие корреляционной связи

1.2 Общая классификация корреляционных связей

1.3 Корреляционные поля и цель их построения

1.4 Этапы корреляционного анализа

1.5 Коэффициенты корреляции

1.6 Нормированный коэффициент корреляции Браве-Пирсона

1.7 Коэффициент ранговой корреляции Спирмена

1.8 Основные свойства коэффициентов корреляции

1.9 Проверка значимости коэффициентов корреляции

1.10 Критические значения коэффициента парной корреляции

2. Планирование многофакторного эксперимента

2.1 Условие задачи

2.2 Определение центр плана (основной уровень) и уровня варьирования факторов

2.3 Построение матрицы планирования

2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях

2.5 Коэффициенты уравнения регрессии

2.6 Дисперсия воспроизводимости

2.7 Проверка значимости коэффициентов уравнения регрессии

2.8 Проверка адекватности уравнения регрессии

Заключение

Список литературы

ВВЕДЕНИЕ

Планирование эксперимента -математико-статистическая дисциплина, изучающая методы рациональной организации экспериментальных исследований - от оптимального выбора исследуемых факторов и определения собственно плана эксперимента в соответствии с его целью до методов анализа результатов. Начало планирования эксперимента положили труды английского статистика Р.Фишера (1935), подчеркнувшего, что рациональное планирование экспериментадаёт не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений. В 60-х годах 20 века сложилась современная теория планирования эксперимента. Её методы тесно связаны с теорией приближения функций и математическим программированием. Построены оптимальные планы и исследованы их свойства для широкого класса моделей.

Планирование эксперимента – выбор плана эксперимента, удовлетворяющего заданным требованиям, совокупность действий направленных на разработку стратегии экспериментирования (от получения априорной информации до получения работоспособной математической модели или определения оптимальных условий). Это целенаправленное управление экспериментом, реализуемое в условиях неполного знания механизма изучаемого явления.

В процессе измерений, последующей обработки данных, а также формализации результатов в виде математической модели, возникают погрешности и теряется часть информации, содержащейся в исходных данных. Применение методов планирования эксперимента позволяет определить погрешность математической модели и судить о ее адекватности. Если точность модели оказывается недостаточной, то применение методов планирования эксперимента позволяет модернизировать математическую модель с проведением дополнительных опытов без потери предыдущей информации и с минимальными затратами.

Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.

Среди основных методов планирования, применяемых на разных этапах исследования, используют:

Планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;

Планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;

Планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);

Планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;

Планирование при изучении динамических процессов и т.д.

Целью изучения дисциплины является подготовка студентов к производственно-технической деятельности по специальности с применением методов теории планирования и современных информационных технологий.

Задачи дисциплины: изучение современных методов планирования, организации и оптимизации научного и промышленного эксперимента, проведения экспериментов и обработки полученных результатов.

1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

1.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, может ли рост влиять на вес человека или может ли давление влиять на качество продукции?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционные связи различаютсяпо форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (рисунок 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.

Рисунок 1 - Связь между эффективностью решения задачи и силой мотивационной тенденции

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (рисунок 2). При отрицательной корреляции соотношения обратные (рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак.

Рисунок 2 – Прямая корреляция

Рисунок 3 – Обратная корреляция


Рисунок 4 – Отсутствие корреляции

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

1.2 Общая классификация корреляционных связей

В зависимости от коэффициента корреляции различают следующие корреляционные связи:

Сильная, или тесная при коэффициенте корреляции r>0,70;

Средняя (при 0,50

Умеренная (при 0,30

Слабая (при 0,20

Очень слабая (при r<0,19).

1.3 Корреляционные поля и цель их построения

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μ x , μ y – средние значения (математические ожидания); σ x ,σ y – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

Следует отметить, что истинным показателем степени линейной связи переменных является теоретический коэффициент корреляции , который рассчитывается на основании данных всей генеральной совокупности (т.е. всех возможных значений показателей):

где - теоретический показатель ковариции , который вычисляется как математическое ожидание произведений отклонений СВ
иот их математических ожиданий.

Как правило, теоретический коэффициент корреляции мы рассчитать не можем. Однако из того, что выборочный коэффициент не равен нулю
не следует, что теоретический коэффициент также
(т.е. показатели могут быть линейно независимыми). Т.о. по данным случайной выборки нельзя утверждать, что связь между показателями существует.

Выборочный коэффициент корреляции является оценкой теоретического коэффициента, т.к. он рассчитывается лишь для части значений переменных.

Всегда существует ошибка коэффициента корреляции . Эта ошибка - расхождение между коэффициентом корреляции выборки объемом и коэффициентом корреляции для генеральной совокупности определяется формулами:

при
; и
при
.

Проверка значимости коэффициента линейной корреляции означает проверку того, насколько мы можем доверять выборочным данным.

С этой целью проверяется нулевая гипотеза
о том, что значение коэффициента корреляции для генеральной совокупности равно нулю, т.е.в генеральной совокупности отсутствует корреляция . Альтернативной является гипотеза
.

Для проверки этой гипотезы рассчитывается - статистика (-критерий) Стьюдента:

.

Которая имеет распределение Стьюдента с
степенями свободы 1 .

По таблицам распределения Стьюдента определяется критическое значение
.

Если рассчитанное значение критерия
, то нуль-гипотеза отвергается, то есть вычисленный коэффициент корреляции значимо отличается от нуля с вероятностью
.

Если же
, тогда нулевая гипотеза не может быть отвергнута. В этом случае не исключается, что истинное значение коэффициента корреляции равно нулю, т.е. связь показателей можно считать статистически незначимой.

Пример 1 . В таблице приведены данные за 8 лет о совокупном доходе и расходах на конечное потребление.

Изучить и измерить тесноту взаимосвязи между заданными показателями.

Тема 4. Парная линейная регрессия. Метод наименьших квадратов

Коэффициент корреляции указывает на степень тесноты взаимосвязи между двумя признаками, но он не дает ответа на вопрос, как изменение одного признака на одну единицу его размерности влияет на изменение другого признака. Для того чтобы ответить на этот вопрос, пользуются методами регрессионного анализа.

Регрессионный анализ устанавливает форму зависимости между случайной величиной и значениями переменной величины
, причем, значения
считаются точно заданными.

Уравнение регрессии – это формула статистической связи между переменными.

Если эта формула линейна, то речь идет о линейной регрессии. Формула статистической связи двух переменных называется парной регрессией (нескольких переменных – множественной ).

Выбор формулы зависимости называется спецификацией уравнения регрессии. Оценка значений параметров выбранной формулы называется параметризацией .

Как же оценить значения параметров и проверить надёжность сделанных оценок?

Рассмотрим рисунок

    На графике (а) взаимосвязь х и у близка к линейной, прямая линия 1 здесь близка к точкам наблюдений и последние отклоняются от неё лишь в результате сравнительно небольших случайных воздействий.

    На графике (б) реальная взаимосвязь величин х и у описывается нелинейной функцией 2, и какую бы мы ни провели прямую линию (например, 1), отклонения точек от неё будут неслучайными.

    На графике (в) взаимосвязь между переменными х и у отсутствует, и результаты параметризации любой формулы зависимости будут неудачными.

Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Всегда можно попытаться провести такую прямую линию, которая будет «ближайшей» к точкам наблюдений по их совокупности (например, на рисунке (в) лучшей будет прямая 1, чем прямая 2).

Теоретическое уравнение парной линейной регрессии имеет вид:


,

где
называютсятеоретическими параметрами (теоретическими коэффициентами ) регрессии; -случайным отклонением (случайной ошибкой ).

В общем виде теоретическую модель будем представлять в виде:

.

Для определения значений теоретических коэффициентов регрессии необходимо знать все значения переменных Х и Y , т.е. всю генеральную совокупность, что практически невозможно.

Задача состоит в следующем: по имеющимся данным наблюдений
,
необходимо оценить значения параметров
.

Пусть а оценка параметра
,b оценка параметра .

Тогда оценённое уравнение регрессии имеет вид:
,

где
теоретические значения зависимой переменнойy , - наблюдаемые значения ошибок. Это уравнение называетсяэмпирическим уравнением регрессии . Будем его записывать в виде
.

В основе оценки параметров линейной регрессии лежит Метод Наименьших Квадратов (МНК) – это метод оценивания параметров линейной регрессии, минимизирующий сумму квадратов отклонений наблюдений зависимой переменной от искомой линейной функции.

Функция Q является квадратичной функцией двух параметров a и b . Т.к. она непрерывна, выпукла и ограничена снизу (
), поэтому она достигает минимума. Необходимым условием существования минимума является равенство нулю её частных производных поa и b :


.

Разделив оба уравнения системы на n , получим:


или

Иначе можно записать:

и  средние квадратические отклонения значений тех же признаков.

Т.о. линия регрессии проходит через точку со средними значениями х и у
, акоэффициент регрессии b пропорционален показателю ковариации и коэффициенту линейной корреляции.

Если кроме регрессии Y на X для тех же эмпирических значений найдено уравнение регрессии X на Y (
, где
), то произведение коэффициентов
:

.

Коэффициент регрессии  это величина, показывающая, на сколько единиц размерности изменится величина при изменении величинына одну единицу ее размерности. Аналогично определяется коэффициент.

; ; .

Теперь вычислим значения выборочных средних квадратических отклонений:

https://pandia.ru/text/78/148/images/image443_0.gif" width="413" height="60 src=">.

Корреляционная связь между уровнем https://pandia.ru/text/78/148/images/image434_0.gif" width="25" height="24"> у десятиклассников, тем выше средний уровень успеваемости по математике, и наоборот.

2. Проверка значимости коэффициента корреляции

Так как выборочный коэффициент вычисляется по выборочным данным, то он является случайной величиной. Если , то возникает вопрос: объясняется ли это действительно существующей линейной связью между иhttps://pandia.ru/text/78/148/images/image301_1.gif" width="29" height="25 src=">.gif" width="27" height="25">: (если не известен знак корреляции); или односторонней https://pandia.ru/text/78/148/images/image448_0.gif" width="43" height="23 src=">.gif" width="43" height="23 src="> (если знак корреляции может быть заранее определен).

Способ 1. Для проверки гипотезы используется https://pandia.ru/text/78/148/images/image150_1.gif" width="11" height="17 src=">-критерия Стьюдента по формуле

https://pandia.ru/text/78/148/images/image406_0.gif" width="13" height="15">.gif" width="36 height=25" height="25">.gif" width="17" height="16"> и числе степеней свободы для двустороннего критерия.

Критическая область задается неравенством .

Если https://pandia.ru/text/78/148/images/image455_0.gif" width="99" height="29 src=">, то нулевая гипотеза отклоняется. Делаем выводы:

§ для двусторонней альтернативной гипотезы – коэффициент корреляции значимо отличается от нуля;

§ для односторонней гипотезы – существует статистически значимая положительная (или отрицательная) корреляция.

Способ 2. Можно воспользоваться также таблицей критических значений коэффициента корреляции , из которой находим величину критического значения коэффициента корреляции по числу степеней свободы https://pandia.ru/text/78/148/images/image367_1.gif" width="17 height=16" height="16">.

Если https://pandia.ru/text/78/148/images/image459_0.gif" width="101" height="29 src=">, то делается вывод, что коэффициент корреляции значимо отличатся от 0 и существует статистически значимая корреляция .

Так, одни явления могут одновременно, но независимо друг от друга (совместные события) происходить или изменяться (ложная регрессия). Другие – находиться в причинной зависимости не друг с другом, а по более сложной причинно-следственной связи (косвенная регрессия). Таким образом, при значимом коэффициенте корреляции окончательный вывод о наличии причинно-следственной связи можно сделать только с учетом специфики исследуемой проблемы.

Пример 2. Определить значимость выборочного коэффициента корреляции, вычисленного в примере 1.

Решение.

Выдвинем гипотезу : о том, что в генеральной совокупности отсутствует корреляция. Так как знак корреляции в результате решения примера 1 определен – корреляция положительна, то альтернативная гипотеза является односторонней вида https://pandia.ru/text/78/148/images/image448_0.gif" width="43" height="23 src=">.

Найдем эмпирическое значение -критерия:

https://pandia.ru/text/78/148/images/image461_0.gif" width="167 height=20" height="20">, уровень значимости выберем равным . По таблице «Критические значения -критерия Стьюдента при различных уровнях значимости» находим критическое значение .

Так как https://pandia.ru/text/78/148/images/image434_0.gif" width="25 height=24" height="24"> и средним уровнем успеваемости по математике существует статистически значимая корреляция.

Тестовые задания

1. Отметьте не менее двух правильных ответов. Проверка значимости выборочного коэффициента корреляции основана на статистической проверке гипотезы о том, что …

1) в генеральной совокупности отсутствует корреляция

2) отличие от нуля выборочного коэффициента корреляции объясняется только случайностью выборки

3) коэффициент корреляции значимо отличается от 0

4) отличие от нуля выборочного коэффициента корреляции не случайно

2. Если выборочный коэффициент линейной корреляции , то большему значению одного признака соответствует … большее значение другого признака.

1) в среднем

3) в большинстве наблюдений

4) изредка

3. Выборочный коэффициент корреляции https://pandia.ru/text/78/148/images/image465_0.gif" width="64" height="23 src="> (для объема выборки и уровне значимости 0,05). Можно ли говорить, что существует статистически значимая положительная корреляция между психологическими признаками?

5. Пусть в задаче выявления силы линейной связи между психологическими признаками найден выборочный коэффициент корреляции https://pandia.ru/text/78/148/images/image466_0.gif" width="52 height=20" height="20"> и уровне значимости 0,05). Можно ли говорить, что отличие от нуля выборочного коэффициента корреляции объясняется только случайностью выборки?

Тема 3. коэффициенты ранговой корреляции и ассоциации

1. Коэффициент ранговой корреляции https://pandia.ru/text/78/148/images/image130_3.gif" width="21 height=19" height="19"> и. Число значений признаков (показателей, испытуемых, качеств, черт) может быть любым, но их число должно быть одинаково.

Испытуемые

Ранги признака

Ранги признака

Обозначим разность между рангами по двум переменным для каждого испытуемого через https://pandia.ru/text/78/148/images/image470_0.gif" width="319" height="66">,

где - количество значений ранжируемых признаков, показателей.

Коэффициент корреляции рангов принимает значения в пределах от –1 до +1 и рассматривается как средство быстрой оценки коэффициента корреляции Пирсона .

Для проверки значимости коэффициента корреляции рангов Спирмена (если число значений https://pandia.ru/text/78/148/images/image472_0.gif" width="55" height="29"> зависит от числа и уровня значимости . Если эмпирическое значение больше , то на уровне значимости можно утверждать, что признаки связаны корреляционной зависимостью.

Пример 1. Психолог выясняет, как связаны результаты успеваемости учащихся по математике и физике, результаты которых приведены в виде ранжированного ряда по фамилиям.

Учащийся

Сумма

Успеваемость

по математике

Успеваемость

по физике

Квадрат разности между рангами

Вычислим сумму , тогда коэффициент корреляции рангов Спирмена равен:

Проверим значимость найденного рангового коэффициента корреляции . Найдем критические значения коэффициента ранговой корреляции Спирмена по таблице (см. Приложения) для :

https://pandia.ru/text/78/148/images/image480_0.gif" width="72" height="25"> больше значения = 0,64 и значения 0,79. Это говорит о том, что значение попало в область значимости коэффициента корреляции. Поэтому можно утверждать, что коэффициент корреляции рангов Спирмена значимо отличается от 0; значит, результаты успеваемости учащихся по математике и физике связаны положительной корреляционной зависимостью . Существует значимая положительная корреляция между успеваемостью по математике и успеваемостью по физике: чем лучше успеваемость по математике, тем в среднем лучше результаты по физике, и наоборот.

Сравнивая коэффициенты корреляции Пирсона и Спирмена, отметим, что коэффициент корреляции Пирсона соотносит значения величин , а коэффициент корреляции Спирмена – значения рангов этих величин, поэтому значения коэффициентов Пирсона и Спирмена часто оказываются несовпадающими.

Для более полного осмысления экспериментального материала, получаемого в психологических исследованиях, целесообразно осуществлять подсчет коэффициентов и по Пирсону, и по Спирмену.

Замечание . При наличии одинаковых рангов в ранговых рядах и в числитель формулы вычисления коэффициента корреляции рангов добавляются слагаемые – «поправки на ранги»: ; ,

где https://pandia.ru/text/78/148/images/image130_3.gif" width="21" height="19">;

https://pandia.ru/text/78/148/images/image165_1.gif" width="16" height="19">.

В этом случае формула для вычисления коэффициента ранговой корреляции принимает вид https://pandia.ru/text/78/148/images/image485_0.gif" width="16" height="19">.

Условия применения коэффициента ассоциации .

1. Сравниваемые признаки измерены в дихотомической шкале.

2..gif" width="21" height="19">, , обозначенные символами 0 и 1, приведены в таблице.

Номер наблюдения


Введение. 2

1. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента. 3

2. Расчет значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента. 6

Заключение. 15

После построения уравнения регрессии необходимо сделать проверку его значимости: с помощью специальных критериев установить, не является ли полученная зависимость, выраженная уравнением регрессии, случайной, т.е. можно ли ее использовать в прогнозных целях и для факторного анализа. В статистике разработаны методики строгой проверки значимости коэффициентов регрессии с помощью дисперсионного анализа и расчета специальных критериев (например, F-критерия). Нестрогая проверка может быть выполнена путем расчета среднего относительного линейного отклонения (ё), называемого средней ошибкой аппроксимации:

Перейдем теперь к оценке значимости коэффициентов регрессии bj и построению доверительного интервала для параметров регрессионной модели Ру (J=l,2,..., р).

Блок 5 - оценка значимости коэффициентов регрессий по величине ^-критерия Стьюдента. Расчетные значения ta сравниваются с допустимым значением

Блок 5 - оценка значимости коэффициентов регрессий по величине ^-критерия. Расчетные значения t0n сравниваются с допустимым значением 4,/, которое определяется по таблицам t - распределения для заданной вероятности ошибок (а) и числа степеней свободы (/).

Кроме проверки значимости всей модели, необходимо провести проверки значимости коэффициентов регрессии по /-критерию Стюдента. Минимальное значение коэффициента регрессии Ьг должно соответствовать условию bifob- ^t, где bi - значение коэффициента уравнения регрессии в натуральном масштабе при i-ц факторном признаке; аь. - средняя квадратическая ошибка каждого коэффициента. несопоставимость между собой по своей значимости коэффициентов D;

Дальнейший статистический анализ касается проверки значимости коэффициентов регрессии. Для этого находим значение ^-критерия для коэффициентов регрессии. В результате их сравнения определяется наименьший по величине ^-критерий. Фактор, коэффициенту которого соответствует наименьший ^-критерий, исключается из дальнейшего анализа.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стъюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Но о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

Оценка значимости коэффициентов чистой регрессии с помощью /-критерия Стьюдента сводится к вычислению значения

Качество труда - характеристика конкретного труда, отражающая степень его сложности, напряженности (интенсивности), условия и значимость для развития экономики. К.т. измеряется посредством тарифной системы, позволяющей дифференцировать заработную плату в зависимости от уровня квалификации (сложности труда), условий, тяжести труда и его интенсивности, а также значимости отдельных отраслей и производств, районов, территорий для развития экономики страны. К.т. находит выражение в заработной плате работников, складывающейся на рынке труда под воздействием спроса и предложения рабочей силы (конкретные виды труда). К.т. - сложная по структуре

Полученные баллы относительной значимости отдельных экономических, социальных и экологических последствий осуществления проекта дают далее основу для сравнения альтернативных проектов и их вариантов с помощью "комплексного балльного безразмерного критерия социальной и эколого-экономической эффективности" проекта Эк, рассчитываемого (в усредненных баллах значимости) по формуле

Внутриотраслевое регулирование обеспечивает различия в оплате труда работников данной отрасли промышленности в зависимости от значимости отдельных.видов производства данной отрасли, от сложности и условий труда, а также от применяемых форм оплаты труда.

Полученная рейтинговая оценка анализируемого предприятия по отношению к предприятию-эталону без учета значимости отдельных показателей является сравнительной. При сравнении рейтинговых оценок нескольких предприятий наивысший рейтинг имеет предприятие с минимальным значением полученной сравнительной оценки.

Понимание качества товара как меры его полезности ставит практически важный вопрос об её измерении. Его решение достигается изучением значимости отдельных свойств в удовлетворении определенной потребности. Значимость даже одного и того же свойства может быть неодинаковой в зависимости от условий потребления продукта. Следовательно, и полезность товара в разных обстоятельствах её использования различна.

Второй этап работы - изучение статистических данных и выявление взаимосвязи и взаимодействия показателей, определение значимости отдельных факторов и причин изменения общих показателей.

Все рассматриваемые показатели сводятся в один таким образом, что в результате получается комплексная оценка всех анализируемых сторон деятельности предприятия с учетом условий его деятельности, с учетом степени значимости отдельных показателей для различных типов инвесторов:

Коэффициенты регрессии показывают интенсивность влияния факторов на результативный показатель. Если проведена предварительная стандартизация факторных показателей, то Ь0 равняется среднему значению результативного показателя в совокупности. Коэффициенты Ь, Ь2 ..... Ьл показывают, на сколько единиц уровень результативного показателя отклоняется от своего среднего значения, если значения факторного показателя отклоняются от среднего, равного нулю, на одно стандартное отклонение. Таким образом, коэффициенты регрессии характеризуют степень значимости отдельных факторов для повышения уровня результативного показателя. Конкретные значения коэффициентов регрессии определяют по эмпирическим данным согласно методу наименьших квадратов (в результате решения систем нормальных уравнений).

2. Расчет значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента

Рассмотрим линейную форму многофакторных связей не только как наиболее простую, но и как форму, предусмотренную пакетами прикладных программ для ПЭВМ. Если же связь отдельного фактора с результативным признаком не является линейной, то производят линеаризацию уравнения путем замены или преобразования величины факторного признака.

Общий вид многофакторного уравнения регрессии имеет вид:


где k - число факторных признаков.

Чтобы упростить систему уравнений МНК, необходимую для вычисления параметров уравнения (8.32), обычно вводят величины отклонений индивидуальных значений всех признаков от средних величин этих признаков.

Получаем систему k уравнений МНК:

Решая эту систему, получаем значения коэффициентов условно-чистой регрессии b. Свободный член уравнения вычисляется по формуле


Термин «коэффициент условно-чистой регресии» означает, что каждая из величин bj измеряет среднее по совокупности отклонение результативного признака от его средней величины при отклонении данного фактора хj от своей средней величины на единицу его измерения и при условии, что все прочие факторы, входящие в уравнение регрессии, закреплены на средних значениях, не изменяются, не варьируют.

Таким образом, в отличие от коэффициента парной регрессии коэффициент условно-чистой регрессии измеряет влияние фактора, абстрагируясь от связи вариации этого фактора с вариацией остальных факторов. Если было бы возможным включить в уравнение регрессии все факторы, влияющие на вариацию результативного признака, то величины bj. можно было бы считать мерами чистого влияния факторов. Но так как реально невозможно включить все факторы в уравнение, то коэффициенты bj. не свободны от примеси влияния факторов, не входящих в уравнение.

Включить все факторы в уравнение регрессии невозможно по одной из трех причин или сразу по ним всем, так как:

1) часть факторов может быть неизвестна современной науке, познание любого процесса всегда неполное;

2) по части известных теоретических факторов нет информации либо таковая ненадежна;

3) численность изучаемой совокупности (выборки) ограничена, что позволяет включить в уравнение регрессии ограниченное число факторов.

Коэффициенты условно-чистой регрессии bj. являются именованными числами, выраженными в разных единицах измерения, и поэтому несравнимы друг с другом. Для преобразования их в сравнимые относительные показатели применяется то же преобразование, что и для получения коэффициента парной корреляции. Полученную величину называют стандартизованным коэффициентом регрессии или?-коэффициентом.


Коэффициент при факторе хj, определяет меру влияния вариации фактора хj на вариацию результативного признака у при отвлечении от сопутствующей вариации других факторов, входящих в уравнение регрессии.

Коэффициенты условно-чистой регрессии полезно выразить в виде относительных сравнимых показателей связи, коэффициентов эластичности:

Коэффициент эластичности фактора хj говорит о том, что при отклонении величины данного фактора от его средней величины на 1% и при отвлечении от сопутствующего отклонения других факторов, входящих в уравнение, результативный признак отклонится от своего среднего значения на ej процентов от у. Чаще интерпретируют и применяют коэффициенты эластичности в терминах динамики: при увеличении фактора х.на 1% его средней величины результативный признак увеличится на е. процентов его средней величины.

Рассмотрим расчет и интерпретацию уравнения многофакторной регрессии на примере тех же 16 хозяйств (табл. 8.1). Результативный признак - уровень валового дохода и три фактора, влияющих на него, представлены в табл. 8.7.

Напомним еще раз, что для получения надежных и достаточно точных показателей корреляционной связи необходима более многочисленная совокупность.


Таблица 8.7

Уровень валового дохода и его факторы

Номера хозяйств

Валовой доход, руб./ra у

Затраты труда, чел.-дни/га х1

Доля пашни,

Надой молока на 1 корову,


Таблица 8.8 Показатели уравнения регрессии


Dependent variable: у

Regression coefficient

Constant-240,112905

Std. error оf est. = 79,243276


Решение проведено по программе «Microstat» для ПЭВМ. Приведем таблицы из распечатки: табл. 8.7 дает средние величины и средние квадратические отклонения всех признаков. Табл. 8.8 содержит коэффициенты регрессии и их вероятностную оценку:

первая графа «var» - переменные, т. е. факторы; вторая графа «regression coefficient» - коэффициенты условно-чистой регрессии bj; третья графа «std. errror» - средние ошибки оценок коэффициентов регрессии; четвертая графа - значения t-критерия Стьюдента при 12 степенях свободы вариации; пятая графа «prob» - вероятности нулевой гипотезы относительно коэффициентов регрессии;

шестая графа «partial r2» - частные коэффициенты детерминации. Содержание и методика расчета показателей в графах 3-6 рассматриваются далее в главе 8. «Constant» - свободный член уравнения регрессии a; «Std. error of est.» - средняя квадратическая ошибка оценки результативного признака по уравнению регрессии. Было получено уравнение множественной регрессии:


у= 2,26x1 - 4,31х2 + 0,166х3 - 240.


Это означает, что величина валового дохода на 1 га сельхозугодий в среднем по совокупности возрастала на 2,26 руб. при увеличении затрат труда на 1 ч/га; уменьшалась в среднем на 4,31 руб. при возрастании доли пашни в сельхозугодиях на 1% и увеличивалась на 0,166 руб. при росте надоя молока на корову на 1 кг. Отрицательная величина свободного члена вполне закономерна, и, как уже отмечено в п. 8.2, результативный признак - валовой доход становится нулевым задолго до достижения нулевых значений факторов, которое в производстве невозможно.

Отрицательное значение коэффициента при х^ - сигнал о существенном неблагополучии в экономике изучаемых хозяйств, где растениеводство убыточно, а прибыльно только животноводство. При рациональных методах ведения сельского хозяйства и нормальных ценах (равновесных или близких к ним) на продукцию всех отраслей, доход должен не уменьшаться, а возрастать с увеличением наиболее плодородной доли в сельхозугодиях - пашни.

На основе данных предпоследних двух строк табл. 8.7 и табл. 8.8 рассчитаем р-коэффициенты и коэффициенты эластичности согласно формулам (8.34) и (8.35).

Как на вариацию уровня дохода, так и на его возможное изменение в динамике самое сильное влияние оказывает фактор х3 - продуктивность коров, а самое слабое - х2 - доля пашни. Значения Р2/ будут использоваться в дальнейшем (табл. 8.9);


Таблица 8.9 Сравнительное влияние факторов на уровень дохода

Факторы хj


Итак, мы получили, что?-коэффициент фактора хj относится к коэффициенту эластичности этого фактора, как коэффициент вариации фактора к коэффициенту вариации результативного признака. Поскольку, как видно по последней строке табл. 8.7, коэффициенты вариации всех факторов меньше коэффициента вариации результативного признака; все?-коэффициенты меньше коэффициентов эластичности.

Рассмотрим соотношение между парным и условно-чистым коэффициентом регрессии на примере фактора -с,. Парное линейное уравнение связи у с х, имеет вид:


y = 3,886x1 – 243,2


Условно-чистый коэффициент регрессии при x1, составляет только 58% парного. Остальные 42% связаны с тем, что вариации x1 сопутствует вариация факторов x2 x3, которая, в свою очередь, влияет на результативный признака. Связи всех признаков и их коэффициенты парных регрессий представлены на графе связей (рис. 8.2).

Если сложить оценки прямого и опосредованного влияния вариации х1 на у, т. е. произведения коэффициентов парных регрессий по всем «путям» (рис. 8.2), получим: 2,26 + 12,55·0,166 + (-0,00128)·(-4,31) + (-0,00128)·17,00·0,166 = 4,344.

Эта величина даже больше парного коэффициента связи x1 с у. Следовательно, косвенное влияние вариации x1 через не входящие в уравнение признаки-факторы - обратное, дающее в сумме:


1 Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. Учебник для вузов. - М.: ЮНИТИ, 2008,– 311с.

2 Джонстон Дж. Эконометрические методы. - М.: Статистика, 1980,. – 282с.

3 Доугерти К. Введение в эконометрику. - М.: ИНФРА-М, 2004, – 354с.

4 Дрейер Н., Смит Г., Прикладной регрессионный анализ. - М.: Финансы и статистика, 2006,– 191с.

5 Магнус Я.Р., Картышев П.К., Пересецкий А.А. Эконометрика. Начальный курс.-М.: Дело, 2006, – 259с.

6 Практикум по эконометрике/Под ред. И.И.Елисеевой.- М.: Финансы и статистика, 2004, – 248с.

7 Эконометрика/Под ред. И.И.Елисеевой.- М.: Финансы и статистика, 2004, – 541с.

8 Кремер Н., Путко Б. Эконометрика.- М.:ЮНИТИ-ДАНА,200, – 281с.



Репетиторство

Нужна помощь по изучению какой-либы темы?

Наши специалисты проконсультируют или окажут репетиторские услуги по интересующей вас тематике.
Отправь заявку с указанием темы прямо сейчас, чтобы узнать о возможности получения консультации.