Пакет программ майкрософт, как эффективное средство эконометрического анализа. Множественный коэффициент корреляции и коэффициент детерминации

Коэффициент обладает следующими свойствами:

1) не имеет размерности, следовательно, сопоставим для величин различных порядков;

2) изменяется в диапазоне от –1 до +1. Положительное значение свидетельствует о прямой линейной связи, отрицательное – об обратной. Чем ближе абсолютное значение коэффициента к единице, тем теснее связь. Считается, что связь достаточно сильная, если коэффициент по абсолютной величине превышает 0,7, и слабая, если он менее 0,3.

Значение коэффициента легко вычисляется при помощи MS Excel (функция КОРРЕЛ).

Величина r 2 называется коэффициентом детерминации . Он определяет долю вариации одной из переменных, которая объясняется вариацией другой переменной.

6. Коэффициент множественной корреляции

Экономические явления чаще всего адекватно описываются именно многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренное выше корреляционное отношение (6.4) на случай нескольких переменных.

Теснота линейной взаимосвязи между переменной y и рядом переменных x j , рассматриваемых в целом, может быть определена с помощью коэффициента множественной корреляции .

Предположим, что переменная y испытывает влияние двух переменных - x и z . В этом случае коэффициент множественной корреляции может быть определен по формуле:

. (6.9)

где r yx , r yz , r xz - простые коэффициенты линейной парной корреляции, определенные из соотношения (6.4).

Коэффициент множественной корреляции заключен в пределах 0 ≤ R ≤ 1. Он не меньше, чем абсолютная величина любого парного или частного коэффициента корреляции с таким же первичным индексом.

С помощью множественного коэффициента (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не о ее направлении. Величина R 2 , называемая множественным коэффициентом детерминации , показывает, какую долю вариации исследуемой переменной (y ) объясняет вариация остальных учтенных переменных (x , z ).

7. Коэффициент частной корреляции

Иногда представляет интерес измерение частных зависимостей (между y и x j ) при условии, что воздействие других факторов, принимаемых во внимание, устранено. В качестве соответствующих измерителей приняты коэффициенты частной корреляции .

Рассмотрим порядок расчета коэффициента частной корреляции для случая, когда во взаимосвязи находятся три случайные переменные – x , y , z . Для них могут быть получены простые коэффициенты линейной парной корреляции – r yx , r yz , r xz . Однако большая величина этого коэффициента может быть обусловлена не только тем, что y и x действительно связаны между собой, но и в силу того, что обе переменные испытывают сильное действие третьего фактора – z .

Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x ) при условии, что влияние на них третьего фактора (z ) устранено.

Соответствующая расчетная формула:

. (6.10)

Частный коэффициент корреляции, так же как и парный коэффициент корреляции r (рассчитанный по формуле (6.4)), может принимать значения от -1 до 1.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других рассматриваемых переменных.
Особое значение имеет расчет множественного коэффициента корреляции результативного признака y с факторными x 1 , x 2 ,…, x m , формула для определения которого в общем случае имеет вид

где ∆ r – определитель корреляционной матрицы; ∆ 11 – алгебраическое дополнение элемента r yy корреляционной матрицы.
Если рассматриваются лишь два факторных признака, то для вычисления множественного коэффициента корреляции можно использовать следующую формулу:

Построение множественного коэффициента корреляции целесообразно только в том случае, когда частные коэффициенты корреляции оказались значимыми, и связь между результативным признаком и факторами, включенными в модель, действительно существует.

Коэффициент детерминации

Общая формула: R 2 = RSS/TSS=1-ESS/TSS
где RSS - объясненная сумма квадратов отклонений, ESS - необъясненная (остаточная) сумма квадратов отклонений, TSS - общая сумма квадратов отклонений (TSS=RSS+ESS)

,
где r ij - парные коэффициенты корреляции между регрессорами x i и x j , a r i 0 - парные коэффициенты корреляции между регрессором x i и y ;
- скорректированный (нормированный) коэффициент детерминации.

Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации ; он показывает, какая доля дисперсии результативного признака y объясняется влиянием факторных признаков x 1 , x 2 , …,x m . Заметим, что формула для вычисления коэффициента детерминации через соотношение остаточной и общей дисперсии результативного признака даст тот же результат.
Множественный коэффициент корреляции и коэффициент детерминации изменяются в пределах от 0 до 1. Чем ближе к 1, тем связь сильнее и, соответственно, тем точнее уравнение регрессии, построенное в дальнейшем, будет описывать зависимость y от x 1 , x 2 , …,x m . Если значение множественного коэффициента корреляции невелико (меньше 0,3), это означает, что выбранный набор факторных признаков в недостаточной мере описывает вариацию результативного признака либо связь между факторными и результативной переменными является нелинейной.

Рассчитывается множественный коэффициент корреляции с помощью калькулятора . Значимость множественного коэффициента корреляции и коэффициента детерминации проверяется с помощью критерия Фишера .

Какое из приведенных чисел может быть значением коэффициента множественной детерминации:
а) 0,4 ;
б) -1;
в) -2,7;
г) 2,7.

Множественный линейный коэффициент корреляции равен 0.75 . Какой процент вариации зависимой переменной у учтен в модели и обусловлен влиянием факторов х 1 и х 2 .
а) 56,2 (R 2 =0.75 2 =0.5625);

Построение линейной регрессии, оценивание ее параметров и их значимости можно выполнить значительнее быстрей при использовании пакета анализа Excel (Регрессия). Рассмотрим интерпретацию полученных результатов в общем случае (k объясняющих переменных) по данным примера 3.6.

В таблице регрессионной статистики приводятся значения:

Множественный R – коэффициент множественной корреляции ;

R - квадрат – коэффициент детерминации R 2 ;

Нормированный R - квадрат – скорректированный R 2 с поправкой на число степеней свободы;

Стандартная ошибка – стандартная ошибка регрессии S ;

Наблюдения – число наблюдений n .

В таблице Дисперсионный анализ приведены:

1. Столбец df - число степеней свободы, равное

для строки Регрессия df = k ;

для строкиОстаток df = n k – 1;

для строкиИтого df = n – 1.

2. Столбец SS – сумма квадратов отклонений, равная

для строки Регрессия ;

для строкиОстаток ;

для строкиИтого .

3. Столбец MS дисперсии, определяемые по формуле MS = SS /df :

для строки Регрессия – факторная дисперсия;

для строкиОстаток – остаточная дисперсия.

4. Столбец F – расчетное значение F -критерия, вычисляемое по формуле

F = MS (регрессия)/MS (остаток).

5. Столбец Значимость F –значение уровня значимости, соответствующее вычисленной F -статистике.

Значимость F = FРАСП(F- статистика, df (регрессия), df (остаток)).

Если значимость F < стандартного уровня значимости, то R 2 статистически значим.

Коэффи-циенты Стандартная ошибка t-cта-тистика P-значение Нижние 95% Верхние 95%
Y 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

В этой таблице указаны:

1. Коэффициенты – значения коэффициентов a , b .

2. Стандартная ошибка стандартные ошибки коэффициентов регрессии S a , S b .



3. t- статистика – расчетные значения t -критерия, вычисляемые по формуле:

t-статистика = Коэффициенты / Стандартная ошибка.

4.Р -значение (значимость t ) – это значение уровня значимости, соответствующее вычисленной t- статистике.

Р -значение = СТЬЮДРАСП (t -статистика, df (остаток)).

Если Р -значение < стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. Нижние 95% и Верхние 95% – нижние и верхние границы 95 %-ных доверительных интервалов для коэффициентов теоретического уравнения линейной регрессии.

ВЫВОД ОСТАТКА
Наблюдение Предсказанное y Остатки e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

В таблице ВЫВОД ОСТАТКА указаны:

в столбце Наблюдение – номер наблюдения;

в столбце Предсказанное y – расчетные значения зависимой переменной;

в столбце Остатки e – разница между наблюдаемыми и расчетными значениями зависимой переменной.

Пример 3.6. Имеются данные (усл. ед.) о расходах на питание y и душевого дохода x для девяти групп семей:

x
y

Используя результаты работы пакета анализа Excel (Регрессия), проанализируем зависимость расходов на питание от величины душевого дохода.

Результаты регрессионного анализа принято записывать в виде:

где в скобках указаны стандартные ошибки коэффициентов регрессии.

Коэффициенты регрессии а = 65,92 и b = 0,107. Направление связи между y и x определяет знак коэффициентарегрессии b = 0,107, т.е. связь является прямой и положительной. Коэффициент b = 0,107 показывает, что при увеличении душевого дохода на 1 усл. ед. расходы на питание увеличиваются на 0,107 усл. ед.

Оценим значимость коэффициентов полученной модели. Значимость коэффициентов (a, b ) проверяется по t -тесту:

Р-значение (a ) = 0,00080 < 0,01 < 0,05

Р-значение (b ) = 0,00016 < 0,01 < 0,05,

следовательно, коэффициенты (a, b ) значимы при 1 %-ном уровне, а тем более при 5 %-ном уровне значимости. Таким образом, коэффициенты регрессии значимы и модель адекватна исходным данным.

Результаты оценивания регрессии совместимы не только с полученными значениями коэффициентов регрессии, но и с некоторым их множеством (доверительным интервалом). С вероятностью 95 % доверительные интервалы для коэффициентов есть (38,16 – 93,68) для a и (0,0728 – 0,142) для b.

Качество модели оценивается коэффициентом детерминации R 2 .

Величина R 2 = 0,884 означает, что фактором душевого дохода можно объяснить 88,4 % вариации (разброса) расходов на питание.

Значимость R 2 проверяется по F- тесту: значимость F = 0,00016 < 0,01 < 0,05, следовательно, R 2 значим при 1 %-ном уровне, а тем более при 5 %-ном уровне значимости.

В случае парной линейной регрессии коэффициент корреляции можно определить как . Полученное значение коэффициента корреляции свидетельствует, что связь между расходами на питание и душевым доходом очень тесная.

Суть каузальных методов прогнозирования состоит в установлении математической связи между результирующей и факторными переменными.

Необходимым условием применения каузальных методов прогнозирования является наличие большого объема данных. Если связи между переменными удается описать математически корректно, то точность каузального прогноза будет достаточно высокой.
К каузальным методам прогнозирования относятся:


  • многомерные регрессионные модели,

  • имитационное моделирование.
Наиболее распространенными каузальными методами прогнозирования являются многомерные регрессионные модели.

1.4.1 Многомерные регрессионные модели

Многомерная регрессионная модель – это уравнение с несколькими независимыми переменными.

Для построения многомерной регрессионной модели могут быть использованы различные функции, наибольшее распространение получили линейная и степенная зависимости:

В линейной модели параметры (b 1 , b 2 , … b n) интерпретируются как влияние каждой из независимых переменных на прогнозируемую величину, если все другие независимые переменные равны нулю.

В степенной модели параметры являются коэффициентами эластичности. Они показывают, на сколько процентов изменится в среднем результат (y) с изменением соответствующего фактора на 1% при неизменности действия других факторов. Для расчета параметров уравнений множественной регрессии также используется метод наименьших квадратов.

При построении регрессионных моделей решающую роль играет качество данных. Сбор данных создает фундамент прогнозам, поэтому имеется ряд требований и правил, которые необходимо соблюдать при сборе данных.


  1. Во-первых, данные должны быть наблюдаемыми , т.е. получены в результате замера, а не расчета.

  1. Во-вторых, из массива данных необходимо исключить повторяющиеся и сильно отличающиеся данные . Чем больше неповторяющихся данных и чем однороднее совокупность, тем лучше будет уравнение. Под сильно отличающимися значениями понимается наблюдения исключительно не вписывающиеся в общий ряд. Например, данные о зарплате рабочих выражены четырех- и пятизначными числами (7 000, 10 000, 15 000), но обнаружено одно шестизначное число (250 000). Очевидно, что это ошибка.

  1. Третье правило (требование) – это достаточно большой объем данных . Мнения статистиков относительно того, сколько необходимо данных для построения хорошего уравнения расходятся. По мнению одних, данных необходимо в 4-6 раз больше числа факторов. Другие утверждают, что не менее чем в 10 раз больше числа факторов, тогда закон больших чисел, действуя в полную силу, обеспечивает эффективное погашение случайных отклонений от закономерного характера связи.

Построение многомерной регрессионной модели в MS Excel
В электронных таблицах Excel имеется возможность построения только лишь линейной многомерной регрессионной модели.
, (1.19)
Для этого необходимо выбрать пункт «Анализ данных», а затем в появившемся окне - инструмент «регрессия»


Рисунок 1.45 – Диалоговое окно инструмента «Регрессия»
В появившемся окне необходимо заполнить ряд полей, в том числе:


  • Входной интервал Y –диапазон данных, из одного столбца, содержащих значения результирующей переменной Y.

  • Входной интервал Х – это диапазон данных, содержащих значения факторных переменных.

Если первая строка или первый столбец входного интервала содержит заголовки, то необходимо установить флажок в поле «метки» .

По умолчанию применяется уровень надежности 95%. Если хотите установить другой уровень, установите флажок и в поле рядом введите желаемый уровень надежности.

Флажок «Константа-ноль» необходимо пометить только в том случае, если вы хотите получить уравнение регрессии без свободного члена а , так чтобы линия регрессии прошла через начала координат.
Вывод результатов расчетов может быть организован 3 способами:


  • в диапазон ячеек этого рабочего листа (для этого в поле «Выходной диапазон» определите левую верхнюю ячейку диапазона, куда будут выводиться результаты расчетов);

  • на новый рабочий лист (в поле рядом можно ввести желаемое название этого листа);

  • в новую рабочую книгу .

Установка флажков «Остатки» и «Стандартизированные остатки» заказывает их включение в выходной диапазон.
Чтобы построить график остатков для каждой независимой переменной, установите флажок «График остатков». Остатки иначе называют ошибками прогнозирования. Они определяются как разность между фактическими и прогнозируемыми значениями Y.
Интерпретация графиков остатков
В графиках остатков не должно быть закономерности. Если закономерность прослеживается, то это значит, что в модель не включен какой-то не известный нам, но закономерно действующий фактор, о которых нет данных.

При установке флажка «График подбора» будет выведена серия графиков, показывающих насколько хорошо теоретическая линия регрессии подобрана к наблюдаемым, т.е. фактическим данным.

Интерпретация графиков подбора
В Excel на графиках подбора красными точками обозначаются теоретические значения Y , синими точками - исходные данные. Если красные точки хорошо накладываются на синие точки, то это визуально свидетельствует об удачном уравнении регрессии.
Необходимым этапом прогнозирования на основе многомерных регрессионных моделей является оценка статистической значимости уравнения регрессии, т.е. пригодности построенного уравнения регрессии для использования в целях прогнозирования. Для решения этой задачи в MS Excel рассчитывается ряд коэффициентов. А именно:


  1. Множественный коэффициент корреляции

Характеризует тесноту и направленность связи между результирующей и несколькими факторными переменными. При двухфакторной зависимости множественный коэффициент корреляции рассчитывается по формуле:
, (1.20)


  1. Множественный коэффициент детерминации ( R 2 ).

R 2 – это есть доля вариации теоретической величины относительно фактических значений у, объясненная за счет включенных в модель факторов. Остальная доля теоретических значений зависит от других, не участвующих в модели факторов. R 2 может принимать значения от 0 до 1. Если , то качество модели высокое. Этот показатель особенно полезен для сравнения нескольких моделей и выбора наилучшей.


  1. Нормированный коэффициент детерминации R 2

У показателя R 2 есть недостаток, состоящий в том, что большие значения коэффициента детерминации могут достигаться благодаря малому числу наблюдений. Нормированный обеспечивает информацией о том, какое значение вы могли бы получить в другом наборе данных значительно большего объема, чем в данном случае.

Нормированный рассчитывается по формуле:

, (1.21)

где - нормированный множественный коэффициент детерминации,

Множественный коэффициент детерминации,

Объем совокупности,

Количество факторных переменных.


  1. Стандартная ошибка регрессии указывает приблизительную величину ошибки прогнозирования. Используется в качестве основной величины для измерения качества оцениваемой модели. Рассчитывается по формуле:
, (1.22)

где - сумма квадратов остатков,

Число степеней свободы остатков.
Т.е стандартная ошибка регрессии показывает величину квадрата ошибки, приходящейся на одну степень свободы.


ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0.973101

R-квадрат

0.946926

Нормированный R-квадрат

0.940682

Стандартная ошибка

0.59867

Наблюдения

20

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

2

108.7071

54.35355

151.6535

1.45E-11

Остаток

17

6.092905

0.358406

Итого

19

114.8

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95.0%

Верхние 95.0%

Y-пересечение

1.835307

0.471065

3.89608

0.001162

0.841445

2.829169

0.841445

2.829169

x1

0.945948

0.212576

4.449917

0.000351

0.49745

1.394446

0.49745

1.394446

x2

0.085618

0.060483

1.415561

0.174964

-0.04199

0.213227

-0.04199

0.213227

Метод дисперсионного анализа состоит в разложении общей суммы квадратов отклонений переменной у от среднего значения на две части:


  1. объясненную регрессией (или факторную),

  2. остаточную.
, (1.2 3)
Пригодность регрессионной модели для прогнозирования зависит от того, какая часть общей вариации признака y приходится на вариацию объясненную регрессией. Очевидно, что если сумма квадратов отклонений объясненная регрессией будет больше остаточной, то делают вывод о статистической значимости уравнения регрессии. Это равносильно тому, что коэффициент детерминации приближается к единице.
Обозначения в таблице «Дисперсионный анализ»:
Второй столбец таблицы называется и означает число степеней свободы. Для общей дисперсии число степеней свободы равно: , для факторной дисперсии (или дисперсии, объясненной регрессией) , для остаточной дисперсии .

где n – это кол-во наблюдений,

m – кол-во факторных переменных модели.
Третий столбец таблицы называется . В нем представлена сумма квадратов отклонений. Общая сумма квадратов отклонений определяется по формуле:

, (1.24)
Факторная сумма квадратов:

, (1.26)
Четвертый столбец называется - среднее значение квадратов отклонений. Определяется по формуле:

С помощью F-критерия Фишера определяется статистическая значимость коэффициента детерминации уравнения регрессии. Для этого выдвигается нулевая гипотеза, которая утверждает, что между результирующей и факторными переменными связь отсутствует . Это возможно лишь в том случае, когда все параметры уравнения множественной линейной регрессии и коэффициент корреляции равны нулю.

Для проверки этой гипотезы необходимо рассчитать фактическое значение F-критерия Фишера и сравнить его с табличным. Фактическое значение F-критерия рассчитывается по формуле:

, (1.28)

Выбирается из специальных статистических таблиц по:


  • заданному уровню значимости () и

  • числу степеней свободы.

В MS Excel табличное значение F-критерия может быть определено с помощью функции: =FРАСПОБР(вероятность; степени свободы1; степени свободы2)

Например: =FРАСПОБР(0,05;df1;df2)
Уровень значимости 1 выбирается на тот же, на котором вычислялись параметры регрессионной модели. По умолчанию установлено 95%.

Если , то выдвинутая гипотеза отклоняется и признается статистическая значимость уравнения регрессии. В случае особо важных прогнозов табличное значение F-критерия рекомендуется увеличить в 4 раза, то есть проверяется условие:
=151.65; = 3.59
Расчетное значение значительно превышает табличное значение. Это значит, что коэффициент детерминации значимо отличается от нуля, поэтому гипотезу об отсутствии регрессионной зависимости следует отклонить.
Теперь оценим значимость коэффициентов регрессии на основе t -критериия Стьюдента. Он позволяет определить, какие из факторных переменных (х) оказывают наибольшее влияние на результирующую переменную (y).

Стандартные ошибки обычно обозначаются . Нижний индекс обозначает параметр уравнения регрессии, для которого рассчитана эта ошибка

Рассчитывается по формуле:

, (1.29)

где - СКО для результирующей переменной,

СКО для признака ,

Коэффициент детерминации для уравнения множественной

регрессии,

Коэффициент детерминации для зависимости фактора со

всеми другими факторами уравнения.

Число степеней свободы для остаточной суммы квадратов

отклонений.
В MS Excel стандартные ошибки рассчитываются автоматически (располагаются в 3-ем столбце 3-ей таблицы).
Фактическое значение t -критерия Стьюдента в MS Excel располагается в 4-ом столбце 3-ей таблицы и называется t-статистика.
(4 столбец) = (2 столбец) / (3 столбец)

t-статистика = Коэффициенты/ Стандартная ошибка
Табличное значение t -критерия Стьюдента зависит от принятого уровня значимости (обычно ; 0,05; 0,01) и числа степеней свободы .

где n – число единиц совокупности,

m – число факторов в уравнении.
В MS Excel табличное значение критерия Стьюдента может быть определено с помощью функции:

СТЬЮДРАСПОБР(вероятность; число степеней свободы)
Например: =СТЬЮДРАСПОБР(0,05;7)
Если , то делается вывод, что коэффициент уравнения регрессии является статистически значимым (надежным) и его можно включать в модель и использовать для прогнозирования.

1.4.2 Метод имитационного моделирования Монте-Карло

Метод имитационного моделирования получил свое название в честь города Монте-Карло, расположенного в княжестве Монако, одного из самых маленьких государств мира, расположенного на берегу Средиземного моря, около границы Франции и Италии.

Метод имитационного моделирования Монте-Карло предполагает генерирование случайных значений в соответствии с заданными ограничениями. Приступая к проведению имитационного моделирования, прежде всего, необходимо разработать экономико-математическую модель (ЭММ) прогнозируемого показателя, отражающего взаимосвязь между факторными переменными, а также степень и характер их влияния на результат. Поскольку в условиях современной рыночной конъюнктуры на субъект экономических отношений оказывают одновременное воздействие множество факторов различной природы и направленности и степень их воздействия не является детерминированной, представляется необходимым разделить переменные ЭММ на две группы: стохастические и детерминированные;

Далее следует определить типы вероятностных распределений для каждой стохастической переменной и соответствующие входные параметры, выполнить имитацию значений стохастических переменных с использованием генератора случайных чисел MS Excel или иных программных средств.

Инструмент «генерация случайных чисел» доступен пользователям MS Excel 2007 после активизации надстройки Пакет анализа . Порядок активизации надстройки описан выше (см. стр.10, рис.1.5-1.8). Для выполнения имитационного моделирования в меню ДАННЫЕ необходимо выбрать пункт «Анализ данных» , в появившемся диалоговом окне из списка выбрать инструмент «Генерация случайных чисел» и щелкнуть ОК.

Рисунок 1.46 - Интерфейс меню анализа данных
В появившемся диалоговом окне необходимо для каждой стохастической переменной выбрать тип вероятностного распределения и задать соответствующие входные параметры.

Рисунок 1.47 - Диалоговое окно генератора случайных чисел
Данные этап является одним из наиболее сложных, поэтому при его выполнении необходимо использовать знания и опыт экспертов. Выбор типа вероятностного распределения также может осуществляться на основе имеющейся статистической информации. На практике чаще всего используют такие виды вероятностных распределений как нормальное, треугольное и равномерное.

Нормальное распределение (или закон Муавра-Гаусса-Лапласа) предполагает, что варианты прогнозируемого параметра тяготеют к среднему значению. Значения переменной, существенно отличающиеся от среднего, то есть находящиеся в «хвостах» распределения, имеют малую вероятность.

Треугольное распределение представляет собой производную от нормального распределения и предполагает линейно нарастающее, по мере приближения к среднему значению, распределение.

Равномерное распределение используется в том случае, когда все значения варьируемого показателя имеют одинаковую вероятность реализации.

При важности переменной и невозможности подобрать закон распределения её можно рассматривать с точки зрения дискретного распределения. Перечисленные выше виды вероятностных распределений требуют определения входных параметров, представленных в таблице1.11
Таблица 1.11 - Входные параметры основных видов вероятностных распределений


Вид вероятностного

распределения


Входные параметры

1 Нормальное распределение

  • среднее значение;

  • стандартное отклонение;

2 Треугольное распределение

  • среднее значение;


3 Равномерное распределение

  • пределы возможного диапазона значений;

4 Дискретное распределение

  • конкретные значения переменной;

  • соответствующие данным значениям вероятности.

В результате проведения серии экспериментов будет получено распределение значений стохастических переменных, на основании которых следует рассчитать значение прогнозируемого показателя.

Следующим необходимым этапом является проведение экономико-статистического анализа результатов имитационного моделирования, при котором рекомендуется рассчитывать следующие статистические характеристики:


  • среднее значение;

  • среднеквадратическое отклонение;

  • дисперсию;

  • минимальное и максимальное значение;

  • размах колебаний;

  • коэффициент асимметрии;

  • эксцесс.
Указанные выше показатели могут быть использованы для проверки гипотезы о нормальном распределении. В случае подтверждения гипотезы для составления интервального прогноза может быть использовано правило «трех сигм». Правило «трех сигм» гласит, что если случайная величина X подчинена нормальному закону распределения с параметрами и , то практически достоверно, что её значения заключены в интервале , то есть . Для повышения наглядности и упрощения интерпретации целесообразно построить гистограмму.


Рисунок 1.48 - Гистограмма значений прогнозируемого показателя

Реализация указанных этапов позволит получить вероятностную оценку значений прогнозируемого показателя (интервальный прогноз).

Множественный коэффициент корреляции используется в качестве меры степени тесноты статистической связи между результирующим показателем (зависимой переменной) y и набором объясняющих (независимых) переменных или, иначе говоря, оценивает тесноту совместного влияния факторов на результат.

Множественный коэффициент корреляции может быть вычислен по ряду формул 5 , в том числе:

    с использованием матрицы парных коэффициентов корреляции

, (3.18)

где r - определитель матрицы парных коэффициентов корреляции y ,
,

r 11 - определитель матрицы межфакторной корреляции
;

. (3.19)

Для модели, в которой присутствуют две независимые переменные, формула (3.18) упрощается

. (3.20)

Квадрат множественного коэффициента корреляции равен коэффициенту детерминации R 2 . Как и в случае парной регрессии, R 2 свидетельствует о качестве регрессионной модели и отражает долю общей вариации результирующего признака y , объясненную изменением функции регрессии f (x ) (см. 2.4). Кроме того, коэффициент детерминации может быть найден по формуле

. (3.21)

Однако использование R 2 в случае множественной регрессии является не вполне корректным, так как коэффициент детерминации возрастает при добавлении регрессоров в модель. Это происходит потому, что остаточная дисперсия уменьшается при введении дополнительных переменных. И если число факторов приблизится к числу наблюдений, то остаточная дисперсия будет равна нулю, и коэффициент множественной корреляции, а значит и коэффициент детерминации, приблизятся к единице, хотя в действительности связь между факторами и результатом и объясняющая способность уравнения регрессии могут быть значительно ниже.

Для того чтобы получить адекватную оценку того, насколько хорошо вариация результирующего признака объясняется вариацией нескольких факторных признаков, применяют скорректированный коэффициент детерминации

(3.22)

Скорректированный коэффициент детерминации всегда меньше R 2 . Кроме того, в отличие от R 2 , который всегда положителен,
может принимать и отрицательное значение.

Пример (продолжение примера 1) . Рассчитаем множественный коэффициент корреляции, согласно формуле (3.20):

Величина множественного коэффициента корреляции, равного 0,8601, свидетельствует о сильной взаимосвязи стоимости перевозки с весом груза и расстоянием, на которое он перевозится.

Коэффициент детерминации равен: R 2 =0,7399.

Скорректированный коэффициент детерминации рассчитываем по формуле (3.22):

=0,7092.

Заметим, что величина скорректированного коэффициента детерминации отличается от величины коэффициента детерминации.

Таким образом, 70,9% вариации зависимой переменной (стоимости перевозки) объясняется вариацией независимых переменных (весом груза и расстоянием перевозки). Остальные 29,1% вариации зависимой переменной объясняются факторами, неучтенными в модели.

Величина скорректированного коэффициента детерминации достаточно велика, следовательно, мы смогли учесть в модели наиболее существенные факторы, определяющие стоимость перевозки. 