Какой метод определения коэффициентов регрессии выбрать в зависимости от типа используемых данных?

Бизнес модели | 06.08.2022 | Администратор

На практике мы часто видим, что при анализе каких-либо зависимостей c помощью регрессионных моделей по умолчанию применяют метод наименьших квадратов. Для оценки корректности модели при этом смотрят на коэффициент детерминации R². Но такой подход далеко не всегда корректен. Выбор метода оценки регрессионных коэффициентов очень сильно зависит от особенностей тех данных, с которыми работает исследователь. Во многих случаях неуместно примененный метод наименьших квадратов дает ошибочные коэффициенты регрессии, а выявленная зависимость между переменными оказывается ложной. Текст ниже написан с акцентом на решение экономических задач, однако может быть использован и в других науках. В статье не дается подробное описание всех упомянутых регрессионных моделей. Цель статьи - подготовить краткий (насколько возможно) конспект, какой эконометрический метод применим в каждой конкретной ситуации.

Какие типы данных бывают?

Для целей регрессионного (эконометрического) анализа выделяют три основных типа данных - пространственные данные (cross section data), временные ряды (time series data) и панельные данные (panel data).

Пространственные данные - данные, собранные об однородных объектах наблюдения в один и тот же момент времени. Допустим, необходимо построить регрессию, которая показывает зависимость стоимости подержанного автомобиля от различных его характеристик - мощности двигателя, типа кузова и трансмиссии, года выпуска и пробега и т.д. В этом случае исследователь собирает информацию об этих характеристиках по большому количеству автомобилей (объектов исследования) на досках бесплатных объявлений. Все собранные данные - о разных (хотя и однородных, что также очень важно) объектах в один и тот же временной период.

Временные ряды - данные, собранные об одном и том же объекте исследования в разные периоды времени. Регрессионные модели, основанные на временных рядах, очень часто возникают при работе с экономической статистикой. Например, исследователь может анализировать зависимость потребления определенного вида товаров в определенной стране от уровня доходов населения, процентных ставок и т.д. В этом случае объект наблюдения один - изучаемая страна, но при этом данные собраны за разные периоды времени.

Панельные данные - данные, собранные об однородных объектах исследования в разные периоды времени. Анализ на основе панельных данных очень часто используется в социологических и маркетинговых исследованиях. В этом случае формируется выборка респондентов, за которыми ведется наблюдение (или проводится опрос) в течение длительного периода времени. На основе получившегося трехмерного набора данных строится регрессия.

Как можно легко догадаться, панельные данные - это комбинация пространственных данных и временных рядов.

Пространственные данные (cross section)

Основным методом работы с пространственными данными является метод наименьших квадратов (ordinary least squares - OLS, он же МНК). Уравнение регрессии выглядит следующим образом:

Y_i = α + β ₁* Х_1i + β ₂* Х_2i + ... + β _n* Х_ni + ε_i

В данной формуле Y - зависимая (объясняемая) переменная (регрессант), Х₁, Х₂, ..., Х_n - объясняющие (независимые) переменные (регрессоры), β ₁, β ₂, ..., β _n - коэффициенты регрессии, показывающие зависимость между конкретным регрессором и регрессантом, α - постоянный коэффициент в регрессионной модели, ε - случайный член (ошибка, погрешность) в регрессионной модели.

Теоретической основой метода наименьших квадратов является теорема Гаусса-Маркова. Данная теорема накладывает на используемые в регрессионной модели данные некоторые условия - в случае, если они не выполняются, метод наименьших квадратов использовать нельзя. Вот эти условия:

Условие 1 - модель данных правильно специфирована. Это означает, что: 1) функциональная форма регрессионного уравнение соответствует функциональной форме имеющихся данных (то есть, если между данными существует линейная/логарифмическая/квадратичная/иная зависимость, именно она и должна быть отображена в модели); 2) в модели учтены все необходимые регрессоры (то есть не возникает ситуации, когда какой-то объясняющий показатель Х пропущен) или наоборот, в модели не учтены избыточные факторы.

Условие 2 - ошибки (случайный член ε) не носят систематического характера. Иными словами, случайный член может быть как положительным, так и отрицательным, но он не должен иметь систематическую тенденцию к смещению в положительную и отрицательную сторону. Когда в модели есть постоянный член α, то это условие обычно выполнено, так как этот коэффициент берет на себя любую систематическую погрешность.

Условие 3 - дисперсия ошибок не должна зависеть от номера наблюдений. Например, при росте значений Х не должно возникать более высокого разброса ошибок. Такое часто возникает на практике. Например, мы оценили коэффициенты регрессии и на основе оцененного уравнения посчитали прогнозные значения Y. При этом на практике ошибка (т.е. значение У_прогн - Y_факт) обычно невелика, когда в модель подставляется небольшое значение параметра Х. С ростом Х разница между построенным на основе модели прогнозом и фактически наблюдаемыми данными обычно растет, т.к. уменьшается схожесть между объектами анализа.

Условие 4 - отсутствует корреляция между ошибками в двух разных наблюдениях. То есть, если в первом наблюдении ошибка была отрицательной, это не должно означать, что с большей вероятностью ошибка в следующем наблюдении будет также отрицательной.

Если условия теоремы Гаусса-Маркова выполнены, то оценки коэффициентов регрессии, полученные с помощью метода наименьших квадратов, являются несмещенными, состоятельными и эффективными (что это значит, можно детальнее посмотреть здесь).

Таким образом, в ситуациях, когда все условия выполнены, можно уверенно применять для пространственных данных метод наименьших квадратов. Полученные с его помощью коэффициенты регрессии можно использовать для аргументирования причинно-следственных связей между регрессором и регрессантом (если оценки данных коэффициентов значимы). Во всех прочих случаях порядок действий усложняется.

В большинстве случаев нарушения предпосылок можно заметить на основе анализа остатков в оцененной модели. Строится диаграмма рассеивания точек (scatterplot), где по оси абсцисс Х откладывается один из регрессоров, а по оси ординат Y - величина остатков. Такие графики строятся для каждого регрессора в модели. В правильно построенной модели такие графики должны напоминать равномерно рассеянное облако точек, при этом данное облако должно быть симметрично рассеяно относительно нуля (относительно оси абсцисс). Такая форма графика означает, что остатки полностью случайны.

График регрессионных ошибок в корректно построенной регрессионной модели

Рассмотрим вариант, когда неправильно определена функциональная форма модели (нарушение Условия 1, подпункт 1). Например, вместо квадратичной (параболической) используется линейная форма. В этом случае облако ошибок не будет полностью случайным, а будет зависеть от значения переменной, по которой функциональная форма выбрана неверно:

График регрессионных ошибок при неправильно подобранной функциональной формы в МНК-регрессии

Как результат, оценки коэффициентов в МНК-регрессии в таком случае будут смещенными, и величина этого смещения будут отражена в остатках. Чтобы исправить проблему, достаточно сменить функциональную форму проблемной переменной в оцениваемой регрессии (например, перейти от функции вида Y = α + β * Х к функции вида Y = α + β * Х + γ * Х²) и снова применить метод МНК.

Другая потенциальная проблема - пропуск переменных (нарушение Условия 1, подпункт 2, omitted variable bias). Это означает, что не все регрессоры Х, от которых зависит значение регрессанта Y - включены в модель. То есть существует важная переменная, влияющая на значение Y, но она в модель не включена. Последствия от пропуска переменных зависят от того, коррелирует ли пропущенная переменная с теми регрессорами, которые включены в модель. В том случае, если коррелирует, данные регрессоры возьмут на себя часть ошибки, связанной с пропуском переменной, и полученные с помощью метода МНК оценки коэффициентов регрессии при этих переменных будут смещены. Типичный пример такой ситуации - так называемая минцеровская регрессия, в которой оценивается влияние уровня образования (регрессор) на заработную плату человека (регрессант). В такой регрессии пропущено влияние природных (врожденных) способностей человека на его заработную плату. Проблема решается поиском пропущенной переменной и включением её в модель - правда, в реальной ситуации это не всегда просто. Данную проблему в литературе часто называют проблемой эндогенности (endogeneity problem).

Третья проблема - зависимость дисперсии ошибок от номера наблюдений, иногда её также называют предпосылкой о гомоскедастичности данных (homoscedasticity). Если эта предпосылка нарушена, говорят о существовании гетероскедастичности (heteroscedasticity) в модели. На практике проблема возникает очень часто. Например, при анализе стоимости квартир (регрессант) разброс цен (и, как следствие, дисперсия ошибок) может существенно возрастать по мере роста метража квартир (регрессор). Это может быть связано как с ограниченным количеством таких наблюдений, так и с влиянием индивидуальных факторов (не учтенных в регрессионной модели) на цену отдельного лота и пр. График рассеивания ошибок e при гетероскедастичности по определенной переменной Z выглядит следующим образом:

График регрессионных ошибок при наличии гетероскедастичности в МНК-регрессии

Из графика хорошо видно, что разброс (дисперсия) точек возрастает по мере роста значения Z. Гетероскедастичность в модели можно проверить с помощью теста Вайта (Whyte test). Последствия гетероскедастичности в модели не такие серьезные, как в двух описанных выше случаях. Оценки коэффициентов регрессии остаются несмещенными и состоятельными, но неэффективными (то есть существуют ещё как минимум один набор оценок, который по своим характеристикам превосходит тот, который был получен с помощью МНК-метода). Кроме того, в случае гетероскедастичности нельзя доверять t-статистике, которая используется при определении значимости оценки коэффициента регрессии и F-статистике, с помощью которой делается вывод о значимости модели в целом. Поэтому для этих тестов рекомендуется требовать более высокие пороговые значения статистик, чтобы не ошибиться при формировании выводов о причинно-следственных связях между регрессорами и регрессантом. В этой ситуации исследователь исходит из допущения, что гетероскедастичность не является большой проблемой и принимает решение не бороться с ней в модели.

В некоторых случаях гетоскедастичность может быть следствием невключения в модель определенных регрессоров (пропущенные переменные). В этом случае её рекомендуется устранять поиском таких переменных и включением их в модель. Другой способ борьбы с гетероскедастичностью - введение в модель переменных, которые объясняют более высокую дисперсию ошибок в определенной части данных (например, очень часто на практике вводят переменную пол, если предполагают наличие более высокой дисперсии по определенному показателю для мужчин и женщин). Во многих случаях поступают ещё радикальнее - разделяют исходную выборку на два набора данных. Это делается в том случае, если различия между этими наборами слишком высоки. Предварительно делают тест Вальда (Wald test) на наличие структурных изменений в модели. Например, это может быть целесообразно, если исследователь предполагает, что принципы ценообразования на однокомнатные и трехкомнатные квартиры отличаются существенно и одним регрессионным уравнением описать их нельзя. Ещё один распространенный способ борьбы с гетероскедастичностью - так называемые поправки Вайта.

Четвертая проблема - нарушение предпосылки об отсутствии корреляции ошибки в двух последовательных наблюдениях. В таком случае говорят, что в модели наблюдается автокорреляция (serial correlation). В этом случае диаграмма рассеивания ошибок будет иметь ярко выраженный тренд или циклическую форму - положение точки на графике будет зависеть от положения предыдущей точки (или одной из предыдущих при наличии циклической зависимости):

Пример графика регрессионных ошибок при наличии автокорреляции

Сразу оговоримся, что проблема с автокорреляцией (в отличии от гетероскедастичности) не типична для пространственных данных. Автокорреляция чаще всего возникает при работе с временными рядами. Тем не менее, для пространственных данных её возникновение также возможно в некоторых случаях. Проверка на наличие автокорреляции в регрессионной модели в этом случае осуществляется с помощью теста Дарбина-Уотсона (Darbin-Watson test). Как и в случае с гетероскедастичностью в модели, автокорреляция не ведет к смещению и несостоятельности оценок регрессионных коэффициентов. При этом она ведет к смещению оценок стандартных ошибок коэффициентов регрессии, что означает ненадежность получаемых доверительных интервалов оценок. Как итог, аналогично ситуации с гетероскедастичностью, она ведет к получению ненадежных t-статистик о значимости коэффициентов регрессии и F-статистик о значимости модели в целом. Исследователь должен требовать более высокие пороговые значения ошибок, чтобы быть уверенным в значимости выявленных им причинно-следственных связей между регрессорами и регрессантом.

Также необходимо оговориться, что с автокорреляцией в модели можно не бороться только в том случае, если среди регрессоров нет лагированных значений регрессанта (то есть когда среди регрессоров используется значение самой зависимой переменной в одном из предыдущих наблюдений). В этом случае оценки регрессии, полученные с помощью метода МНК, будут смешенными и несостоятельными - поэтому метод наименьших квадратов использовать в таких ситуациях нельзя.

Ещё одна из проблем, о которой следует сказать - мультиколлинеарность (multicollinearity). Мультиколлинеарность не является прямым следствием нарушения предпосылок теоремы Гаусса-Маркова, однако также может приводить к серьезным практическим проблемам при построении регрессионной модели. Мультиколлинеарность возникает, когда две независимых переменных (регрессора) в модели сильно коррелируют друг с другом. Например, при анализе факторов цены подержанного автомобиля могут быть использованы две похожие переменные - возраст автомобиля и его пробег. С теоретической точки зрения, они описывают пусть и схожие, но разные факторы стоимости, однако при работе с практическими данными будут показывать очень сильную корреляцию друг с другом. Специальных тестов для определения мультиколлинеарности не существует, поэтому исследователю необходимо ориентироваться на коэффициенты корреляции и здравый смысл (понимание причин, которые могут приводить к корреляции между теми или иными переменными).

Наличие мультиколлинеарности в модели не ведет к смещению или несостоятельности коэффициентов регрессии, определенных с помощью метода наименьших квадратов. Однако она также ведет к все той же проблеме с доверительными интервалами и ненадежностью t-статистики и F-статистики. Кроме того, при наличии мультиколлинеарности оценки коэффициентов регрессии будут сильно меняться при незначительных корректировках спецификации модели (включении/исключении прочих переменных) и при незначительных корректировках набора с данными. Исследователю обычно рекомендуется исключать из модели одну из переменных, для которых выявлена мультиколлинеарность. Если это сделать невозможно, то может быть полезно найти другую пару переменных, выражающих те же признаки, но характеризующиеся меньшими значениями коэффициентов корреляции. Если и это невозможно, то модель может быть использована как есть с пониманием существующей ненадежности выявленных причинно-следственных связей.

Временные ряды (time series)

Методы работы с временными рядами зависят от того, являются ли исследуемые ряды стационарными. Стационарность определяется отдельно для каждой исследуемой переменной.

Стационарные временные ряды - это такие временные ряды, свойства которых не зависят от номера наблюдения.

Иными словами, это такие временные ряды, для которых не существует предугадываемого способа поведения. Их среднее значение и дисперсия постоянны на всей протяженности временного ряда. По этой причине стационарными не являются временные ряды с трендом и сезонностью - для них поведение ряда зависит от номера наблюдения. Сезонность не следует путать с цикличностью. Длина цикла не имеет фиксированной длины, и может меняться в зависимости от обстоятельств. Временные ряды с цикличными колебаниями могут быть стационарными.

Примеры стационарных и нестационарных временных рядов

На приведенном рисунке на графиках (d), (h) и (i) наблюдается очевидная сезонность. На графиках (a), (c), (e), (f) and (i) наблюдаются тренды и зависимость значений ряда от номера наблюдения. Таким образом, только ряды (b) и (g) являются стационарными. Надо также добавить, что финансовые котировки (цены акций, фьючерсов, курсы валют и пр.), определяемые на ежедневной основе, практически никогда не являются стационарными. Пример таких данных приведен на графике (a).

Проверить, являются ли временные ряды стационарными, можно с помощью так называемых тестов единичного корня (unit root tests). Самым известным примером подобного теста является Kwiatkowski-Phillips-Schmidt-Shin (KPSS) тест. Нулевая гипотеза данного теста заключается в том, что данные временные ряды являются стационарными.

Обратим внимание, что нестационарные временные ряда можно привести к стационарному виду. Сделать это можно с помощью дифференцирования (differencing) - то есть просто посчитать разницу между значениями в двух соседних наблюдениях. Дифференциация может помочь стабилизировать среднее значение временного ряда, удаляя изменения уровня временного ряда и, следовательно, устраняя (или уменьшая) тренд и сезонность. Такие ряды иногда называют рядами со стационарными приращениями. Логарифмические преобразования с временными рядами могут помочь стабилизировать дисперсию временного ряда.

В случае с финансовыми котировками дифференцирование является распространенным приемом борьбы с нестационарностью. Дневные доходности финансовых активов обычно отвечают критериям стационарности и поэтому в их случае можно использовать традиционный регрессионный анализ. Например, знаменитая финансовая модель CAPM, используемая в теории корпоративных финансов для определения ставки дисконтирования, строится с помощью метода наименьших квадратов на основе дневных доходностей финансовых активов.

Таким образом, метод наименьших квадратов можно применять при работе с временными рядами только в том случае, если данные ряды являются стационарными. Дерево решений по выбору метода оценки коэффициентов регрессионной модели показано на следующем графике:

Выбор регрессионной модели для временных рядов

Таким образом, при для стационарных временных рядов можно применять метод наименьших квадратов. Требуется, чтобы все переменные в исследуемой модели были стационарными. Методы моделирования также могут отличаться в зависимости от того, какие переменные используются в регрессии и какие взаимосвязи между ними существуют. Наиболее простой случай - когда моделируется зависимость между двумя разными переменными, при этом известно, что одна из них - регрессор, а другая - регрессант. Обе переменные измеряются в один и тот же момент времени. Пример такой ситуации - упомянутая выше модель CAPM, которая описывает зависимость между доходностью рыночного индекса (регрессор) и доходностью ценной бумаги (регрессант). Но очень часто на практике, в том числе при работе с макроэкономическими данными, могут возникать две проблемы:

Значение переменной в текущем периоде зависит от значения этой же или другой переменной в предыдущем периоде (лагирование)
Переменные взаимно зависят друг от друга (а также от своих значений в предыдущих периодах), то есть являются эндогенными

Авторегрессионные модели

Для ситуации, когда какая-то переменная зависит от своих значений в предыдущих периодах, используется особый класс авторегрессионных моделей. Самые известные из них - простые авторегрессионные модели (AR модели), модели скользящего среднего (MA модели) и совмещенные авторегрессионные модели и модели скользящего среднего (ARIMA). Данные модели заслуживают отдельного рассмотрения, которое выходит за пределы этой статьи.

Векторная авторегрессия

В макроэкономике такие переменные, как национальный доход, процентные ставки, уровень безработицы, инфляция, предложение денежных средств находятся во взаимной зависимости друг от друга. Иными словами, мы имеем дело с эндогенными переменными, когда нельзя однозначно сказать, какая из них является регрессором, а какая регрессантом. Кроме того, в экономике многие изменения происходят с лагом во времени, то есть значение той или иной переменной сегодня зависит от её значения в предыдущие периоды.

Векторная авторегрессия (VAR, vector autoregression) предполагает оценку системы уравнений следующего вида (на примере модели с временными лагами двух периодов):

Y_i = β ₁₁* Y_t-1 + β ₁₂* Y_t-2 + γ ₁₁* Х_t-1 + γ ₁₂* Х_t-2 + Φ ₁₁* Z_t-1 + Φ ₁₂* Z_t-2 + ε_1t

X_i = δ ₂₁* Y_t + β ₂₁* Y_t-1 + β ₂₂* Y_t-2 + γ ₂₁* Х_t-1 + γ ₂₂* Х_t-2 + Φ ₂₁* Z_t-1 + Φ ₂₂* Z_t-2 + ε_2t

X_i = δ ₃₁* Y_t + β ₃₁* Y_t-1 + β ₃₂* Y_t-2 + δ ₃₁* Х_t + γ ₃₁* Х_t-1 + γ ₃₂* X_t-2 + Φ ₃₁* Z_t-1 + Φ ₃₂* Z_t-2 + ε_3t

Выше приведена так называемая рекурсивная форма VAR модели (recursive form VAR). Её особенность в том, что переменные в модели зависят в том числе от одновременных значений других переменных модели. В усеченной форме VAR модели (reduced form VAR) значения всех переменных в текущем периоде зависят только от собственных лагированных значений и лагированных значений других переменных модели (отсутствует взаимосвязь одновременных переменных). Существует также структурная форма VAR модели, которая позволяет вводить в модель дополнительные взаимосвязи (моделируя наложенные политикой/законодательством ограничения и т.д.).

VAR модели эконометрически оцениваются с помощью метода наименьших квадратов (ordinary least squares). На больших выборках этот метод позволяет получить состоятельные оценки коэффициентов. Для того, чтобы отобрать модель с наилучшей прогнозной силой (включая подбор набора исследуемых переменных и периода лагирования), используются: информационный критерий Акаике (Akaike, AIC), байесовский информационный критерий Шварца (Schwarz-Bayesiaя, BIC) информационный критерий Ханнана-Куинна (Hannan-Quinn, HQ). Чем ниже значение информационного критерия, тем лучше (при прочих равных) модель.

Модель корректировки ошибок

Построение регрессионной зависимости между нестационарными временными рядами может привести к выявлению мнимой регрессии (spurious regression). Речь идет о ситуации, когда модель статистически значима, коэффициенты в модели значимы, коэффициент детерминации высокий, однако фактической зависимости между исследуемыми данными нет. Такая модель не сможет качественно предсказать изменение анализируемых параметров в будущем.

Это может возникать в ситуации, когда наблюдаемая зависимость является следствием действия какой-либо третьей переменной. Например, очень часто в период роста экономики одновременно растут многие макроэкономические показатели. Рост и падение цен на акции разных компаний зачастую также происходит одновременно. Регрессионная модель в обоих случаях будет характеризоваться высокими коэффициентами детерминации и значимостью по всем основным метрикам. Но это отнюдь не означает, что зависимость между исследуемыми показателями действительно существует - возможно, на них влияет какой-то третий фактор.

Поэтому при работе с нестационарными временными рядами не применяют метод наименьших квадратов. Вместо этого сначала проводят тест исследуемых временных рядов на коинтеграцию (cointegration). Если для нестационарных временных рядов выполняется условие коинтеграции, значит, существует такая их линейная комбинация, которая будет отвечать критерию стационарности. Линейная комбинация (термин из линейной алгебры) - это сумма (разность) значений двух временных векторов (в нашем случае временных рядов), предварительно умноженных на произвольный положительный или отрицательный коэффициент.

Самый простой вариант линейной комбинации - это разность значений двух рядов (считается разность значений двух рядов для каждого номера наблюдения). Допустим, есть два временных ряда - возраст заключения первого брака для мужчин и женщин за последние несколько десятилетий. Оба ряда нестационарные, так как имеют очевидный тренд - возраст заключения первого брака для обоих полов со временем растет. Так как есть тренд, очевидно, условие стационарности не выполняется. Вместе с тем, разница между возрастом заключения первого браками мужчинами и женщинами остается достаточно стабильной с течением времени. Временной ряд, полученный как разница сопоставимых значений двух указанных временных рядов будет отвечать критерию стационарности.

Для многих акций также существуют устойчивые соотношения между их котировками, которые не меняются сильно с течением времени и обусловлены фундаментальными факторами (например, при росте спроса на продукцию одного производителя снижается спрос на продукцию другого - например, акции производителей табака и продуктов для здорового питания). Коинтеграция означает, что существует некоторое среднее значение, к которому будет всегда возвращаться комбинация двух рядов. То есть, при возникновении того или иного шока можно со временем ожидать возвращения к равновесному положению. Портфельные аналитики выявляют такие закономерности и используют их в целях хеджирования.

Для тестирования временных рядов на коинтеграцию применяют следующий подход. Оценивают парную регрессию между двумя рядами Y и Х с помощью уравнения вида Y = β * Х и вычисляют значение остатков этой регрессии e = Y - β * Х. Величина остатков представляет собой линейную комбинацию рядов Y и Х. Если полученные остатки отвечают условию стационарности, значит, временные ряды коинтегрируемые. Если не отвечают, то нет. Существует два основных теста на коинтеграцию - тест Энгла-Грэнджера (Engle-Granger) и тест Йохансена (Johansen test). Тест Йохансена был разработан позднее и считается более точным, однако многие исследователи используют два этих теста совместно для исключения возможных ошибок при формировании выводов о коинтеграции временных рядов.

Обратим внимание, что для любых пар временных рядов строят как прямую, так и обратную регрессию (Y = β * Х и Х = β * Y соответственно). Выбирается тот вариант регрессии, который обладает более низким значением информационного критерия. Используются информационные критерии Акаике, Шварца и Ханнана-Куинна.

Если временные ряды отвечают условию коинтеграции, то для работы с ними можно использовать скорректированную на ошибки модель (ECM, error correction model). Формула скорректированного регрессионного уравнения для исходной регрессионной модели вида Y = α + β * Х будет выглядеть следующим образом:

Y = α + γ * Y_t-i + β ₁₂* X _t-i + Φ * ε_t-1

В модель добавляются лагированные ошибки, определенные с помощью построения регрессии Y = α + β * Х. Коэффициент Φ всегда будет отрицательным, если модель правильно специфирована. За счет отрицательности этого коэффициента обеспечивается возвращение моделируемых переменных к некоторому исходному усредненному значению. Наличие такого усредненного значения связано с тем, что для временных рядов Y и Х выполняется условие коинтеграции, то есть вытекает из стационарности линейной комбинации этих рядов.

Панельные данные (panel data)

Все описанное ниже применимо в полной мере только при работе со сбалансированными панельными данными (balanced panel data). Под сбалансированными панелями понимаются такие наборы данных, когда для каждого временного периода имеются в наличии данные по всем объектам наблюдения. То есть не возникает ситуации, когда для какого-то временного периода данные по части объектов наблюдения отсутствуют - в противном случае такие набор данных называют несбалансированными панелями.

Уравнение регрессии при работе с панельными данными можно представить в следующем формате:

Y = α + β * X _t-i + μ + ω + ε

В данной формуле μ - переменная, описывающая влияние специфических обстоятельств, связанных с объектами наблюдений (остается постоянной в каждом периоде измерения), на зависимую переменную Y. ω - переменная, описывающая влияние фактора времени на зависимую переменную Y (остается неизменной для всех объектов наблюдения в данном временном периоде). Оценка модели с панельными данными возможна тремя способами:

Сквозной метод наименьших квадратов (pooled OLS), второй вариант названия - модель с общими эффектами (common effects model)
Модель с фиксированными эффектами (fixed effects model)
Модель со случайными эффектами (random effects model)

Сквозной метод наименьших квадратов игнорирует индивидуальные и временные особенности в панельных данных. По существу, он рассматривает панельные данные как обычные пространственные данные и применяет к ним традиционный метод наименьших квадратов. Этот метод одинаково эффективно можно применять как со сбалансированными, так и несбалансированными панелями.

Например, исследователь изучает влияние рентабельности инвестиций на стоимость компании. Помимо рентабельности, на стоимость могут влиять факторы, индивидуальные для каждой компании в выборке (например, качество управления). При использовании сквозного метода наименьших квадратов все эти индивидуальные факторы будут проигнорированы.

Чтобы использовать данный метод, необходимо быть уверенным, что индивидуальные и временные эффекты значимо не влияют на зависимую переменную. В случае, если данная предпосылка нарушена, и при этом существует корреляции между пропущенной переменной и регрессором, то возникает та же самая проблема эндогенности, которая была описана выше в разделе с пространственными данными. Коэффициенты регрессии, полученные таким образом, будут смещены.

При использовании модели с фиксированными эффектами в уравнение обычно добавляется большое количество dummy-переменных. Количество таких переменных равно количеству исследуемых объектов. Переменная описывает индивидуальные эффекты для каждого описываемого объекта наблюдения, её значение равно 1 для этого объекта и 0 во всех остальных случаях.

Если на зависимую переменную влияют как индивидуальные факторы конкретных объектов наблюдений, так и индивидуальные факторы исследуемых периодов, используют модель со случайными эффектами. Для оценки таких моделей используют обобщенный метод наименьших квадратов (GLS, general least squares) или метод максимального правдоподобия (ML, maximum likelihood).

Выбрать подходящую модель можно с помощью одного из следующих тестов:

Тест Хоу (Chou test) - используется для выбора между моделью с общими (сквозной метод наименьших квадратов) и фиксированными эффектами
Тест множителей Лагранжа (Test Lagrange Multiplier Lagrange multiplier) - используется для выбора между моделью с общими (сквозной метод наименьших квадратов) и случайными эффектами
Тест Хаусмана (Hausman test) - используется для выбора между моделью с фиксированными и случайными эффектами

Обращаем внимание, что описанные подходы применимы, когда не предполагает использования лагированных переменных при анализе зависимостей между регрессорами и регрессантом (например, в качестве регрессоров не используется лаг зависимой переменной). В противном случае для оценки коэффициентов в регрессионной модели необходимо использовать общий метод моментов (GMM, general method of moments).

Почему одни страны, города или компании добиваются экономического успеха, а другие - вынуждены влачить жалкое существование? Почему экономический рост такой слабый, а неравенство доходов все выше? Как новые технологии могут изменить глобальный экономический ландшафт? Присоединяйтесь к нашей группе ВКонтакте, чтобы получать больше информации о долгосрочных трендах в экономике и бизнесе.

Комментарии:

Авторизация через:

Здесь пока нет комментариев. Чтобы их оставить, авторизуйтесь вверху страницы или с помощью аккаунта ВКонтакте либо зарегистрируйтесь .