Методы анализа временных рядов. Анализ временных рядов. Оценивание и исключение сезонной компоненты

3.3.1. Методы анализа и прогнозирования временных рядов

Модели стационарных и нестационарных временных рядов. Пусть Рассмотрим временной ряд X (t ). Пусть сначала временной ряд принимает числовые значения. Это могут быть, например, цены на батон хлеба в соседнем магазине или курс обмена доллара на рубли в ближайшем обменном пункте. Обычно в поведении временного ряда выявляют две основные тенденции - тренд и периодические колебания.

При этом под трендом понимают зависимость от времени линейного, квадратичного или иного типа, которую выявляют тем или иным способом сглаживания (например, экспоненциального сглаживания) либо расчетным путем, в частности, с помощью метода наименьших квадратов. Другими словами, тренд - это очищенная от случайностей основная тенденция временного ряда.

Временной ряд обычно колеблется вокруг тренда, причем отклонения от тренда часто обнаруживают правильность. Часто это связано с естественной или назначенной периодичностью, например, сезонной или недельной, месячной или квартальной (например, в соответствии с графиками выплаты заплаты и уплаты налогов). Иногда наличие периодичности и тем более ее причины неясны, и задача статистика - выяснить, действительно ли имеется периодичность.

Элементарные методы оценки характеристик временных рядов обычно достаточно подробно рассматриваются в курсах "Общей теории статистики" (см., например, учебники ), поэтому нет необходимости подробно разбирать их здесь. О некоторых современных методах оценивания длины периода и самой периодической составляющей речь пойдет ниже в подразделе 3.3.2.

Характеристики временных рядов. Для более подробного изучения временных рядов используются вероятностно-статистические модели. При этом временной ряд X (t ) рассматривается как случайный процесс (с дискретным временем). Основными характеристиками X (t ) являются математическое ожидание X (t ), т.е.

дисперсия X (t ), т.е.

и автокорреляционная функция временного ряда X (t )

т.е. функция двух переменных, равная коэффициенту корреляции между двумя значениями временного ряда X (t ) и X (s ).

В теоретических и прикладных исследованиях рассматривают широкий спектр моделей временных рядов. Выделим сначала стационарные модели. В них совместные функции распределения для любого числа моментов времени k , а потому и все перечисленные выше характеристики временного ряда не меняются со временем . В частности, математическое ожидание и дисперсия являются постоянными величинами, автокорреляционная функция зависит только от разности t - s. Временные ряды, не являющиеся стационарными, называются нестационарными.

Линейные регрессионные модели с гомоскедастичными и гетероскедастичными, независимыми и автокоррелированными остатками. Как видно из сказанного выше, основное - это "очистка" временного ряда от случайных отклонений, т.е. оценивание математического ожидания. В отличие от простейших моделей регрессионного анализа, рассмотренных в главе 3.2, здесь естественным образом появляются более сложные модели. Например, дисперсия может зависеть от времени. Такие модели называют гетероскедастичными, а те, в которых нет зависимости от времени - гомоскедастичными. (Точнее говоря, эти термины могут относиться не только к переменной "время", но и к другим переменным.)

Далее, в главе 3.2 предполагалось, что погрешности независимы между собой. В терминах настоящей главы это означало бы, что автокорреляционная функция должна быть вырожденной - равняться 1 при равенстве аргументов и 0 при их неравенстве. Ясно, что для реальных временных рядов так бывает отнюдь не всегда. Если естественный ход изменений наблюдаемого процесса является достаточно быстрым по сравнению с интервалом между последовательными наблюдениями, то можно ожидать "затухания" автокорреляции" и получения практически независимых остатков, в противном случае остатки будут автокоррелированы.

Идентификация моделей. Под идентификацией моделей обычно понимают выявление их структуры и оценивание параметров. Поскольку структура - это тоже параметр, хотя и нечисловой, то речь идет об одной из типовых задач прикладной статистики - оценивании параметров.

Проще всего задача оценивания решается для линейных (по параметрам) моделей с гомоскедастичными независимыми остатками. Восстановление зависимостей во временных рядах может быть проведено на основе методов наименьших квадратов и наименьших модулей оценивания параметров в моделях линейной (по параметрам) регрессии. На случай временных рядов переносятся результаты, связанные с оцениванием необходимого набора регрессоров, в частности, легко получить предельное геометрическое распределение оценки степени тригонометрического полинома.

Однако на более общую ситуацию такого простого переноса сделать нельзя. Так, например, в случае временного ряда с гетероскедастичными и автокоррелированными остатками снова можно воспользоваться общим подходом метода наименьших квадратов, однако система уравнений метода наименьших квадратов и, естественно, ее решение будут иными. Формулы в терминах матричной алгебры, о которых упоминалось в главе 3.2, будут отличаться. Поэтому рассматриваемый метод называется "обобщенный метод наименьших квадратов (ОМНК)".

Замечание. Как уже отмечалось в главе 3.2, простейшая модель метода наименьших квадратов допускает весьма далекие обобщения, особенно в области системам одновременных эконометрических уравнений для временных рядов. Для понимания соответствующей теории и алгоритмов необходимо владение методами матричной алгебры. Поэтому мы отсылаем тех, кому это интересно, к литературе по системам эконометрических уравнений и непосредственно по временным рядам , в которой особенно много интересуются спектральной теорией, т.е. выделением сигнала из шума и разложением его на гармоники. Подчеркнем еще раз, что за каждой главой настоящей книги стоит большая область научных и прикладных исследований, вполне достойная того, чтобы посвятить ей много усилий. Однако из-за ограниченности объема книги мы вынуждены изложение сделать конспективным.

Системы эконометрических уравнений. В качестве первоначального примера рассмотрим эконометрическую модель временного ряда, описывающего рост индекса потребительских цен (индекса инфляции). Пусть I (t ) - рост цен в месяц t (подробнее об этой проблематике см. главу 7 в ). По мнению некоторых экономистов естественно предположить, что

I (t ) = с I (t - 1) + a + bS (t - 4) + e , (1)

где I (t -1) - рост цен в предыдущий месяц (а с - некоторый коэффициент затухания, предполагающий, что при отсутствии внешний воздействий рост цен прекратится), a - константа (она соответствует линейному изменению величины I (t ) со временем), bS (t- 4) - слагаемое, соответствующее влиянию эмиссии денег (т.е. увеличения объема денег в экономике страны, осуществленному Центральным Банком) в размере S (t- 4) и пропорциональное эмиссии с коэффициентом b , причем это влияние проявляется не сразу, а через 4 месяца; наконец, e - это неизбежная погрешность.

Модель (1), несмотря на свою простоту, демонстрирует многие характерные черты гораздо более сложных эконометрических моделей. Во-первых, обратим внимание на то, что некоторые переменные определяются (рассчитываются) внутри модели, такие, как I (t ). Их называют эндогенными (внутренними). Другие задаются извне (это экзогенные переменные). Иногда, как в теории управления, среди экзогенных переменных, выделяют управляемые переменные - те, с помощью выбора значений которых можно привести систему в нужное состояние.

Во-вторых, в соотношении (1) появляются переменные новых типов - с лагами, т.е. аргументы в переменных относятся не к текущему моменту времени, а к некоторым прошлым моментам.

В-третьих, составление эконометрической модели типа (1) - это отнюдь не рутинная операция. Например, запаздывание именно на 4 месяца в связанном с эмиссией денег слагаемом bS (t- 4) - это результат достаточно изощренной предварительной статистической обработки. Далее, требует изучения вопрос зависимости или независимости величин S (t- 4) и I(t ) в различные моменты времени t . От решения этого вопроса зависит, как выше уже отмечалось, конкретная реализация процедуры метода наименьших квадратов.

С другой стороны, в модели (1) всего 3 неизвестных параметра, и постановку метода наименьших квадратов выписать нетрудно:

Проблема идентифицируемости. Представим теперь модель тапа (1) с большим числом эндогенных и экзогенных переменных, с лагами и сложной внутренней структурой. Вообще говоря, ниоткуда не следует, что существует хотя бы одно решение у такой системы. Поэтому возникает не одна, а две проблемы. Есть ли хоть одно решение (проблема идентифицируемости)? Если да, то как найти наилучшее решение из возможных? (Это - проблема статистической оценки параметров.)

И первая, и вторая задача достаточно сложны. Для решения обеих задач разработано множество методов, обычно достаточно сложных, лишь часть из которых имеет научное обоснование. В частности, достаточно часто пользуются статистическими оценками, не являющимися состоятельными (строго говоря, их даже нельзя назвать оценками).

Коротко опишем некоторые распространенные приемы при работе с системами линейных эконометрических уравнений.

Система линейных одновременных эконометрических уравнений. Чисто формально можно все переменные выразить через переменные, зависящие только от текущего момента времени. Например, в случае уравнения (1) достаточно положить

H (t ) = I (t- 1), G (t) = S (t- 4).

Тогда уравнение примет вид

I (t ) = с H (t ) + a + bG (t ) + e . (2)

Отметим здесь же возможность использования регрессионных моделей с переменной структурой путем введения фиктивных переменных. Эти переменные при одних значениях времени (скажем, начальных) принимают заметные значения, а при других - сходят на нет (становятся фактически равными 0). В результате формально (математически) одна и та же модель описывает совсем разные зависимости.

Косвенный, двухшаговый и трехшаговый методы наименьших квадратов. Как уже отмечалось, разработана масса методов эвристического анализа систем эконометрических уравнений. Они предназначены для решения тех или иных проблем, возникающих при попытках найти численные решения систем уравнений.

Одна из проблем связана с наличием априорных ограничений на оцениваемые параметры. Например, доход домохозяйства может быть потрачен либо на потребление, либо на сбережение. Значит, сумма долей этих двух видов трат априори равна 1. А в системе эконометрических уравнений эти доли могут участвовать независимо. Возникает мысль оценить их методом наименьших квадратов, не обращая внимания на априорное ограничение, а потом подкорректировать. Такой подход называют косвенным методом наименьших квадратов.

Двухшаговый метод наименьших квадратов состоит в том, что оценивают параметры отдельного уравнения системы, а не рассматривают систему в целом. В то же время трехшаговый метод наименьших квадратов применяется для оценки параметров системы одновременных уравнений в целом. Сначала к каждому уравнению применяется двухшаговый метод с целью оценить коэффициенты и погрешности каждого уравнения, а затем построить оценку для ковариационной матрицы погрешностей. После этого для оценивания коэффициентов всей системы применяется обобщенный метод наименьших квадратов.

Менеджеру и экономисту не следует становиться специалистом по составлению и решению систем эконометрических уравнений, даже с помощью тех или иных программных систем, но он должен быть осведомлен о возможностях этого направления эконометрики, чтобы в случае производственной необходимости квалифицированно сформулировать задание для специалистов по прикладной статистике.

От оценивания тренда (основной тенденции) перейдем ко второй основной задаче эконометрики временных рядов - оцениванию периода (цикла).

Предыдущая

16.02.15 Виктор Гаврилов

44859 0

Временным рядом называется последовательность значений, изменяемых во времени. О некоторых простых, но эффективных подходах к работе с подобными последовательностями я попробую рассказать в данной статье. Примеров таких данных можно встретить очень много – котировки валют, объемы продаж, обращения клиентов, данные в различных прикладных науках (социология, метеорология, геология, наблюдения в физике) и многое другое.

Ряды являются распространенной и важной формой описания данных, так как позволяют наблюдать всю историю изменения интересующего нас значения. Это даёт нам возможность судить о «типичном» поведении величины и об отклонениях от такого поведения.

Передо мной встала задача выбрать набор данных, на котором можно было бы наглядно продемонстрировать особенности временных рядов. Я решил воспользоваться статистикой пассажиропотока на международных авиалиниях, поскольку этот набор данных весьма нагляден и стал своего рода стандартным (http://robjhyndman.com/tsdldata/data/airpass.dat , источник Time Series Data Library, R. J. Hyndman). Ряд описывает количество пассажиров международных авиалиний в месяц (в тысячах) за период с 1949 по 1960 года.

Поскольку у меня всегда под рукой , в которой есть интересный инструмент « » для работы с рядами, я воспользуюсь именно им. Перед импортом данных в файл нужно добавить столбец с датой, чтобы была привязка значений ко времени, и столбец с именем ряда для каждого наблюдения. Ниже видно, как выглядит мой исходный файл, который я импортировал в Prognoz Platform с помощью мастера импорта непосредственно из инструмента анализа временных рядов.

Первое, что мы обычно делаем с временным рядом, это отображаем его на графике. Prognoz Platform позволяет построить график, просто «перетащив» ряд в рабочую книгу.

Временной ряд на графике

Символ ‘M’ в конце имени ряда означает, что ряд имеет месячную динамику (интервал между наблюдениями равен одному месяцу).

Уже из графика мы видим, что ряд демонстрирует две особенности:

  • тренд – на нашем графике это долгосрочный рост наблюдаемых значений. Видно, что тренд практически линейный.
  • сезонность – на графике это периодические колебания величины. В следующей статье на тему временных рядов мы узнаем, как можно вычислить период.

Наш ряд достаточно «аккуратный», однако часто встречаются ряды, которые помимо двух описанных выше характеристик демонстрируют ещё одну – наличие «шума», т.е. случайных вариаций в той или иной форме. Пример такого ряда можно увидеть на графике ниже. Это синусоидальный сигнал, смешанный со случайной величиной.

При анализе рядов нас интересует выявление их структуры и оценка всех основных компонентов – тренда, сезонности, шума и других особенностей, а также возможность строить прогнозы изменения величины в будущих периодах.

При работе с рядами наличие шума часто затрудняет анализ структуры ряда. Чтобы исключить его влияние и лучше увидеть структуру ряда, можно использовать методы сглаживания рядов.

Самый простой метод сглаживания рядов – скользящее среднее. Идея заключается в том, что для любого нечётного количества точек последовательности ряда заменять центральную точку на среднее арифметическое остальных точек:

где x i – исходный ряд, s i – сглаженный ряд.

Ниже можно увидеть результат применения данного алгоритма к двум нашим рядам. Prognoz Platform по умолчанию предлагает использовать сглаживание с размером окна в 5 точек (k в нашей формуле выше будет равно 2). Обратите внимание, что сглаженный сигнал уже не так подвержен влиянию шума, однако вместе с шумом, естественно, пропадает и часть полезной информации о динамике ряда. Также видно, что у сглаженного ряда отсутствуют первые (и также последние) k точек. Это связано с тем, что сглаживание выполняется для центральной точки окна (в нашем случае для третьей точки), после чего окно сдвигается на одну точку, и вычисления повторяются. Для второго, случайного ряда, я использовал сглаживание с окном равным 30, чтобы лучше выявить структуру ряда, так как ряд «высокочастотный», точек очень много.

Метод скользящего среднего имеет определённые недостатки:

  • Скользящее среднее неэффективно в вычислении. Для каждой точки среднее необходимо перевычислять по новой. Мы не можем переиспользовать результат, вычисленный для предыдущей точки.
  • Скользящее среднее нельзя продлить на первые и последние точки ряда. Это может вызвать проблему, если нас интересуют именно эти точки.
  • Скользящее среднее не определено за пределами ряда, и как следствие, не может использоваться для прогнозирования.

Экспоненциальное сглаживание

Более продвинутый метод сглаживания, который также можно использовать для прогнозирования – экспоненциальное сглаживание, также иногда называемое методом Хольта-Уинтерса (Holt-Winters) в честь имён его создателей.

Существует насколько вариантов данного метода:

  • одинарное сглаживание для рядов, у которых нет тренда и сезонности;
  • двойное сглаживание для рядов, у которых есть тренд, но нет сезонности;
  • тройное сглаживание для рядов, у которых есть и тренд, и сезонность.

Метод экспоненциального сглаживания вычисляет значения сглаженного ряда путём обновления значений, рассчитанных на предыдущем шаге, используя информацию с текущего шага. Информация с предыдущего и текущего шагов берётся с разными весами, которыми можно управлять.

В простейшем варианте одинарного сглаживания соотношение такое:

Параметр α определяет соотношение между несглаженным значением на текущем шаге и сглаженным значением с предыдущего шага. При α =1 мы будем брать только точки исходного ряда, т.е. никакого сглаживания не будет. При α =0 ряд мы будем брать только сглаженные значения с предыдущих шагов, т.е. ряд превратится в константу.

Чтобы понять, почему сглаживание называется экспоненциальным, нам нужно раскрыть соотношение рекурсивно:

Из соотношения видно, что все предыдущие значения ряда вносят вклад в текущее сглаженное значение, однако их вклад угасает экспоненциально за счёт роста степени параметра α .

Однако, если в данных есть тренд, простое сглаживание будет «отставать» от него (либо придётся брать значения α близкими к 1, но тогда сглаживание будет недостаточным). Нужно использовать двойное экспоненциальное сглаживание.

Двойное сглаживание использует уже два уравнения – одно уравнение оценивает тренд как разницу между текущим и предыдущим сглаженным значениями, потом сглаживает тренд простым сглаживанием. Второе уравнение выполняет сглаживание как в случае простого варианта, но во втором слагаемом используется сумма предыдущего сглаженного значения и тренда.

Тройное сглаживание включает ещё один компонент – сезонность, и использует ещё одно уравнение. При этом различаются два варианта сезонного компонента – аддитивный и мультипликативный. В первом случае амплитуда сезонного компонента постоянна и со временем не зависит от базовой амплитуды ряда. Во втором случае амплитуда меняется вместе с изменением базовой амплитуды ряда. Это как раз наш случай, как видно из графика. С ростом ряда амплитуда сезонных колебаний увеличивается.

Так как наш первый ряд имеет и тренд, и сезонность, я решил подобрать параметры тройного сглаживания для него. В Prognoz Platform это довольно просто сделать, потому что при обновлении значения параметра платформа сразу же перерисовывает график сглаженного ряда, и визуально можно сразу увидеть, насколько хорошо он описывает наш исходный ряд. Я остановился на следующих значениях:

Как я вычислил период, мы рассмотрим в следующей статье о временных рядах.

Обычно в качестве первых приближений можно рассматривать значения между 0,2 и 0,4. Prognoz Platform также использует модель с дополнительным параметром ɸ , который дэмпфирует тренд так, что он приближается к константе в будущем. Для ɸ я взял значение 1, что соответствует обычной модели.

Также я сделал прогноз значений ряда данным методом на последние 2 года. На рисунке ниже я пометил точку начала прогноза, проведя через неё черту. Как видно, исходный ряд и сглаженный весьма неплохо совпадают, в том числе и на периоде прогнозирования – неплохо для такого простого метода!

Prognoz Platform также позволяет автоматически подобрать оптимальные значения параметров, используя систематический поиск в пространстве значений параметров и минимизируя сумму квадратов отклонений сглаженного ряда от исходного.

Описанные методы весьма просты, их легко применять, и они являются хорошей отправной точкой для анализа структуры и прогнозирования временных рядов.

Еще больше о временных рядах читайте в следующей статье.

Цели анализа временных рядов. При практическом изучении временных радов на основании экономических данных на определенном промежутке времени эконометрист должен сделать выводы о свойствах этого ряда и о вероятностном механизме, порождающем этот ряд. Чаще всего при изучении временных рядов ставятся следующие цели:

1. Краткое (сжатое) описание характерных особенностей ряда.

2. Подбор статистической модели, описывающей временной ряд.

3. Предсказание будущих значений на основе прошлых наблюдений.

4. Управление процессом, порождающим временной ряд.

На практике эти и подобные цели достижимы далеко не всегда и далеко не в полной мере. Часто этому препятствует недостаточный объем наблюдений из-за ограниченного времени наблюдений. Еще чаще – изменяющаяся с течением времени статистическая структура временного ряда.

Стадии анализа временных рядов . Обычно при практическом анализе временных рядов последовательно проходят следующие этапы:

1. Графическое представление и описание поведения временного рада.

2. Выделение и удаление закономерных составляющих временного рада, зависящих от времени: тренда, сезонных и циклических составляющих.

3. Выделение и удаление низко- или высокочастотных составляющих процесса (фильтрация).

4. Исследование случайной составляющей временного ряда, оставшейся после удаления перечисленных выше составляющих.

5. Построение (подбор) математической модели для описания случайной составляющей и проверка ее адекватности.

6. Прогнозирование будущего развития процесса, представленного временным рядом.

7. Исследование взаимодействий между различными временными радами.

Методы анализа временных рядов. Для решения этих задач существует большое количество различных методов. Из них наиболее распространенными являются следующие:

1. Корреляционный анализ, позволяющий выявить существенные периодические зависимости и их лаги (задержки) внутри одного процесса (автокорреляция) или между несколькими процессами (кросскорреляция).

2. Спектральный анализ, позволяющий находить периодические и квазипериодические составляющие временного ряда.

3. Сглаживание и фильтрация, предназначенные для преобразования временных рядов с целью удаления из них высокочастотных или сезонных колебаний.

5. Прогнозирование, позволяющее на основе подобранной модели поведения временного рада предсказывать его значения в будущем.

Модели тренда и методы его выделения из временного ряда

Простейшие модели тренда. Приведем модели трендов, наиболее часто используемые при анализе экономических временных рядов, а также во многих других областях. Во-первых, это простая линейная модель

где а 0 , а 1 – коэффициенты модели тренда;

t – время.

В качестве единицы времени может быть час, день (сутки), неделя, месяц, квартал или год. Модель 3.1. несмотря на свою простоту, оказывается полезной во многих реальных задачах. Если нелинейный характер тренда очевиден, то может подойти одна из следующих моделей:

1. Полиномиальная :

(3.2)

где значение степени полинома п в практических задачах редко превышает 5;

2. Логарифмическая:

Эта модель чаще всего применяется для данных, имеющих тенденцию сохранять постоянные темпы прироста;

3. Логистическая :

(3.4)

Гомперца

(3.5)

Две последние модели задают кривые тренда S-образной формы. Они соответствуют процессам с постепенно возрастающими темпами роста в начальной стадии и постепенно затухающимитемпами роста в конце. Необходимость подобных моделей обусловлена невозможностью многих экономических процессов продолжительное время развиваться с постоянными темпами роста или по полиномиальным моделям, в связи с их довольно быстрым ростом (или уменьшением).

При прогнозировании тренд используют в первую очередь для долговременных прогнозов. Точность краткосрочных прогнозов, основанных только на подобранной кривой тренда, как правило, недостаточна.

Для оценки и удаления трендов из временных рядов чаще всего используется метод наименьших квадратов. Этот метод достаточно подробно рассматривался во втором разделе пособия в задачах линейного регрессионного анализа. Значения временного ряда рассматриваюткак отклик (зависимую переменную), а время t – какфактор, влияющий на отклик (независимую переменную).

Для временных рядов характерна взаимная зависимость его членов (по крайней мере, не далеко отстоящих по времени) и это является существенным отличием от обычного регрессионного анализа, для которого все наблюдения предполагаются независимыми. Тем не менее, оценки тренда и в этих условиях обычно оказываются разумными, если выбрана адекватная модель тренда и если среди наблюдений нет больших выбросов. Упомянутые выше нарушения ограничений регрессионного анализа сказываются не столько на значениях оценок, сколько наих статистических свойствах. Так, при наличии заметной зависимости между членами временного ряда оценки дисперсии, основанные на остаточнойсумме квадратов (2.3), дают неправильные результаты. Неправильными оказываются и доверительные интервалы для коэффициентов модели, и т.д. В лучшем случае их можно рассматривать как очень приближенные.

Это положение может быть частично исправлено, если применять модифицированные алгоритмы метода наименьших квадратов, такие как взвешенный метод наименьших квадратов. Однако для этих методов требуется дополнительная информация о том, как меняется дисперсия наблюдений или их корреляция. Если же такая информация недоступна, исследователям приходится применять классический метод наименьших квадратов, несмотря на указанные недостатки.

Зачем нужны графические методы. В выборочных исследованиях простейшие числовые характеристики описательной статистики (среднее, медиана, дисперсия, стандартное отклонение) обычно дают достаточно информативное представление о выборке. Графические методы представления и анализа выборок при этом играют лишь вспомогательную роль, позволяя лучше понять локализацию и концентрацию данных, их закон распределения.

Роль графических методов при анализе временных рядов совершенно иная. Дело в том, что табличное представление временного ряда и описательные статистики чаще всего не позволяют понять характер процесса, в то время как по графику временного ряда можно сделать довольно много выводов. В дальнейшем они могут быть проверены и уточнены с помощью расчетов.

При анализе графиков можно достаточно уверенно определить:

· наличие тренда и его характер;

· наличие сезонных и циклических компонент;

· степень плавности или прерывистости изменений последовательных значений ряда после устранения тренда. По этому показателю можно судить о характере и величине корреляции между соседними элементами ряда.

Построение и изучение графика. Построение графика временного ряда – совсем не такая простая задача, как это кажется на первый взгляд. Современный уровень анализа временных рядов предполагает использование той или иной компьютерной программы для построения их графиков и всего последующего анализа. Большинство статистических пакетов и электронных таблиц снабжено теми или иными методами настройки на оптимальное представление временного ряда, но даже при их использовании могут возникать различные проблемы, например:

· из-за ограниченности разрешающей способности экранов компьютеров размеры выводимых графиков могут быть также ограничены;

· при больших объемах анализируемых рядов точки на экране, изображающие наблюдения временного ряда, могут превратиться в сплошную черную полосу.

Для борьбы с этими затруднениями используются различные способы. Наличие в графической процедуре режима «лупы» или «увеличения» позволяет изобразить более крупно выбранную часть ряда, однако при этом становится трудно судить о характере поведения ряда на всем анализируемом интервале. Приходится распечатывать графики для отдельных частей ряда и состыковыватьих вместе, чтобы увидеть картину поведения ряда в целом. Иногда для улучшения воспроизведения длинных рядов используется прореживание, то есть выбор и отображение на графике каждой второй, пятой, десятой и т.д. точки временного ряда. Эта процедура позволяет сохранить целостное представление ряда и полезна для обнаружения трендов. На практике полезно сочетание обеих процедур: разбиения ряда на части и прореживания, так как они позволяют определить особенности поведения временного ряда.

Еще одну проблему при воспроизведении графиков создают выбросы – наблюдения, в несколько раз превышающие по величине большинство остальных значений ряда. Их присутствие тоже приводит к неразличимости колебаний временного ряда, так как масштаб изображения программа автоматически подбирает так, чтобы все наблюдения поместились на экране. Выбор другого масштаба на оси ординат устраняет эту проблему, но резко отличающиеся наблюдения при этом остаются за границами экрана.

Вспомогательные графики. При анализе временных рядов часто используются вспомогательные графики для числовых характеристик ряда:

· график выборочной автокорреляционной функции (коррелограммы) с доверительной зоной (трубкой) для нулевой автокорреляционной функции;

· график выборочной частной автокорреляционной функции с доверительной зоной для нулевой частной автокорреляционной функции;

· график периодограммы.

Первые дваиз этих графиков позволяют судить о связи (зависимости) соседних значений временного рада, они используются при подборе параметрических моделей авторегрессии и скользящего среднего. График периодограммы позволяет судить о наличии гармонических составляющих во временном ряде.

Пример анализа временных рядов

Покажем последовательность анализа временных рядов на следующем примере. В таблице 8 приведены в относительных единицах данные продаж продовольственных товаров в магазине (Y t ). Разработать модель продаж и провести прогнозирование объема продаж на первые 6 месяцев 1996 года. Выводы обосновать.

Таблица 8

Месяц Y t

Построим график этой функции (рис. 8).

Анализ графика показывает:

· Временной ряд имеет тренд, весьма близкий к линейному.

· Существует определенная цикличность (повторяемость) процессов продаж с периодом цикла 6 месяцев.

· Временный ряд нестационарный, для приведения его к стационарному виду из него необходимо удалить тренд.

После перерисовки графика с периодом 6 месяцев он будет иметь следующий вид (рис.9). Так как колебания объемов продаж достаточно велики (это видно по графику) необходимо провести его сглаживание для более точного определения тренда.

Существует несколько подходов к сглаживанию временного временных рядов:

Ø Простое сглаживание.

Ø Метод взвешенной скользящей средней.

Ø Метод экспоненциального сглаживания Брауна.

Простое сглаживание основано на преобразовании исходного ряда в другой, значения которого являются усредненными по трем рядом стоящим точкам временного ряда:

(3.10)

для 1-го члена ряда

(3.11)

для n -го (последнего) члена ряда

(3.12)

Метод взвешенной скользящей средней отличается от простого сглаживания тем, что включает параметр w t , который позволяет вести сглаживание по 5 или 7 точкам

для полиномов 2-го и 3-го порядков значение параметра w t определяется из следующей таблицы

m = 5 -3 -3
m = 7 -2 -2

Метод экспоненциального сглаживания Брауна использует предшествующие значений ряда, взятые с определенным весом. Причем вес уменьшается по мере удаления его от текущего времени

, (3.14)

где а – параметр сглаживания (1 > a > 0);

(1 - а) – коэф. дисконтирования.

S o обычно выбирается равным Y 1 или среднему из первых трех значений ряда.

Проведем простое сглаживание ряда. Результаты сглаживания ряда приведены в таблице 9. Полученные результаты представлены графически на рис.10. Повторное применение процедуры сглаживания к временному ряду позволяет получить более гладкую кривую. Результаты расчетов повторного сглаживания также представлены в таблице 9. Найдем оценки параметров линейной модели тренда по методике, рассмотренной в предыдущем разделе. Результаты расчетов следующие:

Множественный R 0,933302
R-квадрат 0,871052
`a 0 = 212,9729043 `t = 30,26026442 `a 1 = 5,533978254 `t = 13,50506944 F = 182,3869

Уточненный график с линией тренда и моделью тренда представлен на рис. 12.

Месяц Y t Y 1t Y 2t

Таблица 9


Рис. 12

Следующий этап заключается в удалении тренда из исходного временного ряда.



Для удаления тренда вычтем из каждого элемента первоначального ряда значения, рассчитанные по модели тренда. Полученные значения представим графически на рис.13.

Полученные остатки, как видно из рис. 13, группируются около нуля, а это значит, что ряд близок к стационарному.

Для построения гистограммы распределения остатков рассчитывают интервалы группирования остатков ряда. Количество интервалов определяют из условия среднего попадания в интервал 3-4 наблюдения. Для нашего случая возьмем 8 интервалов. Размах ряда (крайние значения) от –40 до +40. Ширина интервала определяется как 80/8 =10. Границы интервалов рассчитываются от минимального значения размаха полученного ряда

-40 -30 -20 -10

Теперь определим накопленные частоты попадания остатков ряда в каждый интервал и нарисуем гистограмму (рис.14).

Анализ гистограммы показывает, что остатки группируются около 0. Однако в области от 30 до 40 есть некоторый локальный выброс, который свидетельствует о том, что не учтены и не удалены из исходного временного ряда некоторые сезонные или циклически компоненты. Более точно о характере распределения и его принадлежности к нормальному распределению можно сделать выводы после проверки статистической гипотезы о характере распределения остатков. При ручной обработке рядов обычно ограничиваются визуальным анализом полученных рядов. При обработке на ЭВМ существует возможность более полного анализа.

Что же является критерием завершения анализа временного ряда? Обычно исследователи используют два критерия, отличающихся от критериев качества модели при корреляционно-регрессионном анализе.

Первый критерий качества подобранной модели временного ряда основан на анализе остатков ряда после удаления из него тренда и других компонент. Объективные оценки основаны на проверке гипотезы о нормальном распределении остатков и равенстве нулю выборочного среднего. При ручных методах расчета иногда оценивают показатели ассиметрии и эксцесса полученного распределения. Если они близки к нулю, то распределение считается близким к нормальному. Ассиметрия , А рассчитывается как:

В том случае, если A < 0, то эмпирическое распределение несимметрично и сдвинуто вправо. При A > 0 распределение имеет сдвиг влево. При A = 0 распределение симметрично.

Эксцесс , Е. Показатель, характеризующий выпуклость или вогнутость эмпирических распределений

В том случае, если Е больше или равно нулю, то распределение выпукло, в других случаях вогнуто.

Второй критерий основан на анализе коррелограммы преобразованного временного ряда. В том случае, если корреляции между отдельными измерениями отсутствуют или меньше заданного значения (обычно 0.1) считается, что все компоненты ряда учтены и удалены и остатки не коррелированы между собой. В остатках ряда осталась некая случайная компонента, которая называется «белый шум».

Резюме

Применение методов анализа временных рядов в экономике позволяет сделать обоснованный прогноз изменения исследуемых показателей при определенных условиях и свойствах временного ряда. Временной ряд должен быть достаточного объема и содержать не менее 4 циклов повторения исследуемых процессов. Кроме того, случайная компонента ряда не должна быть соизмеримой с другими циклическими и сезонными компонентами ряда. В этом случае получаемые оценки прогноза имеют практический смысл.

Литература

Основная:

1. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика: Начальный курс. Акад. нар. хоз-ва при Правительстве РФ. – М.: Дело, 1997. – 245 с.

2. Доугерти К. Введение в эконометрику. – М.: ИНФРА-М, 1997. – 402 с.

Дополнительная:

1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. – М.: Юнити, 1998. – 1022 с.

2. Многомерный статистический анализ в экономике / Под ред. В.Н. Тамашевича. – М.: Юнити-Дана, 1999. – 598 с.

3. Айвазян С.А., Енюков Й.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. – М.: Финансы и статистика, 1983.

4. Айвазян С.А., Енюков Й.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. – М.: Финансы и статистика, 1985.

5. Айвазян С.А., Бухштабер В.М., Енюков С.А., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. – М.: Финансы и статистика, 1989.

6. Бард Й. Нелинейное оценивание параметров. – М.: Статистика, 1979.

7. Демиденко Е.З. Линейная и нелинейная регрессия. – М.: Финансы и статистика, 1981.

8. Джонстон Д. Эконометрические методы. – М.: Статистика, 1980.

9. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. В 2-х кн. – М.: Финансы и статистика, 1986.

10. Себер Дж. Линейный регрессионный анализ. – М.: Мир, 1980.

11. Андерсон Т. Cтатистический анализ временных рядов. – М.: Мир, 1976.

12. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. (Вып. 1, 2). – М.: Мир, 1972.

13. Дженкинс Г., Ваттс Д. Cпектральный анализ и его применения. – М.: Мир, 1971.

14. Гренджер К., Хатанака М. Cпектральный анализ временных рядов в экономике. – М.: Статистика, 1972.

15. Кендэл М. Временные ряды. – М.: Финансы и статистика, 1981.

16. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. – М.: Наука, 1979.

17. Дюран Б., Оделл П. Кластерный анализ. – М.: Статистика, 1977.

18. Ермаков C.М., Жиглявский А.А. Математическая теория оптимального эксперимента. – М.: Наука, 1982.

19. Лоули Д., Максвелл А. Факторный анализ как статистический метод. – М.: Мир, 1967.

20. Розин Б.Б. Теория распознавания образов в экономических исследованиях. – М.: Статистика, 1973.

21. Справочник по прикладной статистике. – М.: Финансы и статистика, 1990.

22. Хьюбер П. Робастность в статистике. – М.: Мир, 1984.

23. Шеффе Г. Дисперсионный анализ. – М.: Наука, 1980.

Обзор литературы по статистическим пакетам:

1. Кузнецов С.Е. Халилеев А.А. Обзор специализированных статистических пакетов по анализу временных рядов. – М.: Статдиалог, 1991.


Виды и методы анализа временных рядов

Временной ряд представляет собой совокупность последовательных измерений переменной, проведенных через одинаковые интервалы времени . Анализ временных рядов позволяет решать следующие задачи:

  • исследовать структуру временного ряда, включающую, как правило, тренд - закономерные изменения среднего уровня, а также случайные периодические колебания;
  • исследовать причинно-следственные взаимосвязи между процессами, определяющие изменения рядов, которые проявляются в корреляционных связях между временными рядами;
  • построить математическую модель процесса, представленного временным рядом;
  • преобразовать временной ряд средствами сглаживания и фильтрации;
  • прогнозировать будущее развития процесса.

Значительная часть известных методов предназначена для анализа стационарных процессов, статистические свойства которых, характеризуемые при нормальном распределении средним значением и дисперсией, постоянны, не меняются с течением времени.

Но ряды часто имеют нестационарный характер. Нестационарность можно устранить следующим образом:

  • вычесть тренд, т.е. изменения среднего значения, представленного некоторой детерминированной функцией, которую можно подобрать путем регрессионного анализа;
  • выполнить фильтрацию специальным нестационарным фильтром.

Для стандартизации временных рядов в целях единообразия методов

анализа целесообразно провести их общее или посезонное центрирование путем деления на среднюю величину, а так же нормирование путем деления на стандартное отклонение.

Центрирование ряда удаляет ненулевое среднее значение, которое может затруднить интерпретацию результатов, например, при спектральном анализе. Цель нормирования - избежать в вычислениях операций с большими числами, что может привести к снижению точности расчетов.

После указанных предварительных преобразований временного ряда может быть построена его математическая модель, по которой осуществлено прогнозирование, т.е. получено некоторое продолжение временного ряда.

Чтобы результат прогноза можно было сопоставить с исходными данными, над ним следует произвести преобразования, обратные выполненным.

На практике наиболее часто используют методы моделирования и прогнозирования, а корреляционный и спектральный анализ рассматривают как вспомогательные методы. Это заблуждение. Методы прогнозирования развития средних тенденций позволяют получить оценки с существенными погрешностями, что весьма затрудняет прогнозирование будущих значений переменной, представленной временным рядом.

Методы корреляционного и спектрального анализа позволяют выявить различные, в том числе инерционные свойства системы, в которой идет развитие изучаемых процессов. Применение этих методов позволяет по текущей динамике процессов с достаточной уверенностью установить, как и с какой задержкой, известная динамика скажется на будущем развитии процессов. Для долгосрочного прогнозирования эти виды анализа позволяют получить ценные результаты.

Анализ и прогнозирование тренда

Анализ тренда предназначен для исследования изменений среднего значения временного ряда с построением математической модели тренда и с прогнозированием на этой основе будущих значений ряда. Анализ тренда выполняют путем построения моделей простой линейной или нелинейной регрессии.

Используемые исходные данные представляют собой две переменные, одна из которых - значения временного параметра, а другая - собственно значения временного ряда. В процессе анализа можно:

  • опробовать несколько математических моделей тренда и выбрать ту, которая с большей точностью описывает динамику изменения ряда;
  • построить прогноз будущего поведения временного ряда на основании выбранной модели тренда с определенной доверительной вероятностью;
  • удалить тренд из временного ряда в целях обеспечения его стационарности, необходимой для корреляционного и спектрального анализа, для этого после расчета регрессионной модели необходимо сохранить остатки для выполнения анализа.

В качестве моделей трендов используют различные функции и сочетания, а так же степенные ряды, иногда называемые полиномиальными моделями. Наибольшую точность обеспечивают модели в виде рядов Фурье, однако не многие статистические пакеты позволяют использовать такие модели.

Проиллюстрируем получение модели тренда ряда. Используем ряд данных о валовом национальном продукте США на период 1929-1978 гг. в текущих ценах. Построим полиномиальную регрессионную модель. Точность модели повышалась, пока степень полинома не достигла пятой:

У = 145,6 - 35,67* + 4,59* 2 - 0,189* 3 + 0,00353х 4 + 0,000024* 5 ,

(14,9) (5,73) (0,68) (0,033) (0,00072) (0,0000056)

где У - ВНП, млрд дол.;

* - годы, отсчитываемые от первого 1929 г.;

под коэффициентами указаны их стандартные ошибки.

Стандартные ошибки коэффициентов модели малы, не достигают величин, равных половине значений коэффициентов модели. Это свидетельствует о хорошем качестве модели.

Коэффициент детерминации модели, равный квадрату приведенного коэффициента множественной корреляции составил 99%. Это означает, что модель объясняет данные на 99%. Стандартная ошибка модели оказалась равна 14,7 млрд, а уровень значимости нулевой гипотезы - гипотезы об отсутствии связи - менее 0,1%.

С помощью полученной модели можно дать прогноз, который в сопоставлении с фактическими данными приведен в табл. ПЗ. 1.

Прогноз и фактический размер ВНП США, млрд дол.

Таблица ПЗ.1

Прогноз, полученный с помощью полиномиальной модели, не слишком точен, о чем свидетельствуют данные, приведенные в таблице.

Корреляционный анализ

Корреляционный анализ необходим для выявления корреляций и их лагов - задержек их периодичности. Связь в одном процессе получила название автокорреляции, а связь между двумя процессами, характеризуемыми рядами - кросскорреляции. Высокий уровень корреляции может служить индикатором причинно-следственных связей, взаимодействий внутри одного процесса, между двумя процессами, а величина лага указывает временную задержку в передаче взаимодействия.

Обычно в процессе расчета значений корреляционной функции на к -м шаге вычисляется корреляция между переменными по длине отрезка / = 1,..., (п - к) первого ряда X и отрезка / = к ,..., п второго ряда К Длина отрезков, таким образом, меняется.

В результате получается некоторая трудная для практической интерпретации величина, напоминающая параметрический коэффициент корреляции, но не идентичная ему. Поэтому возможности корреляционного анализа, методику которого используют во многих статистических пакетах, ограничены узким кругом классов временных рядов, которые нехарактерны для большинства экономических процессов.

Экономистов в корреляционном анализе интересует исследование лагов в передаче воздействия от одного процесса к другому или влияния начального возмущения на последующее развитие того же самого процесса. Для решения таких задач была предложена модификация известного метода, названная интервальной корреляцией ".

Кулаичев А.П. Методы и средства анализа данных в среде Vindows. - М.: Информатика и компьютеры, 2003.

Интервальная корреляционная функция представляет собой последовательность коэффициентов корреляции, вычисленных между фиксированным отрезком первого ряда заданного размера и положения и равными им по размеру отрезками второго ряда, выбранных с последовательными сдвигами от начала ряда.

В определение добавляется два новых параметра: длина сдвигаемого фрагмента ряда и его начальное положение, а также используется принятое в математической статистике определение коэффициента корреляции Пирсона. Благодаря этому вычисляемые значения становятся сравнимы между собой и просто интерпретируемы.

Обычно для выполнения анализа необходимо выбрать одну или соответственно две переменные для автокорреляционного или кросскорреляцион-ного анализа, а так же задать следующие параметры:

Размерность временного шага анализируемого ряда для согласования

результатов с реальной временной шкалой;

Длину сдвигаемого фрагмента первого ряда, в виде числа включаемых в

него элементов ряда;

Сдвиг этого фрагмента относительно начала ряда.

Разумеется, необходимо выбрать вариант интервальной корреляции или иной корреляционной функции.

Если для анализа выбрана одна переменная, то вычисляются значения автокорреляционной функции для последовательно увеличивающихся лагов. Автокорреляционная функция позволяет определить, в какой степени динамика изменения заданного фрагмента воспроизводится в сдвинутых во времени его же отрезках.

Если для анализа выбраны две переменные, то вычисляются значения кросскорреляционной функции для последовательно увеличивающихся лагов - сдвигов второй из выбранных переменных относительно первой. Кросскорреляционная функция позволяет определить, в какой степени изменения фрагмента первого ряда воспроизводятся в сдвинутых во времени фрагментах второго ряда.

Результаты анализа должны включать оценки критического значения коэффициента корреляции г 0 для гипотезы «г 0 = 0» на определенном уровне значимости. Это позволяет не принимать во внимание статистически незначимые коэффициенты корреляции. Необходимо получить значения корреляционной функции с указанием лагов. Весьма полезны и наглядны графики авто- или кросскорреляционных функций.

Проиллюстрируем применение кросскорреляционного анализа на примере. Оценим взаимосвязи темпов прироста ВНП США и СССР за 60 лет с 1930 по 1979 гг. Для получения характеристик долгосрочных тенденций сдвигаемый фрагмент ряда выбран длиной 25 лет. В результате были получены коэффициенты корреляции при разных лагах.

Единственный лаг, при котором корреляция оказывается значимой - 28 лет. Коэффициент корреляции при этом лаге составляет 0,67, тогда как пороговое, минимальное значение - 0,36. Оказывается, что цикличность долгосрочного развития экономики СССР с лагом величиной 28 лет была тесно связана с цикличностью долгосрочного развития экономики США.

Спектральный анализ

Общепринятый способ анализа структуры стационарных временных рядов - это использование дискретного преобразования Фурье для оценки спектральной плотности или спектра ряда. Этот метод можно применять:

  • для получения описательных статистик одного временного ряда или описательных статистик зависимостей между двумя временными рядами;
  • для выявления периодических и квазипериодических свойств рядов;
  • для проверки адекватности моделей, построенных другими методами;
  • для сжатого представления данных;
  • для интерполяции динамики временных рядов.

Точность оценок спектрального анализа можно повысить за счет применения специальных методов - использования сглаживающих окон и методов усреднения.

Для анализа необходимо выбрать одну или две переменные, при этом должны быть заданы следующие параметры:

  • размерность временного шага анализируемого ряда, необходимая для согласования результатов с реальной временной и частотной шкалами;
  • длина к анализируемого отрезка временного ряда, в виде числа включаемых в него данных;
  • сдвиг очередного отрезка ряда к 0 относительно предыдущего;
  • тип временного окна сглаживания для подавления в спектре так называемого эффекта вытекания мощности ;
  • тип усреднения частотных характеристик, вычисленных на последовательных отрезках временного ряда.

Результаты анализа включают спектрограммы - значения характеристик амплитудно-частотной спектра и значения фазочастотных характеристик. В случае кросс-спектрального анализа результаты - это также значения передаточной функции и функции когерентности спектра. Результаты анализа могут включать и данные периодограмм.

Амплитудно-частотная характеристика кросс-спектра, называемая также кросс-спектральной плотностью, представляет зависимость амплитуды взаимного спектра двух взаимосвязанных процессов от частоты. Такая характеристика наглядно показывает, на каких частотах наблюдается синхронные и соответствующие по величине изменения мощности в двух анализируемых временных рядах или где находятся области их максимальных совпадений и максимальных несовпадений.

Проиллюстрируем применение спектрально анализа на примере. Проанализируем волны экономической конъюнктуры в Европе в период начала индустриального развития. Для анализа используем не сглаженный временной ряд индексов цен на пшеницу, усредненных Бевериджем по данным 40 рынков Европы за 370 лет с 1500 по 1869 г. Получим спектры

ряда и отдельных его отрезков продолжительностью 100 лет через каждые 25 лет.

Спектральный анализ позволяет оценить мощность каждой гармоники спектра. Наиболее мощными оказываются волны с 50-летним периодом, которые, как известно, были открыты Н. Кондратьевым 1 и получили его имя. Анализ позволяет установить, что сформировались они не в конце XVII - начале XIX в., как полагают многие экономисты. Они сформировались с 1725 по 1775 г.

Построение моделей авторегрессии и проинтегрированного скользящего среднего (ARIMA) считаются полезными для описания и прогнозирования стационарных временных рядов и нестационарных рядов, обнаруживающих однородные колебания вокруг изменяющегося среднего значения.

Модели ARIMA представляют собой комбинации двух моделей: авторегрессии {AR) и скользящего среднего (moving average - МА).

Модели скользящего среднего (МА) представляют стационарный процесс в виде линейной комбинации последовательных значений так называемого «белого шума». Такие модели оказываются полезными как в качестве самостоятельных описаний стационарных процессов, так и в качестве дополнения к моделям авторегрессии для более детального описания шумовой составляющей.

Алгоритмы вычисления параметров модели МА очень чувствительны к неправильному выбору числа параметров для конкретного временного ряда, особенно в сторону их увеличения, что может выражаться в отсутствии сходимости вычислений. Рекомендуется не выбирать на начальных этапах анализа модель скользящего среднего с большим числом параметров.

Предварительное оценивание - первый этап анализа с использованием модели ARIMA. Процесс предварительного оценивания прекращается по принятию гипотезы об адекватности модели временному ряду или по исчерпанию допустимого числа параметров. В итоге результаты анализа включают:

  • значения параметров авторегрессионой модели и модели скользящего среднего;
  • для каждого шага прогнозирования указываются - среднее значение прогноза, стандартная ошибка прогноза, доверительный интервал прогноза для определенного уровня значимости;
  • статистику оценки уровня значимости гипотезы не коррелированное™ остатков;
  • графики временного ряда с указанием стандартной ошибки прогноза.
  • Значительная часть материалов раздела ПЗ основана на положениях книг: Басовский Л.Е. Прогнозирование и планирование в условиях рынка. - М.: ИНФРА-М, 2008. Гилмор Р. Прикладная теория катастроф: В 2 кн. Кн. 1/ Пер. с англ. М.: Мир, 1984.
  • Жан Батист Жозеф Фурье (Jean Baptiste Joseph Fourier ; 1768-1830) - французский математик и физик.
  • Николай Дмитриевич Кондратьев (1892-1938) - русский и советский экономист.