"Гусеница" - будущий классический метод анализа временных рядов

По заверению небольшой группы питерских ученых, в скором будущем к классическим методам анализа временных рядов прибавится еще один - "Гусеница". Работа над ним ведется уже более 30 лет, а сам метод имеет интересную историю... Рассказать об особенностях "Гусеницы" я попросил Нину Эдуардовну ГОЛЯНДИНУ, принимающую непосредственное участие в разработке метода.

Голяндина Нина Эдуардовна, кандидат физ.-мат. наук, доцент кафедры статистического моделирования, Санкт-Петербургский университет, математико-механический факультет.


- Нина Эдуардовна, сколько лет уже работает ваша группа над этим уникальным методом? Кто входит в состав группы и руководит ею?

- Идея "Гусеницы" витала в воздухе и получила свое воплощение независимо и почти одновременно в разных точках мира. Одно из таких мест - Санкт-Петербургский университет (в то время Ленинградский государственный университет). Произошло это в 60-70-х годах. Я сама узнала о методе от своего коллеги, тоже сотрудника университета, Солнцева Владислава Николаевича. Он и сейчас работает с нами, занимаясь в том числе задачами применения метода к реальным данным. С его слов, все началось с работы О.М. Калинина (он сейчас является сотрудником университета), выполненной под руководством великого математика А.Н. Колмогорова в 1961 году.

К разработке "Гусеницы" наш мини-коллектив подключился только в 90-х годах. Кроме меня, в коллектив входят два других сотрудника математико-механического факультета СПбГУ: Владимир Викторович Некруткин (теоретические идеи) и Кирилл Александрович Браулов (программная реализация метода). Я же выступаю в некотором роде связующим звеном, одновременно участвуя понемногу как в теоретической, так и в практической части развития метода.

 

- Каковы принципиальные отличия метода "Гусеница" от других методов анализа временных рядов? В чем его уникальность?

- Первой идеей, лежащей в основе метода, является создание повторности путем перехода от временного ряда (последовательности некоторых измерений или характеристик в равноотстоящие моменты времени) к последовательности векторов, состоящих из отрезков временного ряда выбранной длины. Таким образом, получается что-то вроде многомерной выборки, так как если исходный ряд имел какую-то структуру, то и его отрезки наследуют эту структуру. Второй идеей является анализ полученной многомерной выборки (траекторной матрицы) с помощью ее сингулярного разложения или, используя статистические аналогии, анализа главных компонент. Тем самым получается разложение исходного временного ряда (точнее, его траекторной матрицы) по базису, порождаемому им самим.

Мне кажется, одной из отличительных черт метода является его естественность. Метод не навязывает изначально какую-либо модель исследуемого временного ряда. Но при этом он позволяет так разложить ряд на элементарные составляющие, что по ним оказывается возможным воссоздать структуру ряда, например, выделить трэнд или найти периодические составляющие. Кроме этого, метод дает замечательную возможность очищать сигнал от шумовой составляющей.

- "Гусеница" используется не только для анализа временных рядов, но еще и для их прогнозирования. Если сравнивать получаемые с его помощью прогнозы, а также результаты работы других методов, то какие из моделей оказываются наиболее точными?

- Проблема корректного сравнения различных методов не так проста, как кажется на первый взгляд. Одним из основных препятствий является интерактивность метода "Гусеница", что не позволяет проводить сравнение автоматически, на основе большого числа промоделированных или реальных данных. Другой аспект - это некорректность сравнения методов безотносительно к классу временных рядов. Например, для рядов, удовлетворяющих заданной модели, скорее всего, лучше будет метод, настроенный на эту модель.

Совсем другое дело, если модель априори неизвестна. Тогда будут, в среднем, лучше проявлять себя методы, настроенные на более широкий класс рядов. К таким методам мы и относим "Гусеницу", которая применима для достаточно широкого класса рядов, но проигрывает незначительно, если его сравнивать с рядом известных параметрических методов (такими, как, например, линейная регрессия или разложение Фурье).

- Представлялась ли "Гусеница" на международном уровне?

- Как я упоминала в начале интервью, метод нельзя считать чисто российским. Однако мы можем утверждать, что у нас есть свой, отличный от зарубежного, взгляд на метод, на его теоретическое обоснование и методологию применения. Все это нашло отражение в англоязычной книге, вышедшей в 2001 году в издательстве CRC Press. Кроме меня и Владимира Викторовича, автором книги является наш бывший коллега, а ныне профессор Кардиффского университета (Великобритания) Жиглявский Анатолий Александрович.

Распространению нашего взгляда на метод "Гусеница" за рубежом способствует наше участие в международных конференциях, а также созданный англоязычный сайт с примерами применения метода и программой CaterpillarSSA (Caterpillar - это гусеница по-английски, а Singular Spectrum Analysis - иностранное название аналога метода).

- Кто выступает заказчиком вашего метода? Есть ли реальные, уже работающие примеры применения "Гусеницы"?

- Можно сказать, что мы занимаемся развитием метода и программы, главным образом, из своего личного научного интереса. Однако круг пользователей довольно широк: от представителей банков до людей, занимающихся научными исследованиями.

Основную часть применений метода можно найти за рубежом: в климатологии (например, исследование течения Эль-Ниньо, его тенденций и колебаний), геофизике (очистка улавливаемого сейсмоприемниками сигнала от шума), гидрологии (для исследования колебаний уровней озер и водохранилищ, используемых для охлаждения ядерных реакторов на атомных электростанциях). Есть попытки применения метода к эконометрическим рядам.

- Несмотря ни на что, теоретическое описание "Гусеницы" пока общедоступно, и с ним может ознакомиться любой желающий. А вот программа CaterpillarSSA распространяется как условно-бесплатная...

- На данный момент общедоступными действительно являются описание метода, примеров и методологии применения, теории. Также каждый может воспользоваться бесплатной первой версией программы, реализующей в простой форме базовый вариант метода. В принципе, так как алгоритмы метода доступны, то любой человек, который серьезно хочет разобраться в методе, может реализовать его, например, в Matlab.

Целью наших программ является эффективная реализация создаваемых алгоритмов и, в большой степени, реализация методологии их применения, в частности, предоставление пользователю большого числа визуальной информации, на основе которой он может провести качественное и глубокое исследование временного ряда. Распространение наших программ как условно-бесплатных делает возможным дальнейшее развитие программной реализации метода, без чего было бы невозможно научное продвижение.

- Работа над методом продолжается? Или он достиг своей наивысшей точки развития?

- Нет, конечно, развитие метода продолжается как силами нашей группы, так и зарубежными исследователями. На нашей кафедре статистического моделирования идет работа над двумя кандидатскими диссертациями по соответствующей тематике. Есть еще очень много неисследованных вопросов, на которые просто не хватает сил нашей маленькой группе. Найти ответ на них очень интересно, и я надеюсь, что работа в этом направлении будет продолжаться и окажется успешной.

- У вас на сайте есть такая фраза: "Мы уверены, что в скором времени метод "Гусеница" войдет в число основных средств анализа временных рядов и будет включен в состав стандартных пакетов анализа данных". На чем строится такая уверенность?

- Эта фраза отражает наш взгляд на метод, в целом, как метод с очень широкой областью применения и в то же время простой, естественный и мощный. Наша роль, в частности, состоит в развитии и распространении этого общего метода. Может быть, в его популяризации. Мы видим, что наши усилия не проходят даром. В России все больше людей знает о методе и все больше появляется статей, посвященных его применению. За рубежом изучение метода SSA уже часто входит в общие курсы анализа временных рядов. В этом, конечно, наша роль менее существенна, но выпущенная в 2001 году книга способствует популяризации "Гусеницы". Мы верим в метод и считаем, что момент, когда он станет "классическим" - это только вопрос времени.

Беседовал Павел БАДЯЛИК


Программа CaterpillarSSA представляет собой инструмент для анализа и прогнозирования одномерных и многомерных временных рядов методом "Гусеница". Метод позволяет раскладывать исходные ряды на тренд, колебания (периодики) и шум без задания модели ряда, а затем прогнозировать интерактивно.

Ознакомиться с теорий метода, рассмотреть примеры его применения и скачать реализующую его программу CaterpillarSSA (811 Kb) можно по адресу www.gistatgroup.com/gus.

Версия для печатиВерсия для печати

Номер: 

21 за 2004 год

Рубрика: 

Эксклюзивное интервью
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!
 

Комментарии

Аватар пользователя Игорь Шаров
Попробовал написать программу по материалам сайта СтатГрупп. Поражён результатами. Это метод открывает действительно просто фантастические перспективы для прогноза. К сожалению в материалах сайта много опечаток в формулах. В части 5 главы III материала недостаточно для написания программы. Я просто не смог программно реализовать изложенные в этой части идеи, хотя очень хочется написать работоспособную программу.
Аватар пользователя Котт
Как то, после прочтения этой статьи я заинтересовался этой гусеницей и потратил некоторое (правда, достаточно небольшое) время на поиск и прочтение этого сайта. Помню был раздосадован, что авторы почти за все требовали денег. Бросил и забыл. Через некоторое время наткнулся на пакет, реализующий очень похожие (по описанию) функции в составе системы статистических вычислений R. Я этой системой пользуюсь уже лет 5. Там ТОННЫ очень сложного, эффективного и чрезвычайно полезного математического софта в виде пакетов к R. И все совершенно бесплатно.

Честно говоря, не могу понять, глядя, как у нас каждый подросток и взрослый дядя норовит "заработать" на очередном "заменителе блокнота" и все это на фоне высочайшей пробы софта, предлагаемого совершенно бесплатно (в тот же R с его пакетами вбиты сотни человеко-лет труда лучших математиков--программистов мира, знаю, что говорю). Просто не совмещаются в моей голове эти две вещи. Возможно еще до конца не выветрился из голов дух конца 80-х, когда все решили, что мы все умные, наш софт -- очень ценен, сейчас мы его начнем продавать, его будут рвать с руками (особенно за границей :-) и все станут Биллами Гейтсами.