knowledge base

Анализ данных

Анализ данных

Выбор признаков и целевых признаков

При применении данного блока в датасете выбираются: признаки – измеримые характеристики исследуемого объекта/ процесса, и целевые (зависимые) переменные, значения которых предстоит предсказывать модели. Признаки можно указывать вручную или добавлять напрямую из файла нажатием на кнопку «Выбрать признаки» в строке с названием файла.

Параметры блока

  • Признаки. Характеристики, которые исследуются и выявляется корреляция между ними и рассматриваемым целевым признаком.
  • Целевые признаки. Предсказываемые переменные.

Выходная информация

В результате работы блока система преобразует данные из источника для получения датасета с размеченными признаками и целевыми признаками.

Матрица корреляции

При применении данной функции выполняется следующая последовательность действий:

  • Алгоритм рассчитывает коэффициенты корреляции по всем признакам (общая матрица корреляции);

  • Затем в этой матрице отбираются топ-k максимальных (ближе к 1) значений коэффициентов корреляции;
  • Строится новая матрица корреляции, состоящая из признаков, для которых найдены максимальные значения коэффициентов.

Параметры блока

  • Топ k-значений корреляции. Количество максимальных значений корреляции.

Выходная информация

  • График Матрица корреляции (подробнее см. в этом разделе);
  • Таблица Матрица корреляции по всем признакам (подробнее см. в этом разделе).

Косинусное расстояние

При применении данной функции вычисляется косинусное расстояние между значениями во входном векторе и значениями выбранных столбцов в наблюдениях. Признаки можно указывать вручную или добавлять напрямую из файла нажатием на кнопку «Выбрать признаки» в строке с названием файла.

Параметры блока

  • Признаки. Признаки для анализа.
  • Вектор. Вектор такой же длины, что и количество выбранных в датасете признаков (1D-array).

Выходная информация

Поиск пропущенных значений

Для каждого выбранного признака метод находит пропущенные значения в наблюдениях.  Признаки можно указывать вручную или добавлять напрямую из файла нажатием на кнопку «Выбрать признаки» в строке с названием файла.

Параметры блока

  • Признаки. Выбираются признаки, в которых необходимо найти пропущенные значения.

Анализ временных рядов

Совокупность математико-статистических методов анализа, предназначенных для выявления структуры временных рядов и для их прогнозирования. На практике применение данного блока означает возможность визуализировать временной ряд и его анализ с помощью следующих графиков:

  • Линейный график;
  • График автокорреляции (ACF) и частичной автокорреляции (PACF);
  • Декомпозиция;
  • Свечной график;
  • Time profile;
  • Extended;
  • Bollinger Bands;
  • Stochastic.

Подробную информацию о графиках см. в этом разделе.

Графики можно выбирать и настраивать в зависимости от целей конкретной задачи. После успешной отработки блок схемы графики можно отобразить на рабочей области (Визуализация на рабочей области в виде графиков) или создать отдельный Дашборд (Визуализация графиков на дашборде).

Запись в датасет логирования

Данная функция применяется при построении пайплайнов в режиме реального времени. В процессе логирования осуществляется запись всех новых поступающих значений в датасет для дальнейшего использования при валидации и работе с моделью. При этом в процессе логирования записываются:

  • фактические значения;
  • промежуточные транформации при препроцессинге до подачи в модель (если в качестве источника данных добавлена модель);
  • прогнозные значения (если в пайплайне настроен прогноз).

Выходная информация

Датасет с обработанными данными.

Визуализация Real-time

Совокупность математико-статистических методов анализа, предназначенных для выявления структуры временных рядов с целью представления результатов в виде различных графиков. На практике применение данного блока означает возможность визуализировать блок схему с помощью следующих графиков:

  • Линейный график real time;
  • Свечной график real time;
  • Time profile real time;
  • Extended real time;
  • Bollinger Bands real time;
  • Stochastic real time.

Подробно все графики представлены в разделе Визуализация Real-time (подробнее см. здесь).

Загрузка данных

Преобразование данных во временной ряд

Функция редактирует исходные данные, исключая в них аномалии и искаженные наблюдения, которые могли быть зафиксированы в результате помех. Далее выполняется дискретизация – определяются точки (моменты времени), в которых должны быть произведены выборки значений. Дискретизация производится через равные промежутки времени.

Параметры блока

  • Шаг ресемплирования. Дискретность для временного ряда – частота фиксирования наблюдений, значения начиная с нано-, микро-, милли-, секунд и заканчивая годами. Указывается оптимальный интервал дискретности.
  • Частота ресемплирования. Единица измерения, в которой фиксируются наблюдения.
  • Агрегирующая функция. Функция, вычисляющая результат по набору значений группы, где группа – наблюдения в пределах шага ресемплирования. По умолчанию, значение вычисляется функцией медианы.
  • Столбец с временной меткой. Указывается наименование столбца, в котором содержатся данные о времени фиксирования наблюдения. 

Выходная информация

Создается датасет-временной ряд, с заданным шагом ресемплирования.

Препроцессинг

Стабилизация дисперсии

Уменьшает разброс исследуемых данных, чтобы сделать их более компактными и пригодными для работы.

.

Параметры блока

  • Метод. Выбирается метод, с помощью которого проводится стабилизация дисперсии – приведение данных к нормальному распределению. На выбор два метода – yeo-johnson и box-cox. Метод  yeo-johnson работает как с отрицательными, так и с положительными значениями, а метод box-cox только с положительными.
  • Замена значений столбцов. Преобразование оригинального временного ряда, загруженного в систему. При активации параметры, значения признаков будут заменены на масштабируемые.
  • Стандартизация. Преобразование значений признака, адаптирующая признаки с разными диапазонами значений к моделям машинного обучения.
  • Флаг признака. Показатели датасета, значения которых предстоит предсказывать модели машинного обучения.

Выходная информация

  • График Временной ряд после стабилизации дисперсии;
  • График Гистограмма после стабилизации дисперсии.
Стандартизация

Чтобы сгладить большие различия между диапазонами признаков датасета и предотвратить искаженное восприятие данных моделью машинного обучения выполняется стандартизация – преобразование и приведение признаков датасета к единому формату.

Параметры блока

  • Замена значений столбцов. Подтверждение преобразования оригинального временного ряда (заменой трансформируемых столбцов или добавлением новых). При активации параметра, значения признаков будут заменены на стандартизированные.
  • Флаг признака. Выбрать столбцы для преобразования – все, кроме столбцов с датой и целевым признаком.
Дифференцирование временного ряда

Выполняется дифференцирование целевых признаков (таргетов) временного ряда. При этом временной ряд сдвигается на указанное число шагов в разрезе каждого целевого признака. Если есть сезонность, сначала проводится сезонное дифференцирование. Желательно дифференцировать ряд как можно меньше раз, потому что с увеличением количества дифференцирований растет дисперсия ошибки прогноза.

Параметры блока

  • Шаг дифференцирования для каждого целевого признака. Есть возможность задать шаг дифференцирования для каждого целевого признака, в формате [сдвиг для признака 1, свиг для признака 2, …], где сдвиг на один шаг применяется для обычного (для избавления от тренда) дифференцирования, сдвиг на несколько шагов – для сезонного, а сдвиг, равный нулю означает, что дифференцирование для данного таргета не проводится. Например, [1, 0, 3].

Выходная информация

К датасету временного ряда добавляются новые столбцы с окончанием ‘_diff’ для каждого указанного таргета. При этом замена колонок не предусмотрена – оригинальные колонки сохраняются для задачи обратного дифференцирования. Также отображаются графики:

  • Временной ряд после дифференцирования;
  • ACF/PACF временного ряда после дифференцирования.
One-Hot Encoding

Метод One Hot Encoding (OHE) применяется, когда в датасете необходимо закодировать категориальные признаки (текстовые), перед подачей в модель. Для кодируемого категориального признака создаются N новых столбцов в датасете, где N – количество уникальных категорий. Значения в новых столбцах – 0 или 1, в зависимости от принадлежности к категории. Так каждый новый признак – бинарный характеристический признак категории.

Параметры блока

  • Флаг удаления первого признака. Устанавливается, чтобы удалить из итоговой таблицы столбец с признаком, над которым были выполнены преобразования. Так как новые столбцы отражают принадлежность наблюдения к той или иной категории признака, удаление первого признака не повлияет на результат.
  • Флаг признака. Выбираются столбцы, над которыми будут осуществляться преобразования. Значения на выбор – признаки или таргеты.
Создание признаков для временного ряда

Для временного ряда создаются новые признаки, в которых значения целевых признаков сдвигаются на указанное число шагов. Например, если для одномерного (с одним целевым признаком) временного ряда задать сдвиг в один шаг, создается новая колонка y, в которой значение первой строки равно значению второй строки в колонке с признаком x (категориальный признак), т.е. значения сдвигаются на один шаг вперед. Если ряд многомерный – состоящий из нескольких целевых признаков, то для каждого из них передается общий массив признаков, с учетом лагов всех таргет-рядов.

Такое действие является предварительным перед тем, как подавать данные в модель ИИ, чтобы у модели были не только фактические значения таргета, но и прогнозные.

Параметры блока

  • Максимальное количество лагов.  Указывается, на какое количество шагов может быть сдвинут временной ряд.

Выходная информация

Процесс создания признаков-лагов сохраняется в журнале преобразований, и далее отрабатывается при препроцессинге.

Кодирование целевого признака

Данная функция применяется, когда необходимо преобразовать категориальный целевой признак в датасете в числовое значение. Такое преобразование выполняется перед подачей входных данных в алгоритм.

Правила перевода категориальный признаков в числовые прописываются в кодировщике. Данная функция представляет собой первый тип кодирования – Label Encoder. Выполняется порядковое кодирование всех уникальных значений категориального признака: первое (выбранное каким-то образом) уникальное значение кодируется нулем, второе единицей, и так далее, последнее кодируется числом, равным количеству уникальных значений минус единица.

На вход функции подается датасет с входными данными, над которыми уже выявлены некоторые преобразования (очистка, выделение целевого признака, и т.д.), и файл vars_dict, в котором содержится информация о выполненных преобразованиях над данными.

Порядковое кодирование категориальных признаков

Отличие данной функции в том, что она выполняет преобразование всех категориальных признаков датасета в числовые значения. При этом кодировщик используется тот же, что и в предыдущей функции – Label Encoder, но кодируются признаки. Выполняется порядковое кодирование каждой категориальной переменной (кроме целевой).

Тесты на нормальность распределения

Коэффициент асимметрии Skewness

Данный метод проверяет выборку на нормальность распределения путем расчета асимметрии данных. Если правый хвост асимметрии длиннее левого, то коэффициент положителен, иначе – отрицателен. Если распределение симметрично (в форме ‘колокола’), коэффициент равен нулю.

Параметры блока

  • Признаки. Выбираются все признаки в датасете для расчета коэффициента асимметрии.

Выходная информация

  • Таблица Коэффициент асимметрии Skewness (подобнее см. в этом разделе).

Тесты на стационарность временного ряда

Тест Дики-Фуллера

С помощью данного теста проверяется, является ли временной ряд стационарным – не влияют ли на него тренды и сезонность. Для такого ряда суммарные статистические данные согласованы по времени, например, среднее значение и дисперсия наблюдений. Стационарность влияет на легкость моделирования – часто требуется, чтобы временной ряд был стационарным, чтобы быть эффективным.

Параметры блока

  • Пороговое значение alpha. Задается пороговое значение p из теста Дики-Фуллера, с использованием которого интерпретируются результаты гипотез:
  • Нулевая гипотеза – временной ряд имеет единичный корень, то есть он нестационарный;
  • Альтернативная гипотеза – нулевая гипотеза отвергается, и предполагается, что временной ряд не имеет единичного корня, то есть он является стационарным.

Значение p ниже порогового значения означает, что отвергается нулевая гипотеза и временной ряд стационарный. Значение p выше порогового значения означает, что подтверждается нулевая гипотеза и временной ряд нестационарный.

Значение p задается в формате числа с плавающей точкой (float).

Выходная информация

  • Результаты теста Дики Фуллера в виде таблицы Тест Дики Фуллера на стационарность (подобнее см. в этом разделе).