knowledge base

Предобработка данных

Заполнение пропусков

Позволяет заполнять пропущенные значения в датасете одним из следующих способов: среднее, мода, медиана, квантили 0.25, 0.5, 0.75 или по выбору, min, max. Функция применяется для датасетов, созданных из табличных данных. При этом при загрузке файла в систему можно посмотреть количество пропусков (пустых ячеек) в датасете, если для одного из признаков пропусков слишком много, предусмотрена возможность удаления его полностью.

Параметры блока

  • Индекс столбца. Номер столбца
  • Способ заполнения пропусков:
    • «Удалить столбец» – удаление столбца с пропусками;
    • «Удалить строки» – удаление всех строк с пропусками;
    • «Среднее» – заполнение пропусков средним значением столбца;
    • «Мода» – заполнение пропусков модой столбца;
    • «Медиана» – заполнение пропусков медианным значением столбца;
    • «Максимальное значение» – заполнение пропусков максимальным значением столбца;
    • «Минимальное значение»  – заполнение пропусков минимальным значением столбца;
    • «25-ый квантиль» – заполнение пропусков 25-ым квантилем;
    • «50-ый квантиль» – заполнение пропусков 50-ым квантилем;
    • «75-ый квантиль» – заполнение пропусков 75-ым квантилем.
Сглаживание временного ряда

Позволяет исключить влияние шума в данных и увидеть структуру временного ряда. Для сглаживания применяется метод центрированного скользящего среднего: по временному ряду «скользит окно» определенного размера, в рамках окна значения группируются и по ним рассчитываются средние значения.

Параметры блока

  • Список признаков. Выбираются признаки для расчета скользящего среднего. Признаки задаются либо вручную, либо нажатием на кнопку «Выбрать признаки» в строке с названием файла их содержащего.
  • Размер окна для сглаживания.  Временное окно анализа, определяется количеством входящих в него наблюдений. Например, размер окна три, тогда берутся первые три наблюдения и по ним считаются средние значения признаков.

Выходная информация

  • График Временной ряд после сглаживания.
Срез временного ряда по индексу

Позволяет создавать выборки данных за период времени, используя временные метки или временные диапазоны. Иными словами, данная функция дает возможность уменьшить размер временного ряда и использовать только определенный диапазон значений для анализа.

Параметры блока

  • Дата начала. Дата начала среза.
  • Дата окончания. Дата окончания среза.

Выходная информация

  • Таблица Временной ряд после среза.
Фильтрация текстового шума

Данная функция позволяет очистить текст от шумов: из текста убираются знаки препинания, заглавные буквы (они заменяются на строчные) и стоп-слова (различные служебные части речи – союзы, предлоги, частицы и т.д.).

Выходная информация

  • Таблица Отфильтрованные текстовые данные.
Лемматизация текста

Лемматизация – это процесс приведения всех встречающихся форм слова к одной, нормальной словарной форме. В процессе лемматизации платформа использует словарь и морфологический анализ, чтобы привести слово к его канонической форме – т.н. «лемме», в итоге получается текст, состоящий из слов приведенных к единственному числу, мужскому роду, именительному падежу и инфинитиву (в зависимости от части речи). Для разных частей речи определена своя лемма: для существительных это именительный падеж единственного числа, для прилагательных – именительный падеж единственного числа мужского рода, для глагола – инфинитив (неопределенная форма) несовершенного вида.

Выходная информация

  • Таблица Лемматизированные текстовые данные.
Векторизация текста

Векторизация текста – это процесс преобразования слов в векторы (числа), которые являются «читаемым» форматом для алгоритмов машинного обучения. 

Параметры блока

  • Метод векторизации. Выбираются все признаки в датасете для расчета коэффициента асимметрии:
    • TD IDF (от англ. TF — term frequency, IDF — inverse document frequency) – метод, используемый для оценки важности слова в контексте документа. Вес некоторого слова пропорционален частоте употребления этого слова в документе и обратно пропорционален частоте употребления слова во всех документах коллекции.
    • Word to Vec – данный метод использует контекст, чтобы сформировать численные представления слов, в результате слова, используемые в одном и том же контексте, имеют похожие векторы.
    • Bag of words (с англ. мешок слов) – представление текста в виде массива, состоящего из отдельных слов и количества их использования. Результатом представления является словарь в виде уникальных слов и их количества по предложениям и всему тексту в целом. Недостаток мешка слов заключается в том, что с увеличением объема анализируемого текста происходит рост размерности массива. Каждое уникальное слово добавляет новый столбец. Это создает дополнительную сложность при анализе.
    • Doc to Vec – Doc2vec использует ту же логику, что и word2vec, но применяет ее к уровню документа.
  • Максимальная размерность текста – указывается примерное количество уникальных слов в тексте.
  • Количество признаков – количество столбцов таблицы, которая получится в результате преобразования текста в числовой вид.
  • Сгенерировать тензор для GPU – выбирается в случае если предполагается что дальше будет использоваться графический процессор. Тензор – это просто таблица особого вида.