knowledge base

Машинное обучение

Валидация модели

На тестовой выборке данных (обычно это 20% датасета) проверяется правильность работы (предсказательная способность) модели ИИ, построенной на основе машинного обучения.

Параметры блока: Метрики на выбор:

  • Для задач регрессии: RMSE, R2, MAE, WMAPE
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
    • R2 (коэффициент детерминации) – это измерение количества отклонений в прогнозах, объясненных набором данных. Проще говоря, это разница между выборками в наборе данных и прогнозами, сделанными моделью.
  • Для задач классификации: Accuracy, F1, Precision, Recall, AUC_ROC
    • Accuracy – Она измеряет количество верно классифицированных объектов относительно общего количества всех объектов.
    • Precision – определяет, сколько из всех объектов, которые классифицируются как положительные, действительно являются положительными, относительно общего количества полученных от модели позитивных меток.
    • Recall – определяет, Сколько объектов наша модель смогла правильно классифицировать с позитивной меткой из всего множества позитивных.
    • F1 – сочетание precision и recall, дает некоторый компромисс между ними двумя. Если показатель близок к нулю – классификация прошла неуспешно, если ближе к 1 – результат хороший.
    • AUC_ROC – равен доле пар объектов вида (объект класса 1, объект класса 0), которые алгоритм верно упорядочил.

Выходная информация: Таблица Валидация на тестовой выборке (подробнее см. в этом разделе).

Прогноз модели

Выполняется последовательность действий по прогнозированию будущих значений целевых признаков.

Разделение датасета на обучающую и тестовую выборки 

Разделение выборки данных на две категории: для обучения модели ИИ, и для проверки результатов обучения.

Параметры блока:

  • Доля тестовой выборки в датасете. Обычно на 80% датасета выполняется обучение модели, а на оставшихся 20% – ее валидация. В таком случает значение указывается в формате 0.2.
  • Перемешивать наблюдения перед разделением. Необходимо установить галочку в поле, чтобы случайным образом поменять местами наблюдения в датасете. Не рекомендуется перемешивать временные ряды, т.к. наблюдения в них упорядочены и зафиксированы последовательно по времени.
  • Разделять с учетом меток классов. Выбирается, учитывать ли долю таргетов при разделении датасета. Используется только для задач классификации, когда объекты распределяются по категориям согласно определенным и заданным заранее признакам.

Выходная информация

  • Отдельно обучающая и тестовая выборки;
  • Журнал преобразований.

Классификация

Классификация решает задачу разделения множества наблюдений (объектов) на группы, называемые классами, на основе анализа их формального описания. При классификации каждое наблюдение относится к определенной группе на основе некоторого качественного свойства. Пусть X – множество описаний объектов, Y – конечное множество номеров/имен/меток классов. Существует неизвестная целевая зависимость отображения , значения которой известны только на объектах обучающей выборки . Строится алгоритм, способный классифицировать произвольный объект .

Логистическая регрессия

Используется логистическая функция для моделирования зависимости выходной переменной y от набора входных переменных x, в случае когда первая является бинарной. Например, с помощью логистической регрессии можно оценивать вероятность наступления/или не наступления некоторого события.

Предсказывается непрерывная переменная – коэффициент логистической регрессии, принимающий значение от 0 до 1: если значение коэффициента больше порогового значения, то вероятность наступления события равна 1; иначе вероятность наступления события равна 0.

Параметры блока:

  • Коэффициент регуляризации. Указывается значение строго больше нуля – положительное вещественное число, с помощью которого добавляется дополнительное ограничение к условию с целью предотвратить переобучение модели.
  • Порог классификации. Значение вещественного типа от 0 до 1, определяющее принадлежность объекта к тому или иному классу.
  • Флаг возврата вероятности при прогнозе. Возвращает вероятность или метки классов для дальнейшего прогноза после обучения модели. Используется для решения задач бинарной классификации, когда выходная переменная может принимать только два значения – решается вопрос о принадлежности объекта к одному из двух классов.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
  • Метрика для оптимизации. Критерий остановки итераций. Настройка, позволяющая определить точность нахождения минимума функции ошибки.
  • Количество фолдов для оптимизации. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Выходная информация:

  • Модель бинарной классификации.
  • Словарь с данными.
  • Точность модели.
  • Журнал преобразований.
Модель XGBClassifier

Алгоритм XGBClassifier анализирует связь между признаками и целевым признаком. На обучающей выборке модель обучается соотносить наблюдение к аномалиям, а на тестовой выборке выполняется валидация ответов обученной модели.

Параметры блока:

  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение модели ИИ останавливается.
  • Количество базовых моделей. Определяет сколько независимых моделей будет работать над обучением.
  • Порог классификации. Значение от 0 до 1, указывающее на верхнюю границу вероятности причисления объекта к классу.
  • Флаг возврата вероятности при прогнозе. Возвращает вероятность или метки классов для дальнейшего прогноза после обучения модели. Используется для решения задач бинарной классификации, когда выходная переменная может принимать только два значения – решается вопрос о принадлежности объекта к одному из двух классов.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
  • Метрика для оптимизации. Критерий остановки итераций. Настройка, позволяющая определить точность нахождения минимума функции ошибки.
  • Количество фолдов для оптимизации. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Выходная информация:

  • Таблица Ошибки модели при прогнозировании классов
  • Модель бинарной классификации.
Дерево решений для классификации

Предсказывает, к какому классу принадлежит объект из обучающего массива данных. Для этого строится дерево решений: древовидная структура, где моменты принятий решений соответствуют узлам, в узлах происходит ветвление процесса на ветки в зависимости от сделанного выбора, и конечные узлы (листья) – конечные результаты последовательного принятия решений. В узлах, начиная с корневого, выбирается признак, значение которого используется для разбиения всех данных на два класса. Процесс продолжается до тех пор, пока не выполнится критерий остановки – дерево превысило заранее заданный «лимит роста» (достигнута глубина дерева). При этом разбиения выполняются таким образом, чтобы уменьшить выбранный критерий, например энтропию – степень неопределенности в разбиении на классы.

Параметры блока:

  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение модели ИИ останавливается.
  • Порог классификации. Значение порога определяет принадлежность объекта к одному из классов: к положительному – если порог выше указанного значения, к отрицательному – если порог ниже.
  • Флаг вероятность при прогнозе. Возвращает вероятность или метки классов для дальнейшего прогноза после обучения модели.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
  • Метрика для оптимизации. Критерий остановки итераций. Настройка, позволяющая определить точность нахождения минимума функции ошибки.
  • Количество фолдов для оптимизации. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Выходная информация:

  • Датасет с меткой класса, определяющей принадлежность объекта к одному из классов.
  • Модель ИИ, обученная классифицировать данные по заданным критериям.
  • Журнал преобразований над данными.
  • Словарь с переменными (описание модели, таблицы, графики) для отображения в интерфейсе Программы.
Случайный лес для классификации

Строится множество решающих деревьев, и  в задаче классификации принимается решение голосованием по большинству. Все деревья строятся независимо по схеме:

  1. Выбирается подвыборка обучающей выборки и по ней строится дерево.
  2. Для построения каждого расщепления в дереве просматривается максимальное количество случайных признаков.
  3. Выбирается наилучший признак и расщепление по нему (по заранее заданному критерию). Дерево строится, до достижения параметра, ограничивающего его высоту.

Таким образом деревья обучаются не только на разных наборах данных, но и используют разные признаки для принятия решений – это создает некоррелированные деревья, которые и защищают друг друга от своих ошибок. Прогноз получается точнее, чем у любого отдельного дерева.

Параметры блока:

  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение модели ИИ останавливается.
  • Количество деревьев. Число деревьев “в лесу”
  • Порог классификации. 
  • Флаг вероятность при прогнозе. Возвращает вероятность или метки классов для дальнейшего прогноза после обучения модели.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
  • Метрика для оптимизации. Критерий остановки итераций. Настройка, позволяющая определить точность нахождения минимума функции ошибки.
  • Количество фолдов для оптимизации. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.
Categorial Naive Bayes

Группа байесовских классификаторов позволяет определить к какому классу принадлежит объект на основе теоремы Байеса с допущением о независимости признаков. Категориальный наивный байесовский классификатор применяется для признаков с категориальным распределением.

Параметры блока:

  • Параметр сглаживания Лапласа. Значение для аддитивного сглаживания Лапласа во избежание проблемы нулевой вероятности. Если равен нулю, то сглаживания нет.
  • Априорные вероятности классов. Определяет, будут ли взяты в расчет априорные вероятности классов. Если не активирован, то применяются значения вероятностей для равномерного распределения.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
  • Метрика для оптимизации. Критерий остановки итераций. Настройка, позволяющая определить точность нахождения минимума функции ошибки.
  • Количество фолдов для оптимизации. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Выходная информация:

  • Датасет с меткой класса, определяющей принадлежность объекта к одному из классов.
  • Модель ИИ, обученная классифицировать данные по заданным критериям.
  • Журнал преобразований над данными.
  • Словарь с переменными (описание модели, таблицы, графики) для отображения в интерфейсе Программы.
Multinomiтal Naive Bayes

Мультиномиальный классификатор применяется для признаков с полиномиальным распределением. Пример: классификация текстов, где каждый текст представлен вектором слов (например, мешок слов или tf-idf).

Параметры блока:

  • Параметр сглаживания Лапласа. Значение для аддитивного сглаживания Лапласа во избежание проблемы нулевой вероятности. Если равен нулю, то сглаживания нет.
  • Априорные вероятности классов. Определяет, будут ли взяты в расчет априорные вероятности классов. Если не активирован, то применяются значения вероятностей для равномерного распределения.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
  • Метрика для оптимизации. Критерий остановки итераций. Настройка, позволяющая определить точность нахождения минимума функции ошибки.
  • Количество фолдов для оптимизации. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Выходная информация:

  • Датасет с меткой класса, определяющей принадлежность объекта к одному из классов.
  • Модель ИИ, обученная классифицировать данные по заданным критериям.
  • Журнал преобразований над данными.
  • Словарь с переменными (описание модели, таблицы, графики) для отображения в интерфейсе Программы.
Complement Naive Bayes

Представляет собой вариант адаптации Multinomial Naive Bayes для датасетов с несбалансированными классами.

Вместо вычисления вероятностей принадлежности объекта к конкретному классу для каждого класса вычисляются вероятности того, что объект им не принадлежит.

Параметры блока:

  • Параметр сглаживания Лапласа. Значение для аддитивного сглаживания Лапласа во избежание проблемы нулевой вероятности. Если равен нулю, то сглаживания нет.
  • Априорные вероятности классов. Определяет, будут ли взяты в расчет априорные вероятности классов. Если не активирован, то применяются значения вероятностей для равномерного распределения.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
  • Метрика для оптимизации. Критерий остановки итераций. Настройка, позволяющая определить точность нахождения минимума функции ошибки.
  • Количество фолдов для оптимизации. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Выходная информация:

  • Датасет с меткой класса, определяющей принадлежность объекта к одному из классов.
  • Модель ИИ, обученная классифицировать данные по заданным критериям.
  • Журнал преобразований над данными.
  • Словарь с переменными (описание модели, таблицы, графики) для отображения в интерфейсе Программы.
Gaussian Naive Bayes

Для значений признаков для каждого класса строится распределение Гаусса (этот алгоритм работает с непрерывными признаками). В качестве значений правдоподобия для признаков берутся значения функции Гаусса из конкретного распределения (соответствующее признаку и классу), В ней участвуют среднее и дисперсия распределения, а также X, по значению которого мы и оцениваем значение Y (то есть значение функции максимального правдоподобия).

Параметры блока:

  • Параметр сглаживания дисперсии. Доля наибольшей дисперсии из всех распределений (в соответствии с признаком и классом), которая добавляется ко всем дисперсиям (по каждому распределению).
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
  • Метрика для оптимизации. Критерий остановки итераций. Настройка, позволяющая определить точность нахождения минимума функции ошибки.
  • Количество фолдов для оптимизации. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Выходная информация:

  • Датасет с меткой класса, определяющей принадлежность объекта к одному из классов.
  • Модель ИИ, обученная классифицировать данные по заданным критериям.
  • Журнал преобразований над данными.
  • Словарь с переменными (описание модели, таблицы, графики) для отображения в интерфейсе Программы.
Bernoulli Naive Bayes

Применяется для признаков с биномиальным распределением. Пример: классификация текстов, где каждый текст представлен вектором наличия слов из словаря (1 – есть слово, 0 – нет).

Параметры блока:

  • Параметр сглаживания Лапласа. Значение для аддитивного сглаживания Лапласа во избежание проблемы нулевой вероятности. Если равен нулю, то сглаживания нет.
  • Априорные вероятности классов. Определяет, будут ли взяты в расчет априорные вероятности классов. Если не активирован, то применяются значения вероятностей для равномерного распределения.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
  • Метрика для оптимизации. Критерий остановки итераций. Настройка, позволяющая определить точность нахождения минимума функции ошибки.
  • Количество фолдов для оптимизации. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Выходная информация:

  • Датасет с меткой класса, определяющей принадлежность объекта к одному из классов;
  • Модель ИИ, обученная классифицировать данные по заданным критериям;
  • Журнал преобразований над данными;
  • Словарь с переменными (описание модели, таблицы, графики) для отображения в интерфейсе Программы.
Логический анализ

Алгоритм применяется для поддержки принятия решений при классификации и распознавании, особенно для решения задач, в которых велики негативные последствия принятия неверных решений. Алгоритм принимает на входе датасет с наблюдениями (и их признаками), которые разделены на ‘положительные’ и ‘отрицательные’ и возвращает классификацию датасета.

В результате работы алгоритма: 

  • Выполняется бинаризация датасета;
  • Находится опорное множество;
  • Для каждого уникального наблюдения обучающей выборки формируется правило;
  • Производится оптимизация паттернов;
  • Выполняется классификация. Происходит определение весов отобранных правил для строк тестовой выборки, и выполняется предсказание.
Стекинг классификация

использует ансамбль разнородных моделей для последующей обработки. Результатом работы алгоритма является метка объекта (в случае решения задач классификации) или число (в случае решения задач регрессии).

Параметры блока:

  • Случайный лес. Строится ансамбль решающих деревьев. При этом большое количество некоррелированных моделей (деревьев) превосходит любую из отдельных моделей.
  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение останавливается.
  • Градиентный бустинг представляет собой ансамбль деревьев решений. В основе данного алгоритма лежит итеративное обучение деревьев решений с целью минимизировать функцию потерь. Благодаря особенностям деревьев решений градиентный бустинг способен работать с категориальными признаками , справляться с нелинейностями. Бустинг – это метод преобразования слабообученных моделей в хорошообученные. В бустинге каждое новое дерево обучается на модифицированной версии исходного датасета.
  • Количество базовых моделей. Определяет сколько независимых моделей будет работать над обучением.
  • Коэффициент регуляризации. Указывается значение строго больше нуля – положительное вещественное число, с помощью которого добавляется дополнительное ограничение к условию с целью предотвратить переобучение модели.
  • Количество фолдов. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Обучение без учителя

Кластеризация – это задача группировки множества объектов на подмножества (кластеры) так, чтобы объекты одного кластера были более похожи друг на друга, чем на объекты других кластеров по какому-либо критерию. Относится к классу задач обучения без учителя.

Кластеризация DBSCAN

Алгоритм DBScan формирует группы коренных соседей/кластеры, объединяя точки, расположенные рядом. А точки, которые не попадают ни в одну из групп, отмечаются меткой -1 и приравниваются к аномалиям.

Параметры блока:

  • Радиус. Радиус в единицах расстояния, в рамках которого выполняется поиск потенциальных соседей (float/list/tuple).
  • Число соседей. Минимальное число ближайших соседей в указанном радиусе для формирования группы коренных соседей (int/list/tuple).
  • Метрика расстояния. Метрика расстояния (str/list): расстояние Евклида, косинусное расстояние. По умолчанию «Евклидово расстояние» – используется при кластеризации данных в текущем датасете, а также при отнесении нового объекта к кластеру.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. При значении «true» выполняется ручной ввод следующих гиперпараметров: радиус, число соседей, метрика расстояния. При значении «false» эти гиперпараметры подбираются автоматически

Выходная информация:

  • Модель кластеризации.
  • Выходной датасет, дополненный меткой кластера и/или флагом аномалии.
  • Словарь, содержащий информацию (графики, таблицы, текст) для отображения в пользовательском интерфейсе.
  • Журнал преобразований.
  • График: Круговая диаграмма (подробнее см. в этом разделе).
  • График: Точечная / Пузырьковая диаграмма (подробнее см. в этом разделе).
  • Таблица: Количество объектов в каждом кластере (подробнее см. в этом разделе).
Метод локтя K-Means

Метод локтя позволяет вычислить правильное значение k (количество кластеров) и повысить производительность модели. Вычисляется сумма квадратов расстояний между точками, и среднее арифметическое значение (Mean) – сумма элементов датасета, разделенная на их количество. Когда значение k равно 1, сумма квадрата внутри кластера будет большой. По мере увеличения значения k сумма квадратов внутри кластера будет уменьшаться. Наконец будет построен график между значениями k и суммой квадрата внутри кластера. В момент, когда значение k резко уменьшится будет считаться оптимальным числом кластеров.

Параметры блока:

  • Число кластеров. Задается оптимальное количество кластеров.

Выходная информация:

  • Таблица: Количество объектов в каждом кластере (подробнее см. в этом разделе.
Кластеризация K-Means

Алгоритм кластеризации K-средних:

  1. Из исходного множества случайным образом выбирается K наблюдений, равное заданному количеству кластеров.
  2. Для каждого наблюдения определяется ближайший к нему центр кластера (измеряется Евклидового расстояние до центра). Образуются начальные кластеры.
  3. Вычисляются центры тяжести кластеров – вектора, элементы которых представляют собой среднее арифметическое значение признаков кластера. 
  4. Центры кластеров смещаются и объединяют вокруг себя наблюдения, пока центры и границы кластеров не перестанут изменяться.

Параметры блока:

  • Число кластеров. Задается оптимальное количество кластеров.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров.

Выходная информация:

  • График: Круговая диаграмма (подробнее см. в этом разделе).
  • График: Точечная / Пузырьковая диаграмма (подробнее см. в этом разделе).
  • Таблица: Количество объектов в каждом кластере (подробнее см. в этом разделе).
  • Таблица Центроиды (подробнее см. в этом разделе).
Агломеративная иерархическая кластеризация

Последовательно объединяет объекты во все более крупные подмножества, в результате образуется древовидная структура. Отдельные версии иерархии отличаются правилами вычисления расстояния между кластерами. Например, алгоритм средней связи на каждом шаге объединяет два ближайших кластера, рассчитывая среднюю арифметическую дистанцию между всеми парами объектов.

*`Данный блок временно недоступен

Изоляционный лес

Алгоритм поиска аномалий (выбросов) методом «Изоляционный лес»:

Изолирует наблюдения, случайным образом выбирая объект, а затем случайным образом выбирая разделения между максимальным и минимальным значениями объекта. Разбиение представлено древовидной структурой, количество разбиений, необходимое для изоляции выборки, равно длине пути от корневого до конечного узла. Эта длина пути является мерой нормальности и функции принятия решений. Когда лес случайных деревьев создает более короткие пути для отдельных объектов, они, скорее всего, являются аномалиями.

Параметры блока:

  • Число деревьев. Задается оптимальное количество деревьев.

Выходная информация:

  • График: Круговая диаграмма (подробнее см. в этом разделе).
  • График: Точечная / Пузырьковая диаграмма (подробнее см. в этом разделе).
  • Таблица: Количество объектов в каждом кластере (подробнее см. в этом разделе).

Регрессия

Регрессия – математическое выражение, отражающее связь между зависимой переменной y и независимыми переменными x. Алгоритмы регрессии используются для контролируемого обучения моделей ИИ – так называемого обучения «с учителем», когда данные размечаются для помощи в прогнозировании. Сопоставляя входные данные и полученные результаты на точность, модель постепенно обучается прогнозировать числовые значения целевых переменных.

Линейная регрессия

Прогнозирует целевую переменную Y на основе одной или нескольких независимых переменных X. Для этого между X и Y строится линейная связь.

Полиномиальная регрессия

Метод регрессионного анализа, в которой взаимосвязь между независимыми переменными x и зависимой переменной y моделируется как полином n-ой степени от x. Полиномиальная регрессия соответствует нелинейной зависимости между значением x и соответствующим условным средним y, обозначающим E(y|x).

В отличие от линейной регрессии моделирует нелинейно разделенные данные – более гибкая и может моделировать сложные взаимосвязи.

Параметры блока:

  • Степень полинома. Степень уравнения полиномиальной регрессии, которая определяет линию наилучшего соответствия. При неправильном выборе степени, модель может быть перенасыщена. Значение по умолчанию – 2.
  • Только произведение. Если установить галочку в поле, то не выполняется возведение в степень, а только перемножение.
  • Оптимизация гиперпараметров. Нужно активировать галочку в поле, когда выбирается наиболее подходящая степень полинома из нескольких предложенных. А подбирается гиперпараметр так, чтобы получить наилучшее значение метрики.
  • Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.

Выходная информация:

  • Модель полиномиальной регрессии.
  • Словарь с переменными для отображения в интерфейсе.
  • Словарь с преобразованиями данных.
  • Выходной датасет.
Дерево решений для регрессии

Предсказывает значение целевой переменной, изучая простые правила принятия решений, выведенные из характеристик данных.  Представляет собой древовидный граф с узлами, где атрибут  – вопрос, ребро – ответ на вопрос, а листья – фактический результат. Наблюдения классифицируются сверху вниз от корня до листьев.

Параметры блока:

  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение останавливается.
  • Оптимизация гиперпараметров. Нужно активировать галочку в поле, когда выбирается наиболее подходящая степень полинома из нескольких предложенных. А подбирается гиперпараметр так, чтобы получить наилучшее значение метрики.
  • Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.
Случайный лес для регрессии

В отличие от предыдущего алгоритма здесь строится ансамбль решающих деревьев. При этом большое количество некоррелированных моделей (деревьев) превосходит любую из отдельных моделей.

Параметры блока:

  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение останавливается.
  • Количество деревьев. 
  • Оптимизация гиперпараметров. Нужно активировать галочку в поле, когда выбирается наиболее подходящая степень полинома из нескольких предложенных. А подбирается гиперпараметр так, чтобы получить наилучшее значение метрики.
  • Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.
Метод опорных векторов для регрессии

В основе регрессии опорных векторов (с англ. SVR – Support Vector Regression) лежит поиск гиперплоскости, при которой риск в многомерном пространстве будет минимальным. SVR оценивает коэффициенты путем минимизации квадратичных потерь: считается сумма квадратов ошибок (между прогнозом и фактом), и к ней прибавляется штраф в виде произведения коэффициента регуляризации и суммы квадратов весов.

*Вместо квадратичной функции используется кусочно-линейная, и задается отступ eps (по умолчанию, равная 0.1): если разница между прогнозируемым и истинным значением меньше eps (прогнозное значение попадает в пространство гиперплоскости), модель не считает это за ошибку, иначе – берется модуль разницы.

Параметры блока:

  • Тип ядра. Функция ядра (kernel) может принимать значения: {‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’}.
  • Степень для ядра полинома. Если в качестве функции ядра используется полиномиальная функция (‘poly’), которая является методом нелинейной регрессии, то зависимая переменная связана с независимыми переменными n-ой степени. В поле указывается степень этого ядра.
  • Коэффициент регуляризации. Мера степени наказания модели за каждую неверно спрогнозированную точку.
  •  Оптимизация гиперпараметров. Нужно активировать галочку в поле, когда выбирается наиболее подходящая степень полинома из нескольких предложенных. А подбирается гиперпараметр так, чтобы получить наилучшее значение метрики.
  • Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.
Байесовская гребневая регрессия

В основе метода лежит формула Байеса, которая дает возможность оценить вероятность событий эмпирическим путем.

Гребневая регрессия – один из методов снижения размерности. Для гребневой регрессии к функции потерь прибавляется параметр lambda, обозначающий размер штрафа. Чем меньше lambda, тем выше дисперсия и ниже смещение.

Смещение – это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения. В результате большого смещения алгоритм может пропустить связь между признаками и выводом (недообучение).

Дисперсия – это ошибка чувствительности к малым отклонениям в тренировочном наборе. При высокой дисперсии алгоритм может трактовать случайный шум в тренировочном наборе, а не желаемый результат (переобучение).

Параметры блока:

  • alpha_1. Допустимые максимальные расстояния графика регрессии до верхнего доверительного интервала.
  • alpha_2. Допустимые максимальные расстояния графика регрессии до нижнего доверительного интервала.
  • lambda_1. Размеры штрафов при выходе прогнозируемых значений за пределы верхнего доверительного интервала.
  • lambda_2. Размеры штрафов при выходе прогнозируемых значений за пределы нижнего доверительного интервала.
  • Оптимизация гиперпараметров. Нужно активировать галочку в поле, когда выбирается наиболее подходящая степень полинома из нескольких предложенных. А подбирается гиперпараметр так, чтобы получить наилучшее значение метрики.
  • Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.
Метод k-ближайших соседей для регрессии

Для регрессии объекту присваивается среднее значение по k ближайшим к нему объектам, значения которых уже известны.

Алгоритм применяется к выборке с большим количеством атрибутов (многомерной). Для этого перед применением определяется функция расстояния, классический вариант такой функции – евклидова метрика.

Разные признаки могут иметь разный диапазон представленных значений в выборке, поэтому выполняется нормализация данных.

Некоторые значимые признаки могут быть важнее остальных, поэтому для каждого признака задается определенный вес.

Алгоритм предполагает, что похожие наблюдения существуют в непосредственной близости: улавливается идея сходства (иногда называемого расстоянием или близостью) благодаря вычислению Евклидова расстояния между точками. 

Параметры блока:

  • Количество ближайших соседей. Число k, характеризующее количество соседей в кластере.
  • Тип веса для соседей. Задается одно из значений: ‘uniform’ (единый – всем признакам присваивается единый вес), или ‘distance’ (по расстоянию). Значение по умолчанию – единый.
  • Метрика расстояния. Задается одно из значений: ‘chebyshev’ (Чебышева), ‘euclidean’ (Евклидова), ‘cosine’ (Косинусное), ‘cityblock’ (Манхэттенское). Значение по умолчанию – евклидово расстояние, когда вычисляется расстояние между всеми точками попарно.
    • Евклидово расстояние — это прямая линия между двумя точками с координатами X и Y. Для расчёта Евклидового расстояния нужны лишь координаты этих двух точек. Дистанцию между ними рассчитывается по формуле Пифагора.
    • Манхэттенское расстояние (так же известно как L1) – измеряет дистанцию не по кратчайшей прямой, а по блокам. Например, расстояние измеряет дистанцию между городскими блоками: это расстояние всех прямых линий пути. Т.о. данная метрика – это минимальная длина пути из x в y при условии, что можно двигаться только параллельно осям координат.
    • Расстояние Чебышева (метрика шахматной доски) – определяется как самая большая дистанция на одной оси. Т.е. оно схоже с манхэттенским расстоянием, но если в первом учитывается два шага при перемещении между блоками (например, вверх и вниз), то расстояние Чебышева считается по диагонали, соответственно, это один шаг. Т.о. данная метрика – выбирающая наибольшее из расстояний между векторами по каждой координате.
    • Косинусное расстояние часто используется для измерения схожести между текстами. Каждый документ описывается вектором, каждая компонента которого соответствует слову из словаря. Компонента равна единице, если соответствующее слово встречается в тексте, и нулю в противном случае. Тогда косинус между двумя векторами будет тем больше, чем больше слов встречаются в этих двух документах одновременно.
  • Оптимизация гиперпараметров. Если поставить галочку в данном поле, появится возможность выбрать несколько метрик и по система автоматически выберет наилучшее и оптимальное значение. Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.
Стекинг регрессия

Использует ансамбль разнородных моделей для последующей обработки. Результатом работы алгоритма является метка объекта (в случае решения задач классификации) или число (в случае решения задач регрессии).

Параметры блока:

  • Тип ядра. Функция ядра (kernel) может принимать значения: {‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’}.
  • Степень для ядра полинома. Если в качестве функции ядра используется полиномиальная функция (‘poly’), которая является методом нелинейной регрессии, то зависимая переменная связана с независимыми переменными n-ой степени. В поле указывается степень этого ядра.
  • Коэффициент регуляризации. Указывается значение строго больше нуля – положительное вещественное число, с помощью которого добавляется дополнительное ограничение к условию с целью предотвратить переобучение модели.
  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение останавливается.
  • Количество фолдов. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Авторегрессия

Авторегрессия – модель временного ряда, в которой ее текущее значение линейно зависит от предыдущих (ретроспективных) значений этого же ряда. Линейная зависимость означает, что текущее значение равно взвешенной сумме нескольких предыдущих значений ряда.

Зная параметры модели и соответствующие ретроспективные значения временного ряда, можно предсказать его будущие значения. Основное назначение авторегрессионной модели – прогнозирование. Также с ее помощью можно производить анализ временных рядов – выявлять тенденции, сезонность, и другие особенности.

ARIMA/SARIMAX

Авторегрессионное интегрированное скользящее среднее (с англ. ARIMA – autoregressive integrated moving average) используется при работе с временными рядами для более глубокого понимания данных, или предсказания будущих точек ряда. Упоминается как ARIMA (p, d, q), где p, d и q – целые неотрицательные числа, характеризующие порядок для частей модели (соответственно – авторегрессионной, интегрированной и скользящего среднего).

Авторегрессия. Модель, использующая зависимую связь между наблюдением и некоторым количеством запаздывающих наблюдений.

Интегрированный. Использование разности необработанных наблюдений (например, вычитание наблюдения из наблюдения на предыдущем временном шаге), чтобы сделать временной ряд стационарным.

Скользящая средняя. Модель, в которой используется зависимость между наблюдением и остаточной ошибкой из модели скользящего среднего, применяемая к запаздывающим наблюдениям.

Модель SARIMAX используется для временных рядов с учетом сезонности.

Параметры блока:

  • Число шагов для прогноза. Количество шагов, на которые модель будет предсказывать.

Параметры модели ARIMA

  • Порядок авторегрессии (p). Количество запаздывающих наблюдений, включенных в модель, также называется лаговый порядок. P помогает настроить линию для прогнозирования серии. Чисто авторегрессионные модели напоминают линейную регрессию, где прогностическими переменными являются p числа предыдущих периодов.
  • Порядок интегрирования (d). Число обычных дифференцирований – количество раз, когда необработанные наблюдения различаются, также называется степенью различия. В модели ARIMA временные ряды преобразуются в стационарные (серии без тренда и сезонности), используя дифференцирование. Стационарный ряд – это когда среднее значение и дисперсия постоянны во времени.
  • Порядок скользящего среднего. Размер окна скользящей средней.

Параметры модели SARIMAX

  • Порядок авторегрессии. см выше
  • Порядок интегрирования. см выше
  • Порядок скользящего среднего. см выше
  • Сезонный период. Число наблюдений за сезон.
  • Оптимизация гиперпараметров. Нужно активировать галочку в поле, когда выбирается наиболее подходящая степень полинома из нескольких предложенных. А подбирается гиперпараметр так, чтобы получить наилучшее значение метрики.

Сегментация 

Сегментация изображений

Применяется для анализа исходных изображений, выделения объектов и их границ и применения результатов обработки к целевым изображениям.

Параметры блока:

  • Размер изображения. Размер исходных обучающих изображений, которые загружаются в модель (224 – количество пикселей матрицы изображения)

Работа с текстами

Автореферирование текста

Данная функция представляет собой автоматический процесс выделения краткого содержания текста с помощью модели машинного обучения. На выходе получается датасет заданного объема, который можно представить в виде таблицы.

Параметры блока:

  • Объем автореферата. Максимальное количество символов в выходном результате

Выходная информация: