Spark – knowledge base

Группа функций для фреймворка Apache Spark. По своему виду они аналогичны стандартным функциям, но применяются только для Spark вычислений.

Выбор признаков и целевых признаков

Функция абсолютно аналогична стандартной Выбор признаков и целевых признаков (подробнее см. в этом разделе).

Параметры блока:

Признаки – параметры, которые исследуются и выявляется корреляция между ними и рассматриваемым целевым признаком
Целевые признаки – предсказываемые переменные.

Разделение датасета на обучающую и тестовую выборки

Функция аналогична стандартной Разделение датасета на обучающую и тестовую выборки (подробнее см. в этом разделе).

Параметры блока:

Доля тестовой выборки в датасете – процент данных датасета, на которых будет проводиться валидация модели. Обычно на 80% датасета выполняется обучение модели, а на оставшихся 20% – ее валидация. В таком случае, значение указывается в формате 0.2.

Валидация модели

Функция аналогична стандартной Валидация модели (подробнее см. в этом разделе).

Параметры блока:

Метрика – из списка выбирается название метрики для валидации. Для задачи классификации это: Accuracy, F1, Precision, Recall, AUC_ROC. Для задачи регрессии это: RMSE, MAE, WMAPE.
- MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
- RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
- WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
- R2 (коэффициент детерминации) – это измерение количества отклонений в прогнозах, объясненных набором данных. Проще говоря, это разница между выборками в наборе данных и прогнозами, сделанными моделью.
- Для задач классификации: Accuracy, F1, Precision, Recall, AUC_ROC
- Accuracy – Она измеряет количество верно классифицированных объектов относительно общего количества всех объектов.
- Precision – определяет, сколько из всех объектов, которые классифицируются как положительные, действительно являются положительными, относительно общего количества полученных от модели позитивных меток.
- Recall – определяет, Сколько объектов наша модель смогла правильно классифицировать с позитивной меткой из всего множества позитивных.
- F1 – сочетание precision и recall, дает некоторый компромисс между ними двумя. Если показатель близок к нулю – классификация прошла неуспешно, если ближе к 1 – результат хороший.
- AUC_ROC – равен доле пар объектов вида (объект класса 1, объект класса 0), которые алгоритм верно упорядочил.

Сохранение датасета Spark в CSV

Функция позволяет преобразовать данные, полученные в результате обработки Спарк, в привычный формат *.csv для дальнейшего использования. Новый датасет будет сохранен в раздел данные.

Параметры блока:

Путь до директории датасета – выбирается путь до папки, в которую будут сохраняться данные.
Название датасета – в этом поле задается название для датасета. По умолчанию датасеты создаются с названиями формата pySpark.csv.
Название датасета для валидации – указывается название, с которым будет сохранен датасет для валидации при активации параметра «Сохранить датасет для валидации»
Добавить данные к датасету – если преобразованные данные необходимо сохранять не в виде отдельного файла, а добавить к уже существующему и загруженному на платформе, необходимо установить галочку у данного признака. По умолчанию файл перезаписывается.
Сохранить датасет для валидации – в процессе работы пайплайна, исходный вид набора данных данных теряется, поэтому его нужно передать из блока “Загрузка данных” в конец пайплайна в блок сохранени. Датасет для валидации это и есть нетронутый набор данных в первоначальном виде, к нему только добавляется столбец с результатами.
Загрузка датасета для валидации в БД – позволяет загрузить датасет для валидации напрямую в базу данных ClickHouse

Выходная информация:

Таблица в формате csv с датасетом. Сохраняется в раздел данные.

Косинусное расстояние

На вход функция получает новые данные для анализа (датасет в формате csv), обученную модель, и числовой вектор. Выполняется поиск объектов, наиболее схожих с заданным вектором, и в качестве меры схожести используется косинусное расстояние – расстояние между значениями во входном векторе и значениями выбранных столбцов в наблюдениях.

Прогноз модели

Функция аналогична стандартной Прогноз модели (подробнее см. в этом разделе).

Препроцессинг

Порядковое кодирование признаков

Порядковое кодирование – это метод преобразования категориальных данных в цифровой вид. Применяются, когда в датасете существуют НЕ числовые признаки, которые заданы словами и для дальнейшего анализа их нужно преобразовать в числа. Порядковое кодирование позволяет пронумеровать признаки по порядку.

Параметры блока:

Выбранные признаки – указываются признаки, над которыми необходимо провести операцию порядкового кодирования.

Нормализация признаков

Нормализация – это приведение числовых признаков к единой шкале. Бывает что числовой признак имеет минимальное и максимального значение в очень широком диапазоне и это плохо для машинного обучения. Например, есть числовой признак, чье минимальное значение равно 0,001, а максимальное – 100000, нормализация преобразовывает их к диапазону от 0 до 1, то есть 0.001 становится 0, а 100000 становится 1, значения между ними также преобразуются, 50 000 станет примерно равным 0.5. Данная функция позволяет оптимизировать дальнейшие вычисления.

Классификация

Модель градиентного бустинга Spark для бинарной классификации

Градиентный бустинг представляет собой ансамбль деревьев решений. В основе данного алгоритма лежит итеративное обучение деревьев решений с целью минимизировать функцию потерь. Благодаря особенностям деревьев решений градиентный бустинг способен работать с категориальными признаками , справляться с нелинейностями. Бустинг – это метод преобразования слабообученных моделей в хорошообученные. В бустинге каждое новое дерево обучается на модифицированной версии исходного датасета.

Параметры блока:

Количество базовых моделей – указывается число последовательных итераций по оптимизации модели, то есть количество попыток уменьшить ошибку.

Кластеризация

Кластеризация Spark DBSCAN

Алгоритм DBScan формирует группы коренных соседей/кластеры, объединяя точки, расположенные рядом. А точки, которые не попадают ни в одну из групп, отмечаются меткой -1 и приравниваются к аномалиям.

Параметры блока:

Порог для отнесения кластера к аномалиям – указывается граница, которая определяет, когда нужно отнести кластер к аномалии.
Радиус – радиус в единицах расстояния, в рамках которого выполняется поиск потенциальных соседей (float/list/tuple).
Число соседей – минимальное число ближайших соседей в указанном радиусе для формирования группы коренных соседей (int/list/tuple).
Метрика расстояния – метрика расстояния (str/list): расстояние Евклида, косинусное расстояние. По умолчанию «Евклидово расстояние» – используется при кластеризации данных в текущем датасете, а также при отнесении нового объекта к кластеру.
Флаг векторизации признаков – параметр определяет будет ли проводиться векторизация или нет
Столбец для группировки перед векторизацией – указывается номер столбца

Выходная информация:

Таблица: Количество объектов в каждом кластере (подробнее см. в этом разделе);
График Объем кластеров (подробнее см. в этом разделе);
График Spark DBSCAN (подробнее см. в этом разделе).

Определение ключевых слов в кластерах

Данный алгоритм при кластеризации текста определяет ключевые слова и отображает их вместе с визуализацией кластеров. Ключевые слова выводятся на рабочей области и дашборде.