Группа «Spark» используется при загрузке big data файлов расширения *.csv. Spark (англ. – искра) позволяет мгновенно обрабатывать данные, благодаря т.н. «ленивым вычислениям». В Spark есть два вида действий: «трансформация» и «применение». Трансформации осуществляются в «ленивом» режиме — то есть, результат не вычисляется сразу после трансформации. Вместо этого Spark просто «запоминает» операцию, которую следует произвести, и набор данных (напр., файл), над которым нужно совершить операцию. Вычисление трансформаций происходит только тогда, когда вызывается действие, и его результат возвращается основной программе. Благодаря этому повышается эффективность Spark. Например, если большой файл был преобразован различными способами и передан первому действию, то Spark обработает и вернет результат лишь для первой строки, а не станет прорабатывать таким образом весь файл.
Для применения Spark вычислений необходимо преобразовать файлы типа csv в уникальный формат – parquet. Этим объясняется наличие отдельных функций для Spark.
Загрузка табличных данных из файла csv
При помощи данной функции осуществляется загрузка в систему табличных данных с помощью фреймворка для распределенных вычислений Apache Spark, конкретно, с помощью библиотеки PySpark для Python. Дата Фрейм в PySpark — это таблица, строки которой хранятся в RDD (Отказоустойчивый распределенный набор данных (англ. Resilient Distributed Dataset, RDD) — тип структуры данных, который можно распределить между несколькими узлами в кластере). Работа с дата фреймами ведётся по принципу «ленивых вычислений» (англ. lazy evaluations). Это вычисления, которые откладываются до тех пор, пока пользователь не запросит их результат.
Данная функция работает только для файлов в формате csv, содержащих big data.
Параметры блока:
- Выберите файл для загрузки. Выбор из списка файла для дальнейшего анализа.
Загрузка табличных данных из папки csv
После проведения вычислений фреймворк «Apache Spark» сохраняет преобразованные выходные данные не в виде одного файла, а в виде папки, в которой заложены несколько файлов. Главная цель – оптимизация дальнейших вычислений. Чтобы обратиться к файлам на уровне папки, в которой они хранятся, используется данный метод.
Параметры блока:
- Выберите директорию с датасетом для загрузки. Выбор из списка папки для дальнейшего анализа.
Загрузка модели
Функция предназначена для использования в качестве источника данных ранее обученной модели ИИ «Spark».
Параметры блока:
- Модель. Выбор из списка ранее сохраненных моделей Spark
Загрузка табличных данных из коннектора csv
Функция предназначена для получения табличных данных через коннектор с типом «ClickHouse», с использованием библиотеки «Spark».
Параметры блока:
- Коннектор. Выбор из списка ранее созданного коннектора.
Сравнительная таблица обученных моделей
Функция предназначена для формирования сравнительной таблицы обученных моделей в рамках исследования с возможностью отображения наилучшей модели и построения графика roc-auc кривой для каждой модели по отдельности, а также всех моделей на одном графике.