knowledge base

Spark

Группа «Spark» используется при загрузке big data файлов расширения *.csv. Spark (англ. – искра) позволяет мгновенно обрабатывать данные, благодаря т.н. «ленивым вычислениям». В Spark есть два вида действий: «трансформация» и «применение». Трансформации осуществляются в «ленивом» режиме — то есть, результат не вычисляется сразу после трансформации. Вместо этого Spark просто «запоминает» операцию, которую следует произвести, и набор данных (напр., файл), над которым нужно совершить операцию. Вычисление трансформаций происходит только тогда, когда вызывается действие, и его результат возвращается основной программе. Благодаря этому повышается эффективность Spark. Например, если большой файл был преобразован различными способами и передан первому действию, то Spark обработает и вернет результат лишь для первой строки, а не станет прорабатывать таким образом весь файл.

Для применения Spark вычислений необходимо преобразовать файлы типа csv в уникальный формат – parquet. Этим объясняется наличие отдельных функций для Spark.

Загрузка табличных данных из файла csv

При помощи данной функции осуществляется загрузка в систему табличных данных с помощью фреймворка для распределенных вычислений Apache Spark, конкретно, с помощью библиотеки PySpark для Python. Дата Фрейм в PySpark — это таблица, строки которой хранятся в RDD (Отказоустойчивый распределенный набор данных (англ. Resilient Distributed Dataset, RDD) — тип структуры данных, который можно распределить между несколькими узлами в кластере). Работа с дата фреймами ведётся по принципу «ленивых вычислений» (англ. lazy evaluations). Это вычисления, которые откладываются до тех пор, пока пользователь не запросит их результат.

Данная функция работает только для файлов в формате csv, содержащих big data.

Параметры блока

  • Выберите файл для загрузки. Выбор из списка файла для дальнейшего анализа.

Загрузка табличных данных из папки csv 

После проведения вычислений фреймворк «Apache Spark» сохраняет преобразованные выходные данные не в виде одного файла, а в виде папки, в которой заложены несколько файлов. Главная цель – оптимизация дальнейших вычислений. Чтобы обратиться к файлам на уровне папки, в которой они хранятся, используется данный метод. 

Параметры блока

  • Выберите директорию с датасетом для загрузки. Выбор из списка папки для дальнейшего анализа.

Загрузка модели

Функция предназначена для использования в качестве источника данных ранее обученной модели ИИ «Spark».

Параметры блока

  • Модель. Выбор из списка ранее сохраненных моделей Spark 

Загрузка табличных данных из коннектора csv 

Функция предназначена для получения табличных данных через коннектор с типом «ClickHouse», с использованием библиотеки «Spark».

Параметры блока

  • Коннектор. Выбор из списка ранее созданного коннектора.

Сравнительная таблица обученных моделей

Функция предназначена для формирования сравнительной таблицы обученных моделей в рамках исследования  с возможностью отображения наилучшей модели и построения графика roc-auc кривой для каждой модели по отдельности, а также всех моделей на одном графике.