knowledge base

Кластеризация текстов

Данный сценарий предполагает решение задачи разделения текстовых данных на кластеры. В качестве источника используются сообщения на форуме, а задача платформы научиться определять позитивные и негативные комментарии, разделив их на соответствующие кластеры.  

Для решения задачи выполните следующие действия:

Загрузка данных на платформу. Набор данных состоит из файла в формате .csv, где каждая строка представляет собой комментарий с форума.

  • Перейдите в раздел данные и нажмите кнопку «Создать»
  • В открывшейся в поле «Тип» выберите значение «Категория», в поле «Название» введите название новой группы, например «Данные для кластеризации текстов», и нажмите кнопку «Создать». 

Создание папки в разделе данные

  • Перейдите в созданную папку «Данные для кластеризации текстов» и загрузите в неё заранее приготовленный файл с комментариями. Для этого нажмите кнопку «Загрузить». Откроется окно загрузки файлов:

Окно загрузки файлов

  • Для выбора файлов кликните в область окна «Выберите файлы» или перетащите их по технологии drag and drop (из окна папки на вашем ПК в окно браузера). 
  • Если по ошибке был выбран не тот файл, вы можете удалить его, нажав на крестик в правой части строки с его названием.
  • Нажмите кнопку Загрузить:

Выбранные файлы в окне загрузки

  • В результате загруженный файл отобразится в папке.

Построение блок-схемы

  • Создание новой рабочей области. Перейдите в раздел «Моделирование» -> Рабочая область. Нажав на в верхней части экрана, создайте новую рабочую область с названием «Тексты».
  • Блок запуск. Добавьте на рабочую область элемент «Запуск»:
  • Дважды кликните на название элемента, чтобы переименовать его в «Классификация текстов»:

Блок Источник данных. Добавьте на рабочую область элемент «Источник данных» и в качестве функции выберите «Загрузка текстовых файлов для кластеризации».

  • В разделе «Группа текстов для кластеризации» выберите ранее созданную папку нажав на три точки в строке с ее наименованием и кликнув «Выбрать», в результате папка отобразится в нижней части списка.
  • Сохраните настройки блока
  • Соедините элементы блок схемы:

Соединение элементов блок схемы

Блок Процесс, Фильтрация шума. Добавьте на рабочую область элемента процесс. Выберите функцию «Предобработка данных» -> «Фильтрация текстового шума». Нажмите «Сохранить».

  • Переименуйте блок в «Очистка от шума»
  • Соедините элементы:

Блок Процесс, Лемматизация. Добавьте на рабочую область элемента процесс. Выберите функцию  «Предобработка данных» -> «Лемматизация текста». Нажмите «Сохранить».

  • Переименуйте блок в «Лемматизация».
  • Соедините элементы:

Блок Процесс, Векторизация. Добавьте на рабочую область элемент процесс. Выберите функцию «Предобработка данных» -> «Векторизация текста».

  • В параметрах блока выберите «Метод векторизации»: TD IDF; «Максимальная размерность текста» – 1000; «Количество признаков» – 1000:

Параметры блока «Векторизация текста»:

  • Сохраните параметры блока.
  • Переименуйте блок в «Вектор».
  • Соедините элементы:

Соединение элементов блок схемы

Блок Процесс, Кластеризация K-Means. Добавьте на рабочую область элемент процесс. Выберите функцию «Обучение без учителя» -> «Кластеризация K-Means».

  • В параметрах блока выберите «Число кластеров»: 2; Не нужно устанавливать галочку в поле «Оптимизация гиперпараметров»:

Параметры блока «Кластеризация K-Means»

  • Сохраните параметры блока
  • Переименуйте блок в «kMeans»
  • Соедините элементы:

Соединение элементов блок схемы

Блок Процесс, Кластеризация DBSCAN. Добавьте на рабочую область элемент процесс. Выберите функцию «Обучение без учителя» -> «Кластеризация DBSCAN».

  • В параметрах блока выберите «Радиус»: 0,5; «Число соседей»: 10; «Метрика расстояния»: Евклидово; Не нужно устанавливать галочку в поле «Оптимизация гиперпараметров»:

Параметры блока «Кластеризация DBSCAN»

  • Сохраните параметры блока.
  • Переименуйте блок в «DBSCAN».
  • Соедините элементы:

Запуск блок-схемы. Чтобы запустить собранную блок-схему нажмите кнопку «» на первом элементе блок-схемы – «Запуск». После этого внешний вид блока изменится и появится возможность создания отчета, активируйте настройку при необходимости. Повторно нажмите кнопку «Запуск», блок схема начнет обрабатывать блоки. После того, как все блоки отработают с зелеными индикаторами, процесс запуска считается успешно пройденным.

Визуализация результатов. После успешной отработки блок схемы на верхней панели активируются кнопки визуализации:

Нажав на иконку с таблицей, вы сможете выбрать из следующих  доступных визуализаций:

  • Отфильтрованные текстовые данные
  • Лемматизированные текстовые данные
  • Количество объектов в каждом кластере: