Skip to main content

Интерфейс обучения моделей

Веб-интерфейс для подготовки данных, кластеризации, визуализации и обучения ML-моделей вибродиагностики. Предназначен для инженеров-диагностов — специальных знаний в области Data Science не требуется.

Общий workflow

Создание объекта диагностики

Объект диагностики — это элемент оборудования, для которого создаётся ML-модель: подшипник, двигатель, насос.

При создании объекта указываются:

ПараметрОписание
НазваниеИдентификатор объекта (например, «Подшипник DE насоса P-101»)
Тип оборудованияВыбор из справочника
КлассГруппировка однотипного оборудования для переиспользования моделей
Привязка к AASСсылка на цифровой двойник в платформе Стрикс

Интерфейс поддерживает два типа сущностей:

  • Object — конкретный элемент (один подшипник на одном станке)
  • Stank (станок) — группа объектов, объединённых по оборудованию
Привязка к модели

К каждому объекту можно привязать ML-модель. Это позволяет в будущем применить обученную модель к новым данным в режиме онлайн-мониторинга.

Подключение источников данных

Данные для обучения хранятся в S3-совместимом хранилище (MinIO). Интерфейс позволяет указать параметры доступа:

ПараметрОписание
S3 EndpointАдрес хранилища
Bucket / PathПуть к папке с данными
Access Key / SecretКлючи доступа

Формат данных

Каждая папка содержит файлы вибрационных записей:

ПараметрТиповое значение
Количество файлов~1 000 на точку измерения
Строк в файле~73 000 000 (суммарно по папке)
ФорматCSV — временной ряд значений
Минимальный объём данных

Для обучения модели рекомендуется не менее 1 000 файлов на точку измерения. Меньший объём может привести к переобучению.

Выбор параметров анализа

После подключения данных настраиваются параметры извлечения признаков:

Размер данных

ПараметрОписание
Data SizeКоличество примеров, извлекаемых из набора данных
Data LengthДлина каждого примера (количество отсчётов)

Извлекаемые признаки

Из каждого фрагмента данных (в рамках Data Length) вычисляются:

ПризнакОписание
Mean tempСредняя температура за период (при наличии телеметрии)
q9595-й процентиль амплитуды — показатель пиковых значений
AmplitudeАмплитуда сигнала — общий уровень вибрации

Сопоставление параметров происходит в рамках одного временного периода: амплитуда вибрации сравнивается с q95 и температурой за тот же интервал.

Число кластеров

Указывается предполагаемое число кластеров (классов состояния). Типичные значения:

КластерыИнтерпретация
2Норма / дефект
3Норма / предупреждение / дефект
4+Норма / несколько типов дефектов

Кластеризация и визуализация

После извлечения признаков система автоматически выполняет кластеризацию и визуализирует распределение данных.

2D-визуализация

Проекция данных на плоскость — каждая точка представляет один пример из набора данных. Цвет точки соответствует кластеру.

Позволяет быстро оценить:

  • Разделимость кластеров (чем дальше друг от друга — тем лучше)
  • Наличие выбросов
  • Соответствие предполагаемого числа кластеров реальному распределению

3D-визуализация

Трёхмерная проекция с возможностью вращения. Даёт более полную картину распределения данных — иногда кластеры, сливающиеся в 2D, чётко разделяются в 3D.

Как интерпретировать

Если данные распределяются в чёткие обособленные группы — кластеризация корректна, можно переходить к обучению. Если группы перекрываются — стоит изменить параметры (число кластеров, признаки, размер данных).

Ручная переразметка

Если автоматическая кластеризация не соответствует ожиданиям инженера, интерфейс позволяет вручную переразметить данные:

  1. Выделить группу точек на графике
  2. Назначить другой класс (кластер)
  3. Повторить для всех некорректно размеченных областей

Это особенно важно, когда:

  • Автоматический алгоритм объединяет разные состояния в один кластер
  • Инженер знает физический смысл группы данных (например, «это данные при холодном пуске»)
  • Нужно выделить редкий дефект, который алгоритм не обнаружил

Сохранение обучающей выборки

После кластеризации и (опциональной) ручной корректировки данные сохраняются как обучающая выборка:

ПолеОписание
НазваниеИдентификатор выборки
КлассыСписок классов с описанием (норма, предупреждение, дефект типа X)
Количество примеровПо каждому классу
Дата созданияМетка времени
АвторКто создал выборку

Хранилище моделей

После обучения модели попадают в хранилище с метаданными:

ПараметрОписание
Название моделиИдентификатор
ВерсияИнкрементальный номер версии
Место храненияПуть к файлу модели
Где установленаНа каком оборудовании работает в онлайн-режиме
Метрики качестваТочность, recall, F1-score (при наличии тестовой выборки)
Наличие разметкиЕсть ли размеченные данные на конкретные дефекты
Время сбора данныхПериод, за который собраны обучающие данные
ГрафикиВизуализация показателей модели

Связанные разделы