Интерфейс обучения моделей

Веб-интерфейс для подготовки данных, кластеризации, визуализации и обучения ML-моделей вибродиагностики. Предназначен для инженеров-диагностов — специальных знаний в области Data Science не требуется.

Общий workflow

Создание объекта диагностики

Объект диагностики — это элемент оборудования, для которого создаётся ML-модель: подшипник, двигатель, насос.

При создании объекта указываются:

Параметр	Описание
Название	Идентификатор объекта (например, «Подшипник DE насоса P-101»)
Тип оборудования	Выбор из справочника
Класс	Группировка однотипного оборудования для переиспользования моделей
Привязка к AAS	Ссылка на цифровой двойник в платформе Стрикс

Интерфейс поддерживает два типа сущностей:

Object — конкретный элемент (один подшипник на одном станке)
Stank (станок) — группа объектов, объединённых по оборудованию

Привязка к модели

К каждому объекту можно привязать ML-модель. Это позволяет в будущем применить обученную модель к новым данным в режиме онлайн-мониторинга.

Подключение источников данных

Данные для обучения хранятся в S3-совместимом хранилище (MinIO). Интерфейс позволяет указать параметры доступа:

Параметр	Описание
S3 Endpoint	Адрес хранилища
Bucket / Path	Путь к папке с данными
Access Key / Secret	Ключи доступа

Формат данных

Каждая папка содержит файлы вибрационных записей:

Параметр	Типовое значение
Количество файлов	~1 000 на точку измерения
Строк в файле	~73 000 000 (суммарно по папке)
Формат	CSV — временной ряд значений

Минимальный объём данных

Для обучения модели рекомендуется не менее 1 000 файлов на точку измерения. Меньший объём может привести к переобучению.

Выбор параметров анализа

После подключения данных настраиваются параметры извлечения признаков:

Размер данных

Параметр	Описание
Data Size	Количество примеров, извлекаемых из набора данных
Data Length	Длина каждого примера (количество отсчётов)

Извлекаемые признаки

Из каждого фрагмента данных (в рамках Data Length) вычисляются:

Признак	Описание
Mean temp	Средняя температура за период (при наличии телеметрии)
q95	95-й процентиль амплитуды — показатель пиковых значений
Amplitude	Амплитуда сигнала — общий уровень вибрации

Сопоставление параметров происходит в рамках одного временного периода: амплитуда вибрации сравнивается с q95 и температурой за тот же интервал.

Число кластеров

Указывается предполагаемое число кластеров (классов состояния). Типичные значения:

Кластеры	Интерпретация
2	Норма / дефект
3	Норма / предупреждение / дефект
4+	Норма / несколько типов дефектов

Кластеризация и визуализация

После извлечения признаков система автоматически выполняет кластеризацию и визуализирует распределение данных.

2D-визуализация

Проекция данных на плоскость — каждая точка представляет один пример из набора данных. Цвет точки соответствует кластеру.

Позволяет быстро оценить:

Разделимость кластеров (чем дальше друг от друга — тем лучше)
Наличие выбросов
Соответствие предполагаемого числа кластеров реальному распределению

3D-визуализация

Трёхмерная проекция с возможностью вращения. Даёт более полную картину распределения данных — иногда кластеры, сливающиеся в 2D, чётко разделяются в 3D.

Как интерпретировать

Если данные распределяются в чёткие обособленные группы — кластеризация корректна, можно переходить к обучению. Если группы перекрываются — стоит изменить параметры (число кластеров, признаки, размер данных).

Ручная переразметка

Если автоматическая кластеризация не соответствует ожиданиям инженера, интерфейс позволяет вручную переразметить данные:

Выделить группу точек на графике
Назначить другой класс (кластер)
Повторить для всех некорректно размеченных областей

Это особенно важно, когда:

Автоматический алгоритм объединяет разные состояния в один кластер
Инженер знает физический смысл группы данных (например, «это данные при холодном пуске»)
Нужно выделить редкий дефект, который алгоритм не обнаружил

Сохранение обучающей выборки

После кластеризации и (опциональной) ручной корректировки данные сохраняются как обучающая выборка:

Поле	Описание
Название	Идентификатор выборки
Классы	Список классов с описанием (норма, предупреждение, дефект типа X)
Количество примеров	По каждому классу
Дата создания	Метка времени
Автор	Кто создал выборку

Хранилище моделей

После обучения модели попадают в хранилище с метаданными:

Параметр	Описание
Название модели	Идентификатор
Версия	Инкрементальный номер версии
Место хранения	Путь к файлу модели
Где установлена	На каком оборудовании работает в онлайн-режиме
Метрики качества	Точность, recall, F1-score (при наличии тестовой выборки)
Наличие разметки	Есть ли размеченные данные на конкретные дефекты
Время сбора данных	Период, за который собраны обучающие данные
Графики	Визуализация показателей модели

Связанные разделы

Сценарии использования — какой тип данных подавать в модель
Обучение и использование моделей — пошаговый workflow после подготовки данных
Подключение к платформе — как модель связана с AAS

Общий workflow​

Создание объекта диагностики​

Подключение источников данных​

Формат данных​

Выбор параметров анализа​

Размер данных​

Извлекаемые признаки​

Число кластеров​

Кластеризация и визуализация​

2D-визуализация​

3D-визуализация​

Ручная переразметка​

Сохранение обучающей выборки​

Хранилище моделей​

Связанные разделы​