Интерфейс обучения моделей
Веб-интерфейс для подготовки данных, кластеризации, визуализации и обучения ML-моделей вибродиагностики. Предназначен для инженеров-диагностов — специальных знаний в области Data Science не требуется.
Общий workflow
Создание объекта диагностики
Объект диагностики — это элемент оборудования, для которого создаётся ML-модель: подшипник, двигатель, насос.
При создании объекта указываются:
| Параметр | Описание |
|---|---|
| Название | Идентификатор объекта (например, «Подшипник DE насоса P-101») |
| Тип оборудования | Выбор из справочника |
| Класс | Группировка однотипного оборудования для переиспользования моделей |
| Привязка к AAS | Ссылка на цифровой двойник в платформе Стрикс |
Интерфейс поддерживает два типа сущностей:
- Object — конкретный элемент (один подшипник на одном станке)
- Stank (станок) — группа объектов, объединённых по оборудованию
К каждому объекту можно привязать ML-модель. Это позволяет в будущем применить обученную модель к новым данным в режиме онлайн-мониторинга.
Подключение источников данных
Данные для обучения хранятся в S3-совместимом хранилище (MinIO). Интерфейс позволяет указать параметры доступа:
| Параметр | Описание |
|---|---|
| S3 Endpoint | Адрес хранилища |
| Bucket / Path | Путь к папке с данными |
| Access Key / Secret | Ключи доступа |
Формат данных
Каждая папка содержит файлы вибрационных записей:
| Параметр | Типовое значение |
|---|---|
| Количество файлов | ~1 000 на точку измерения |
| Строк в файле | ~73 000 000 (суммарно по папке) |
| Формат | CSV — временной ряд значений |
Для обучения модели рекомендуется не менее 1 000 файлов на точку измерения. Меньший объём может привести к переобучению.
Выбор параметров анализа
После подключения данных настраиваются параметры извлечения признаков:
Размер данных
| Параметр | Описание |
|---|---|
| Data Size | Количество примеров, извлекаемых из набора данных |
| Data Length | Длина каждого примера (количество отсчётов) |
Извлекаемые признаки
Из каждого фрагмента данных (в рамках Data Length) вычисляются:
| Признак | Описание |
|---|---|
| Mean temp | Средняя температура за период (при наличии телеметрии) |
| q95 | 95-й процентиль амплитуды — показатель пиковых значений |
| Amplitude | Амплитуда сигнала — общий уровень вибрации |
Сопоставление параметров происходит в рамках одного временного периода: амплитуда вибрации сравнивается с q95 и температурой за тот же интервал.
Число кластеров
Указывается предполагаемое число кластеров (классов состояния). Типичные значения:
| Кластеры | Интерпретация |
|---|---|
| 2 | Норма / дефект |
| 3 | Норма / предупреждение / дефект |
| 4+ | Норма / несколько типов дефектов |
Кластеризация и визуализация
После извлечения признаков система автоматически выполняет кластеризацию и визуализирует распределение данных.
2D-визуализация
Проекция данных на плоскость — каждая точка представляет один пример из набора данных. Цвет точки соответствует кластеру.
Позволяет быстро оценить:
- Разделимость кластеров (чем дальше друг от друга — тем лучше)
- Наличие выбросов
- Соответствие предполагаемого числа кластеров реальному распределению
3D-визуализация
Трёхмерная проекция с возможностью вращения. Даёт более полную картину распределения данных — иногда кластеры, сливающиеся в 2D, чётко разделяются в 3D.
Если данные распределяются в чёткие обособленные группы — кластеризация корректна, можно переходить к обучению. Если группы перекрываются — стоит изменить параметры (число кластеров, признаки, размер данных).
Ручная переразметка
Если автоматическая кластеризация не соответствует ожиданиям инженера, интерфейс позволяет вручную переразметить данные:
- Выделить группу точек на графике
- Назначить другой класс (кластер)
- Повторить для всех некорректно размеченных областей
Это особенно важно, когда:
- Автоматический алгоритм объединяет разные состояния в один кластер
- Инженер знает физический смысл группы данных (например, «это данные при холодном пуске»)
- Нужно выделить редкий дефект, который алгоритм не обнаружил
Сохранение обучающей выборки
После кластеризации и (опциональной) ручной корректировки данные сохраняются как обучающая выборка:
| Поле | Описание |
|---|---|
| Название | Идентификатор выборки |
| Классы | Список классов с описанием (норма, предупреждение, дефект типа X) |
| Количество примеров | По каждому классу |
| Дата создания | Метка времени |
| Автор | Кто создал выборку |
Хранилище моделей
После обучения модели попадают в хранилище с метаданными:
| Параметр | Описание |
|---|---|
| Название модели | Идентификатор |
| Версия | Инкрементальный номер версии |
| Место хранения | Путь к файлу модели |
| Где установлена | На каком оборудовании работает в онлайн-режиме |
| Метрики качества | Точность, recall, F1-score (при наличии тестовой выборки) |
| Наличие разметки | Есть ли размеченные данные на конкретные дефекты |
| Время сбора данных | Период, за который собраны обучающие данные |
| Графики | Визуализация показателей модели |
Связанные разделы
- Сценарии использования — какой тип данных подавать в модель
- Обучение и использование моделей — пошаговый workflow после подготовки данных
- Подключение к платформе — как модель связана с AAS