Скажи мне кто твой шлиф
Проблематика
В геологоразведке и обогащении руд критически важна оперативная и объективная оценка технологических свойств сырья. Традиционный подход к классификации руд по панорамным микрофотографиям полированных шлифов опирается на визуальную экспертизу геолога, что создаёт ряд ограничений:
  • Субъективность оценки: разные специалисты могут по-разному интерпретировать характер срастаний сульфидов и долю талька, что снижает воспроизводимость результатов между лабораториями.
  • Трудоёмкость: ручная сегментация и подсчёт площадей фаз на изображениях высокого разрешения (до нескольких гигапикселей) занимает часы на один образец.
  • Масштабируемость: при обработке партий из десятков и сотен шлифов ручной анализ становится «бутылочным горлышком» исследовательского процесса.
  • Сложность количественной оценки: визуальная оценка «преобладания» обычных или тонких срастаний не даёт точных процентных значений, необходимых для построения технологических карт.
  • Вариативность данных: изображения различаются по освещению, контрасту, наличию артефактов шлифовки, что затрудняет применение жёстких пороговых алгоритмов.
Образ решения
Разработать end-to-end систему автоматической классификации руд по панорамным OM-изображениям полированных шлифов, которая:
1. Сегментирует и классифицирует сульфидные включения:
  • Обычные срастания — крупные, изолированные сульфиды с минимальным замещением серой/тёмной фазой (например, магнетитом) → маркер рядовой руды;
  • Тонкие срастания — сульфиды, значительно замещённые нерудной фазой → маркер труднообогатимой руды.
2. Обнаруживает и количественно оценивает долю талька — тёмная рассеянная фаза в нерудной матрице, на обучающих данных размеченная цветной линией.
3. Применяет экспертную логику классификации:
  • Если доля талька > 10% → оталькованная руда;
  • Если талька ≤ 10%:
⚬ Преобладают обычные срастания → рядовая руда;
⚬ Преобладают тонкие срастания → труднообогатимая руда.
4. Формирует интерпретируемый результат:
  • Цветовая маска поверх исходного изображения (зелёный = обычные срастания, красный = тонкие срастания, синий = тальк);
  • Таблица с количественными метриками: общая доля сульфидов, доля по типам срастаний, доля талька;
  • Текстовый вывод: «Руда классифицирована как оталькованная: содержание талька — 14%, преобладание тонких срастаний — 62%».
Ключевые требования
  • Предметная точность: решение должно корректно отражать геологическую логику классификации, а не просто максимизировать метрики сегментации.
  • Устойчивость к вариациям данных: работа на изображениях с разным освещением, контрастом, наличием артефактов шлифовки и полировки.
  • Интерпретируемость: геолог должен иметь возможность визуально проверить, какие участки отнесены к тальку или тому/иному типу срастаний.
  • Практическая интеграция: решение должно встраиваться в существующий лабораторный пайплайн — от загрузки TIFF/PNG до экспорта отчёта.
  • Возможность адаптации: поддержка дообучения на новых типах руд или данных с другого микроскопического оборудования (transfer learning).
Функциональные требования
  • Обработка изображений:
  • Поддержка форматов высокого разрешения: TIFF, PNG, JPEG;
  • Автоматическая предобработка: нормализация освещения, шумоподавление, коррекция контраста, масштабирование для панорамных снимков;
  • Сегментация на уровне пикселей с сохранением морфологии включений.
  • Классификация и количественный анализ:
  • Выделение сульфидных фаз (светлые области) на фоне силикатной/оксидной матрицы (тёмные/серые области);
  • Классификация срастаний по степени замещения нерудной фазой;
  • Детекция талька как рассеянной тёмной фазы в нерудной матрице;
  • Расчёт площадей и процентных долей с учётом масштаба изображения.
  • Визуализация и экспорт:
  • Наложение цветовой маски на исходное изображение (интерактивный просмотр с зумом);
  • Таблица с метриками в интерфейсе и возможность экспорта в CSV;
  • Генерация краткого текстового заключения и экспорт итогового отчёта в PDF;
  • Опционально: веб-интерфейс на Streamlit/Gradio для удобного взаимодействия.
  • Пакетная обработка и логирование:
  • Обработка серий изображений без участия пользователя;
  • Логирование параметров анализа для обеспечения воспроизводимости.
Нефункциональные требования
  • Производительность: обработка одного панорамного изображения (до 10 000×10 000 пикселей) — не более 5 минут на рабочей станции с CPU/GPU.
  • Надёжность: корректная обработка «сложных» случаев — изображения с неравномерным освещением, царапинами, загрязнениями шлифа.
  • Точность:
  • Ошибка оценки доли талька — не более ±3% относительно экспертной разметки;
  • Точность классификации типа срастаний — не ниже 90% по F1-score.
  • Интерфейс: интуитивный для геологов без глубоких знаний в ML; возможность ручной коррекции маски (опционально, для режима active learning).
  • Безопасность: поддержка локального развёртывания для работы с конфиденциальными геологическими данными.
Дополнительные пожелания
  • Режим «экспертной проверки»: возможность для геолога отметить ошибочно классифицированные участки и добавить их в набор для дообучения.
  • Поддержка метаданных: учёт информации о масштабе изображения, условиях съёмки, типе рудного месторождения для контекстной адаптации модели.
  • Визуальные подсказки: отображение не только итоговой маски, но и «карты уверенности» модели (heatmap вероятностей) для спорных участков.
  • Интеграция с ГИС: экспорт результатов в форматы, совместимые с геологическими информационными системами (Shapefile, GeoJSON).
  • Документация: подробное руководство пользователя с примерами разбора типичных и пограничных случаев классификации.
Дополнительные материалы
Для выполнения задания участникам предоставляется:
  • Примеры датасетов:
  • Аннотированные SEM/OM-изображения микроструктур (сегментация, классификация)
  • XRD-профили с эталонными фазовыми разметками
  • Синтетические данные для pre-training (опционально)
  • Документация и стандарты:
  • Руководства по формату данных (TIFF, RAW, .xrdml, .uxd)
  • Описание метаданных: условия съёмки, калибровка прибора, параметры пробоподготовки
  • Базы фазовых данных: ICDD PDF-4+, Crystallography Open Database (COD)
  • Инструменты и библиотеки:
  • Python-стек: scikit-image, OpenCV, pymatgen, diffpy, torch/tensorflow
  • Готовые пайплайны предобработки и аугментации для материаловедческих данных
  • Шаблоны дашбордов (Streamlit, Dash, Gradio)
© Все права защищены · Оператор хакатона PG