Научный клубок
Проблематика
В точке 0 проблема часто не в отсутствии моделей, а в отсутствии общей структуры: что уже пробовали, какие данные есть, какие выводы подтверждены, где противоречия и кто в организации является носителем экспертизы. В контексте горно-металлургических исследований это приводит к:
  • Потере институциональной памяти — знания о методах обессоливания воды, циркуляции католита, распределении драгоценных металлов между штейном и шлаком рассеяны по отчётам, презентациям, личным архивам.
  • Дублированию усилий — команды повторяют литературные обзоры по очистке шахтных вод или способам удаления SO₂, потому что не видят, что аналогичная работа уже выполнена.
  • Сложности междисциплинарного поиска — невозможно быстро найти связь между «режимом кучного выщелачивания в холодном климате» и «выходом металла», если данные разрознены.
  • Низкой скорости принятия решений — ответ на вопрос «какие технические решения подачи электролита в ванны электроэкстракции никеля существуют в мировой практике?» требует ручного сбора информации из десятков источников.
  • Риску противоречивых выводов — отсутствие единой верифицированной базы ведёт к конфликтам интерпретаций, например, по оптимальной скорости циркуляции католита.
Образ решения
Ваша задача — создать единую карту знаний R&D для горно-металлургической отрасли, которая связывает разнородные сущности:
  • Научные публикации и отчёты (литературные обзоры, патенты, диссертации)
  • Экспериментальные данные (протоколы опытов, параметры процессов, результаты анализов)
  • Технологические решения (схемы циркуляции электролита, конструкции диафрагменных ячеек, способы подачи шихты в ПВП)
  • Материалы и вещества (сульфаты, хлориды, никелевые катоды, техногенный гипс, угольные отходы)
  • Оборудование и установки (ванны электроэкстракции, печи взвешенной плавки, системы очистки газов)
  • Исследовательские команды и эксперты (лаборатории, авторы, носители компетенций)
  • Выводы и рекомендации (подтверждённые эффекты, ограничения, области применения)
Система должна корректно отвечать на запросы вида:
  • «Какие методы обессоливания воды подходят для обогатительной фабрики, если исходная вода содержит сульфаты, хлориды, Ca, Mg, Na по 200–300 мг/л, а требуемый сухой остаток — ≤1000 мг/дм³?»
  • «Какие технические решения организации циркуляции католита при электроэкстракции никеля описаны в мировой практике, и какая скорость потока считается оптимальной?»
  • «Покажите все эксперименты и публикации по распределению Au, Ag и МПГ между медным/никелевым штейном и шлаком за последние 5 лет».
  • «Какие способы закачки шахтных вод в глубокие горизонты применялись в России и за рубежом, и каковы их технико-экономические показатели?»
Ключевые требования
  • Решение должно поддерживать сложные многопараметрические запросы: материал + процесс + условия + география + временной диапазон.
  • Должна быть предусмотрена модель верификации знаний: указание источника, уровня достоверности, даты актуализации.
  • Система должна различать отечественную и зарубежную практику, позволяя фильтровать результаты по географическому признаку.
  • Обязательна поддержка числовых ограничений и диапазонов (концентрации, температуры, скорости потока, экономические показатели).
  • Решение должно быть масштабируемым: поддержка новых технологических доменов (гидрометаллургия, пирометаллургия, экология, переработка отходов).
Функциональные требования
Импорт и нормализация данных
  • Поддержка загрузки:
  • Научных статей и обзоров (в т.ч. на русском и английском языках)
  • Внутренних технических отчётов и протоколов экспериментов
  • Патентных документов и нормативных материалов
  • Справочников по материалам, оборудованию, единицам измерения
  • NLP-пайплайн для извлечения:
  • Сущностей: материалы (никель, медь, гипс), процессы (выщелачивание, электроэкстракция), параметры (концентрация, температура, скорость)
  • Связей: «метод → применяется для → материала», «эксперимент → показал → эффект», «автор → эксперт в → области»
  • Числовых ограничений и условий: «сульфаты ≤300 мг/л», «климат: холодный», «производительность: от 100 т/сут»
  • Сопоставление синонимов и терминов: «электроэкстракция» / «electrowinning», «ПВП» / «печь взвешенной плавки» / «fluidized bed furnace»
Построение и хранение графа знаний
  • Онтология предметной области с учётом специфики горно-металлургических процессов:
  • Типы сущностей: Material, Process, Equipment, Property, Experiment, Publication, Expert, Facility
  • Отношения: uses_material, operates_at_condition, produces_output, described_in, validated_by, contradicts
  • Хранение графа с поддержкой сложных запросов на обход связей (Cypher, Gremlin или аналог)
  • Версионирование фактов: отслеживание изменений в выводах, обновление данных при появлении новых источников
Поиск и навигация
  • Семантический поиск по естественным запросам с поддержкой:
  • Многоуровневой фильтрации: по типу процесса, материалу, географии, году публикации, уровню достоверности
  • Числовых диапазонов и условий: «найти решения для концентрации сульфатов <200 мг/л»
  • Сравнительных запросов: «отечественная практика» vs «мировая практика», «вариант А» vs «вариант Б»
  • Визуализация графа:
  • Отображение цепочек: «материал → процесс → оборудование → результат»
  • Подсветка противоречивых данных или пробелов: «нет экспериментов для комбинации: холодный климат + кучное выщелачивание + никелевая руда»
  • Показ связанных экспертов и лабораторий по теме запроса
Аналитика и синтез ответов
  • Автоматическая генерация структурированных ответов на запросы типа «литературный обзор»:
  • Группировка источников по методу, году, географии, уровню детализации
  • Выделение консенсусных выводов и зон разногласий
  • Указание степени уверенности и количества подтверждающих источников
  • Выявление пробелов в знаниях:
  • Какие комбинации «материал–режим–условие» не изучены или слабо освещены
  • Какие технологии описаны только в отечественной или только в зарубежной литературе
  • Рекомендации:
  • Похожие кейсы и потенциально применимые решения из смежных областей
  • Эксперты и команды, которые работали с аналогичными задачами
  • Смежные темы для углубленного изучения
Управление доступом и безопасность
  • Ролевая модель: исследователь, аналитик, руководитель проекта, администратор, внешний партнёр
  • Разграничение доступа к чувствительным данным (внутренние отчёты, коммерческая информация)
  • Аудит действий: логирование запросов, просмотров, экспорта данных
  • Соответствие внутренним политикам ИБ и требованиям к обращению с технической документацией
Нефункциональные требования
  • Интуитивный интерфейс — исследователь без подготовки в области графовых БД должен сформулировать запрос на естественном языке и получить понятный ответ.
  • Производительность — ответ на сложные запросы с обходом 3–4 уровней связей и фильтрацией по числовым параметрам: не более 3–5 секунд при объёме до 1 млн сущностей.
  • Точность извлечения — корректное распознавание технических терминов, единиц измерения, числовых ограничений (ошибки в извлечении концентраций или температур недопустимы).
  • Надёжность — корректная обработка ошибок при импорте разнородных документов, обновлении графа, выполнении запросов; детальное логирование и мониторинг.
  • Расширяемость — модульная архитектура, позволяющая подключать новые источники (например, данные с датчиков установок), новые типы сущностей (например, «экономический показатель») и новые домены (например, переработка редкоземельных элементов).
Дополнительные пожелания
  • Поддержка мультиязычности: корректная обработка запросов и документов на русском и английском языках, сопоставление терминов.
  • Экспорт результатов: формирование отчётов в форматах PDF, Markdown, JSON-LD с возможностью вставки в презентации и технические задания.
  • Интеграция с системами уведомлений: оповещение исследователя о появлении новых публикаций или экспериментов по интересующей его теме.
  • Ручная корректировка графа экспертами: возможность уточнять связи, добавлять комментарии, фиксировать изменения с указанием автора и даты.
  • Дашборды для руководителей: метрики покрытия знаний по направлениям (гидрометаллургия, экология, переработка отходов), активность команд, зоны риска (темы с малым количеством источников или противоречивыми данными).
  • Поддержка сценариев сравнительного анализа: инструмент для построения таблиц сравнения технологий по параметрам: эффективность, капитальные затраты, применимость в холодном климате, экологические ограничения.
Дополнительные материалы
Для выполнения задания участникам предоставляется:
  • Примеры входных данных:
  • Анонимизированный корпус внутренних отчётов и статей
  • Каталог экспериментов с метаданными (материал, режим, результат)
  • Справочники: материалы, оборудование, свойства, единицы измерения
  • Перечень сотрудников и лабораторий с областями экспертизы
  • Таксономия тематических тегов
  • Рекомендации по технологиям:
  • Графовые БД: Neo4j, Amazon Neptune, JanusGraph
  • NLP-инструменты: DeepPavlov, spaCy, ruBERT
  • Фреймворки для онтологий: OWL, RDF, SHACL
  • Поисковые движки: Elasticsearch, Vespa
  • Стандарты и гайдлайны:
  • Принципы FAIR для научных данных (Findable, Accessible, Interoperable, Reusable)
  • Внутренние регламенты НИИ по обращению с данными и ИБ
  • Глоссарий предметной области (материаловедение, термическая обработка, механические свойства)
© Все права защищены · Оператор хакатона PG