НИИ «Восход» и Росархив создали базу документов Великой Отечественной войны с применением новейших технологий распознавания и семантического поиска
Ведущий государственный системный интегратор НИИ «Восход», подведомственный Минкомсвязи России, разработал совместно с Федеральным архивным агентством (Росархив) пилотную версию информационно-поисковой системы «ДокументыПобеды.рф», содержащей архивные материалы Великой Отечественной войны, работа с которыми строится на основе новейших технологий распознавания текстов с применением искусственного интеллекта и семантического анализа.
Система «ДокументыПобеды.рф» предоставляет возможность интеллектуального поиска информации по архивным документам за период 1941-1945 гг., благодаря чему изучение таких материалов становится удобнее и доступнее для широкой аудитории, что в свою очередь помогает препятствовать попыткам искажения истории Великой Отечественной войны.
На начальном этапе реализации проекта НИИ «Восход» распознал, обработал, индексировал и загрузил в базу данных информационно-поисковой системы более 7 тысяч электронных копий исторических документов, предоставленных Росархивом из фондов Государственного архива Российской Федерации (ГАРФ) и Российского государственного архива социально-политической истории (РГАСПИ), где данные архивные материалы были ранее отобраны и отсканированы. В перспективе НИИ «Восход» и Росархив планируют обработать десятки тысяч архивных документов, в том числе редкие исторические фотографии.
В информационно-поисковой системе «ДокументыПобеды.рф» применяются современные технологии распознавания текстов с использованием семантического (смыслового) анализа и искусственного интеллекта. Задачу выбора правильного значения многозначного слова или синонима в поисковом запросе и самом тексте «ДокументыПобеды.рф» решают посредством встроенного дерева семантических классов и семантико-синтаксического парсера (анализатора, преобразующего текст в структурированный формат), который устанавливает связи между словами, определяет их синтаксические и семантические роли. В совокупности решения НИИ «Восход» помогают добиться максимально корректных результатов поиска, соответствующих контексту запроса. Помимо интеллектуального поиска, позволяющего легко найти нужные документы, на сайте также реализован и традиционный поиск документов по архивному шифру.
«"ДокументыПобеды.рф" – это долгосрочный и перспективный проект, который в том числе позволяет защитить нашу историю от фальсификаций и искажений, предоставляя удобный полнотекстовый поиск по документам того героического периода. При этом одна из главных наших задач – в разы увеличить количество оцифрованных архивных данных и сохранить их для следующих поколений», – отметил директор НИИ «Восход» Андрей Бадалов.