Проект

Столичный главархив и «Яндекс» разработали платформу «Поиск по архивам»

Заказчики: Главный архив Москвы (Главархив)

Москва; Государственные и социальные структуры

Подрядчики: Яндекс (Yandex)
Продукт: Искусственный интеллект (ИИ, Artificial intelligence, AI)

Дата проекта: 2022/06 — 2022/12
Технология: Big Data
подрядчики - 226
проекты - 642
системы - 241
вендоры - 195
Технология: Data Mining
подрядчики - 254
проекты - 862
системы - 296
вендоры - 212
Технология: Data Quality - Качество данных
подрядчики - 199
проекты - 1064
системы - 60
вендоры - 42
Технология: Робототехника
подрядчики - 272
проекты - 538
системы - 554
вендоры - 402

2022: Разработка платформы «Поиск по архивам»

Столичный главархив и компания «Яндекс» разработали платформу «Поиск по архивам». Нейросеть сможет распознавать рукописные тексты в исторических документах и переводить их в цифровой формат. Система облегчит поиски горожанам, которые изучают историю своего рода и активно пользуются онлайн-ресурсом Главархива «Моя семья». Аудитория этого сервиса на январь 2023 года составляет более 10 миллионов человек. Об этом стало известно 26 января 2023 года.

«
Наш совместный проект по внедрению искусственного интеллекта в сферу архивного дела нужен для распознавания и перевода документов XVII-XIX веков в машиночитаемый формат. В основу проекта лег наш онлайн-сервис «Моя семья» — именно на его материалах разработчики обучали нейросеть. И если раньше поиски занимали десятки часов, то теперь нужные имена можно найти за считаные минуты. Мы надеемся, что благодаря сервису количество горожан, интересующихся историей своей семьи, сильно возрастет. На январь 2023 года на платформе «Поиск по архивам» доступно 2,5 миллиона страниц метрических книг и других документов по генеалогии. В дальнейшем их количество будет только расти, — отметил руководитель Главархива Москвы Ярослав Онопенко.
»

«Поиск по архивам» станет помощником в безошибочном прочтении рукописного шрифта. Метрические документы оформляли от руки, поэтому у исследователей периодически возникают сложности с расшифровкой фамилий и имен, что может затруднять дальнейшие поиски. Теперь достаточно вбить в поисковую строку имена, и система покажет все соответствующие упоминания. Это существенно сэкономит время на составление родословного дерева.

Основной массив документов, обрабатываемых нейросетью, составили материалы столичного Главархива, но в данный сервис также вошли метрические записи из архивов Оренбургской и Новгородской областей. По прогнозам разработчиков, со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.

Использование данной технологии позволит минимизировать потоковую выдачу оригиналов документов, тем самым уберегая их от быстрого обветшания. Это предоставит городу возможность сохранить документальный массив о жителях Москвы и Московской губернии для будущих поколений.Российский рынок облачных ИБ-сервисов только формируется 2.6 т

До этого поиск данных о рождении, браке и смерти горожан, родившихся до 1917 года, проводился практически вручную. Исследователю необходимо было хорошо ориентироваться в фондах и делах, полистно просматривая большие объемы документов в читальном зале Главархива Москвы или в онлайн-сервисе «Моя семья», где пользователям доступно более восьми миллионов страниц метрических книг, ревизских сказок и исповедных ведомостей.

Сервис «Поиск по архивам» — не первый цифровой проект, реализуемый в архивной сфере. Несколько лет назад был открыт виртуальный музей «Москва — с заботой об истории», где можно увидеть документы, предметы и фотографии, переданные жителями на хранение, а также другие архивные материалы из фондов столичного Главархива. В 2020 году совместно с Государственной инспекцией по контролю за использованием объектов недвижимости города Москвы был создан проект «Уникальные документы», который знакомит с документами о Москве и ее жителях, представляющими большую историческую ценность. Цифровые разработки в архивном деле создают максимально комфортные условия и значительно экономят время москвичей при сборе и получении необходимых сведений.