Илья Петухов, Directum: Российские облачные интеллектуальные сервисы недооценивают. И зря
О развитии систем электронного документооборота в контексте становления сервисов искусственного интеллекта рассказал Илья Петухов, руководитель проектов по развитию AI-продуктов компании Directum.
Содержание |
С чего начинался искусственный интеллект в России
Расскажите об эволюции систем распознавания документов в последние годы. Что принципиально изменилось благодаря использованию искусственного интеллекта?
Илья Петухов: Профессиональные системы распознавания печатных текстов представлены на рынке уже несколько десятков лет. Около 10 лет назад основной технологией стала OCR (Optical character recognition), в задачи которой входило распознать текст, извлечь базовый набор метаданных, передать документ в архив. Пробы и эксперименты по искусственному интеллекту были и раньше, но не привлекали большого внимания, но только в 2016-2017 гг. на рынке активно заговорили о комбинации OCR и AI (Artificial Intelligence), которая позволила извлекать текстовый слой и анализировать полученные данные, классифицировать и выполнять другие действия с помощью искусственного интеллекта. Примерно тогда же на рынок стали выходить отдельные AI-решения для распознавания с применением машинного обучения. В числе первопроходцев была и компания Directum: в 2018 году мы представили набор интеллектуальных сервисов для обработки корпоративного контента.
С приходом ИИ расширился пул документов, с которыми может работать система распознавания. Сюда вошли неформализованные документы: договоры, входящая корреспонденция, протоколы, отчеты и др. Только у договора можно найти более 1000 разных форматов написания. Чтобы распознавать данные в таких документах, одной лишь технологии OCR мало, так как форматы и визуальное наполнение документов разное, нет жестких условий обработки, строгих и унифицированных форм составления. OCR требовалось подключение более гибкого помощника – ИИ, при обучении которого можно было бы использовать инструменты Machine Learning и нейронные сети.
Есть ли в России системы распознавания, способные заменить решения на основе зарубежного ПО?
Илья Петухов: Среди российских систем распознавания, которые находятся в Едином реестре отечественного ПО, могу назвать 5-7 достойных аналогов зарубежных решений. Среди них есть как лидеры рынка, так и стартапы. Все продукты хорошо распознают бухгалтерские первичные учетные документы, документы жестких форм типа паспортов, СНИЛС и прочих удостоверений личности. Но лишь немногие пока способны качественно извлекать данные из писем и другой входящей корреспонденции.
Не скрою, составить конкуренцию зарубежным вендорам, которые развивают системы распознавания с 80-х годов и обладают большими датасетами для машинного обучения, довольно сложно. Тем не менее, в России нарабатывается практика по замене такого ПО. Особенно активным импортозамещение иностранных систем распознавания стало в 2022 году.
Что «под капотом» интеллектуальных решений?
Насколько сложным был путь разработки интеллектуальных сервисов Directum?
Илья Петухов: Конечно, 5-7 лет назад, еще никто не знал о таких профессиях, как Data Scientist или ML-инженер. Но наши разработчики-энтузиасты методом проб и ошибок уже тогда создавали первые прототипы AI-решений. Из сложностей могу выделить, например, использование Scrum, который активно применялся на тот момент в продуктовой разработке Directum, но абсолютно не подходил для случаев, когда не знаешь, с чего начать решение задачи. Да, во фреймворке есть spike, но это «костыль», а все остальные активности, артефакты практически не работают. Несмотря на трудности, наша команда продолжала развиваться, и за 5 лет мы выросли в 10 раз, успешно справились с вызовом времени и адаптировали разработку решений с искусственным интеллектом к современным Agile-подходам.
Что касается предпосылок появления AI-решений, то они были еще в 2015 году на проекте в одной из российских авиакомпаний, где мы делали обработку, извлечение данных и маршрутизацию платежных поручений с применением OCR-библиотеки Google Tesseract. Тогда же, в 2015-2016 годы, появилось несколько запросов от потенциальных клиентов. Стало понятно, что бизнес в России, пусть и выборочно, готов использовать ИИ в работе с документами.Обзор российского рынка банковской цифровизации: импортозамещение, искусственный интеллект и собственные экосистемы
Основная сложность, с которой сталкиваются все при разработке AI-решений, — это отсутствие датасетов для обучения. В России вообще с этим проблема. Но есть определенные подвижки. Как рассказал на конференции AI Journey 2022 вице-премьер РФ Дмитрий Чернышенко, в Госдуму уже внесли законопроект, который откроет доступ к данным, накопленным госучреждениями. Это поможет сформировать необходимые датасеты для обучения нейросетей.
Если в последнее время ситуация слегка улучшилась, то семь лет назад открытых баз данных не было. Использовать датасеты на английском языке было неэффективно для российского рынка. Приходилось обучать ИИ на своих внутренних примерах, договариваться с компаниями, где стартуют пилотные проекты, чтобы они предоставляли такую информацию, либо решали использовать сторонние сервисы для генерации случайных данных.
Расскажите об архитектуре системы.
Илья Петухов: Под «капотом» интеллектуальных решений Directum лежит микросервисная архитектура. Это набор сервисов, каждый из которых использует разные алгоритмы машинного обучения и решает конкретные задачи: классификация изображения, поиск объектов (печатей, подписей), извлечение текстового слоя, классификация документа, извлечение фактов. Все они слаженно взаимодействуют между собой, а управляет ими, словно дирижер, Smart Service. Он распределяет нагрузку и передает извлеченные данные во внешнюю систему. Также Smart Service отвечает за интеграцию (через API) с внешними системами-источниками и получателями результатов обработки.
С какими системами интегрируются интеллектуальные сервисы Directum?
Илья Петухов: Интеллектуальные сервисы отвечают за распознавание информации, а обработка результатов выполняется во внешних системах. Для интеграции с ними используется API. Также у нас есть готовые интеграции:
- с продуктами Directum – системами Directum RX и Directum Ario One;
- с внешними продуктами – 1С:Документооборот, Диадок.
Интеграция с другими системами требует отдельной доработки и настройки API. Это может сделать и сам заказчик.
Фоновое дообучение интеллектуальных сервисов – фишка Directum
Как проходит процесс обучения интеллектуальных сервисов?
Илья Петухов: В основе лежит Machine Learning – формирование у машины паттернов поведения человека. Для того чтобы обучить модели, нам нужно показать машине максимально репрезентативные примеры и сформировать у нее насмотренность. Как это происходит на практике? Предположим, клиент хочет распознавать договоры. Чтобы научить интеллектуальные сервисы обрабатывать такие неформализованные документы, потребуется подготовить обучающую выборку. По опыту выполненных проектов, могу сказать, что речь идет минимум о 400 примерах для неформализованных документов и около 100-150 для документов жестких форм. Дополнительно для тестирования можно взять еще 10% примеров.
Механика обучения следующая. Загружаем 400 документов в определенную папку, ссылаемся на нее в сервисе классификации и запускаем обучение. В фоновом режиме из документов извлекается текстовый слой, находятся часто повторяющиеся и, напротив, редко повторяющиеся слова, каждой группе присваивается вес. После того как сервис классификации прогнал через себя 400 документов, формируется насмотренность. Затем тестируем на 10% примеров от выборки и смотрим результат. Сервис показывает, насколько качественно - в процентах - обученная модель готова идентифицировать новые документы этого типа. Если результат тестирования устраивает, двигаемся дальше. Если не устраивает – еще дообучаем, используя новые примеры.
После того как классификатор определит, что перед ним договор, сервис извлечения фактов должен выдать необходимые реквизиты. Для его обучения тоже используем Machine Learning. Предварительно с помощью внутренних инструментов AVIA размечаем нужные нам реквизиты в договорах из обучающей выборки. Выделяем реквизиты, называем их «Наименование организации», «Контрагент», «Сумма контракта» и т.д., сохраняем разметку и передаем в модель на обучение.
Выборки из 400-450 документов всегда достаточно для качественного обучения AI-сервисов?
Илья Петухов: 400 – средняя цифра. Бывает, что требуется большая выборка. Если говорить о документах жестких форм (паспорта, СНИЛС, ИНН, водительские удостоверения, трудовые книжки и др.), то достаточно 100-150 примеров. Для распознавания формализованных документов (счетов-фактур, актов, товарных накладных и др.) модели уже есть. Здесь разве что потребуется дообучение в зависимости от используемых шрифтов и индивидуальных форм документов. На практике такое встречается у 3-4% заказчиков. Это незначительные отклонения и при старте работ верификацию таких форм документов может спокойно выполнить человек.
На каких проектах Directum потребовалась большая выборка документов для обучения интеллектуальных сервисов?
Илья Петухов: Вспоминаю проект в крупной сбытовой компании федерального значения. Заказчик просил настроить распознавание договоров энергоснабжения, предоставил выборку для обучения моделей. Но по итогам тестирования процент распознавания получился невысоким. Дело в том, что форматы документов, на которых проходило тестирование, были мало представлены в обучающей выборке. Мы запросили еще больше примеров, сделав выборку максимально репрезентативной, и только после дообучения получили процент корректности распознавания и извлечения, который удовлетворил заказчика.
AI-решений по распознаванию рукописных документов в России пока нет
Насколько эффективно интеллектуальные сервисы Directum распознают документы невысокого качества, например, ксерокопии и рукописные документы?
Илья Петухов: Прежде чем ответить на этот вопрос, сделаю ремарку. Главное для технологии OCR - это качество скан-копии, возможность ее прочтения человеком. Если пользователь не может прочесть документ, разве можно ждать чего-то большего от машины?
На моей практике были кейсы, когда приходилось иметь дело с документами плохого качества. Например, были бумаги 40-50-х годов, напечатанные на машинке. В таких случаях сервисы искусственного интеллекта проводят предобработку исходных данных – корректируют положение, стабилизируют яркость, контраст, зачищают шумы. Благодаря этому достигается хороший процент распознавания. По нашему опыту, это 40-50% распознанного текста, а следовательно, и извлеченных реквизитов. Скорее всего, можно добиться лучших результатов, просто у нас еще не было подобных запросов.
Что касается интеллектуальных решений по распознаванию рукописных документов, на российском рынке сейчас их нет. По крайней мере, в реестре отечественного ПО подобных продуктов пока не зарегистрировано. Зато есть разработки Сибирского федерального университета по распознаванию изображений рукописных букв русского алфавита, частные эксперименты по обработке рукописных текстов. Пока всё это на уровне исследований, в коммерческую реализацию это не ушло. А вот на зарубежном рынке решения по распознаванию рукописей уже давно есть – как платные, так и бесплатные.
Компания Directum тоже работает в этом направлении. Например, мы обучаем искусственный интеллект распознавать цифры, написанные от руки. Это актуально для писем, где номер и дата состоят из цифр, которые по-прежнему пишутся от руки. Сейчас мы находимся на стадии экспериментов, готовим модели и ищем желающих провести пилоты или тестирование.
Если вам предлагают распознавание рукописного текста, тем более через облачный сервис, нужно понимать, что, скорее всего, искусственный интеллект будет работать в паре с оператором (верификатором). Я это точно знаю, так как у Directum есть подобный сервис 100%-го распознавания, в котором ИИ и человек работают в симбиозе. Аналогичные предложения существуют и у многих коллег на рынке. Участия человека в верификации распознанных рукописных документов наша компания не скрывает, но, понимая тенденции и требования рынка, сейчас мы работаем над тем, чтобы переложить распознавание и рукописного текста полностью на плечи ИИ.
В каких отраслях особенно необходимо «умное распознавание»? Есть ли отраслевая специфика в настройке решения?
Илья Петухов: В компании из любой отрасли работают с документами. Везде ведется официальная переписка, формируется бухгалтерская первичка. Но есть отрасли, в которых объем документов особенно большой. Например, в ритейле, помимо классических актов, счетов-фактур или товарных накладных, каждый месяц формируются тысячи внутренних документов. Чтобы построить с ними оперативную работу, можно либо выделить 50 сотрудников, либо использовать системы «умного распознавания», которые классифицируют документы, маршрутизируют их по ответственным, передают на архивное хранение.
Отдельно выделю финансовый сектор – банки, страховые, лизинговые компании, которые работают с частными лицами и с организациями. При взаимодействии с клиентами у них тоже используется много документов. Банковский сотрудник по одной только заявке может обрабатывать 10 и более документов, а клиент в это время сидит рядом и ждет окончания процедуры. В среднем это занимает 15-30 минут. Но это время можно было бы сократить менее чем до 5 минут, если бы использовались интеллектуальные инструменты, которые распознают информацию, заполняют на ее основе карточку клиента и создают, например, шаблон договора.
Где еще необходимо «умное распознавание», так это в компаниях, в которых имеют дело с различными чертежами, кадастровой и проектно-сметной документацией, генеральными и конструкторскими планами. Сейчас при взаимодействии застройщика и подрядчика документы зачастую готовятся в печатном виде, подписываются от руки и только после этого сканируются и заносятся в информационную систему для дальнейшей работы. Если просто оцифровать чертеж и передать на распознавание в OCR, то на выходе не получишь ничего. Здесь поможет только интеллектуальная обработка. У клиентов есть спрос на распознавание проектно-сметной документации. Задача эта сложная, творческая и очень интересная. Будем с коллегами работать над ней.
Распознать всё: от писем до договоров
Можете ли вы привести показатели эффективности интеллектуальных сервисов Directum на примере конкретных кейсов?
Илья Петухов: Первый кейс – это обработка входящей корреспонденции. Если сегодня секретарь тратит в среднем 5 минут на регистрацию письма, то с применением умной системы распознавания можно сократить это время в два раза. Ускоряется и работа руководителя. Раньше он рассматривал письмо, выносил резолюцию либо согласовывал проект резолюции за 10-20 минут.
С приходом искусственного интеллекта многие шаги делаются без участия человека. Входящее письмо поступает в систему, обрабатывается с помощью AI-сервисов, классифицируется, из него извлекаются реквизиты, заполняется регистрационно-контрольная карточка. После этого на основании полученных данных определяется ответственный и готовится проект резолюции.
Руководитель, получив это письмо, видит контекст переписки, ссылки на предыдущие комментарии, предложенного исполнителя. Ему остается проверить результат работы сервисов искусственного интеллекта, при необходимости внести коррективы и отправить поручение. Только на работе с входящей корреспонденцией руководитель экономит до 30 минут в день. А стоимость обработки одного документа сокращается среднем в 2,5 раза – с 400 до 160 рублей.
Кстати, в 2022 году в Правительстве Удмуртской Республики стартовал проект по внедрению интеллектуальных сервисов Directum для обработки входящей корреспонденции. Это ускорит работу с письмами в 4 раза.
Второй кейс – интеллектуальное сравнение версий договора. Когда от контрагента возвращается договор, важно проверить, не вносились ли в него изменения. Для этого сотрудник сравнивает исходный экземпляр, отправленный контрагенту, с полученным. Все согласятся, что вычитка документа – монотонная процедура, которая в среднем занимает 15-20 минут. Если за день через юриста проходит 15-20 договоров, глаз «замыливается», и есть риск пропустить несоответствие. Применение искусственного интеллекта помогает ускорить эту процедуру до 1-2 минут и исключить из нее человека. Как это работает: AI-сервисы извлекают из договора текстовый слой и сравнивают его с текстовым слоем первой версии. Места, где изменились символы, подсвечиваются. Всё это происходит фоново, пока сотрудник выполняет другие задачи или обедает.
Еще один очень интересный кейс – проверка договора на риски. AI-сервисы извлекают текстовый слой, проводят семантический анализ и выявляют условия, которые может не пропустить юридический отдел, служба безопасности либо бухгалтерия. Также формируется аннотация о надежности контрагента. Это своего рода подсказка, с которой сотрудник работает дальше. Таким образом, искусственный интеллект сокращает время анализа документа в 2 раза.
Уже сейчас сервисы искусственного интеллекта способны на многое, в том числе они позволяют сэкономить время и деньги при обработке документов. Но впереди нас ждет еще больше сложных и интересных кейсов, поэтому в планах у Directum наращивать объемы «интеллектуализации» электронного документооборота.