2022/08/06 14:36:47

Виртуальные помощники

Решения диалоговых цифровых помощников – горячий рынок. Действительно, с помощью соответствующего ПО компании получают возможность сразу «убить нескольких зайцев»: предложить своим клиентам привлекательный «очеловеченный» интерфейс для коммуникаций с компанией и добиться повышения скорости и качества обработки обращений клиентов за счет автоматизации. Каков нынешний IQ таких ИТ-решений, и в каком направлении им еще предстоит совершенствоваться?

Статья входит в обзор TAdviser "Технологии искусственного интеллекта"

Содержание

Инструменты для создания ботов
Диалоговые платформы
- JAICP
- Dialog OS
- Erudite
- CraftTalk
Open-source фреймворки
- RASA
- Deep Pavlov
- Jovo
- BotPress
- JAICF
На пути к тематической универсализации
Направления совершенствования виртуальных ассистентов
На пути к метавселенным
Другие материалы обзора
Другие материалы по теме ИИ

По оценкам IDC, темпы роста инвестиции в создание цифровых помощников относятся к числу самых высоких в ИТ-отрасли. Причем, такого уровня они достигли после того, как компании «распробовали» возможности искусственного интеллекта (ИИ) в процессах обслуживания клиентов и для автоматизации внутренних и внешних рутинных операций.

Существование таких систем стало возможно с развитием очень важного и обширного направления в машинном обучении, которое называется обработка естественного языка (Natural Language Processing, NLP),- говорит Илья Померанцев, руководитель направления ML компании Globus IT.- Работа виртуальных ассистентов обеспечивается «тройкой» основных технологий: распознавание речи (Speech-to-Text), которое применяется в ассистентах, которые способны взаимодействовать с человеком голосом, анализ текста и синтез речи (Text-to-Speech)».

По оценкам Кирилла Петрова, управляющего директора компании Just AI, рынок разговорного ИИ к 2025 г. достигнет объема 561 млн. долл.

Разработчики научились лучше передавать эмоции в синтезе речи, виртуальные персонажи заговорили разными голосами, телефонные секретари встали на защиту пользователей от спам-звонков,- говорит он в статье в журнале Techinsider (февраль 2022 г.).

При этом базовыми технологиями бота являются две основных задачи: классификация текста и распознавание именованных сущностей (Named Entity Recognition, NER), говорит Илья Померанцев:

И только при качественном решении данных задач стоит добавлять последующие улучшения в чат-бот.

Инструменты для создания ботов

Востребованность цифровых ассистентов порождает предложение: сегодня на российском рынке представлено несколько типов систем, предназначенных для создания умных виртуальных помощников: готовые боты, конструкторы ботов, диалоговые платформы, фреймворки.

Использовать готового бота - это самый быстрый способ внедрить виртуального помощника в свой проект, который подходит для небольших и узконаправленных задач и не рассчитан на кастомизацию. Такие боты умеют проводить опросы, модерировать чаты, оформлять заказы, записывать на консультацию или выдавать пользователям нужную информацию по запросу, но всегда готовый бот нацелен на решение задач в конкретном бизнес-сегменте.TAdviser выпустил новую Карту «Цифровизация ритейла»: 280 разработчиков и поставщиков услуг 14.8 т

Компания Just AI создала маркетплейс готовых ботов Solution Store, где можно найти ассистента для узких задач: ЖКХ, ритейла, e-commerce, финтеха и других.

Конструктор ботов представляет собой набор готовых инструментов «из коробки», которые позволяют создавать и настраивать ботов по собственным сценариям без технических навыков и разработчиков. Например, универсальный конструктор Aimylogic компании Just AI включает 30 готовых интеграций и каналов: популярные чаты и мессенджеры, CRM и инструменты аналитики, сервисы для рассылок и т.д. Пользователи могут не только размещать своих ботов в множестве каналов, но и создавать сложные сценарии для чат-бота, запускать массовые обзвоны, автоматизировать работу с входящими телефонными звонками и даже создавать новые навыки для голосовых ассистентов. Например, можно научить бота отправлять изображения и видео, звонить и писать по расписанию, запускать рассылки и др.

Конструктор Aimylogic содержит блок понимания естественного языка (Natural Language Understanding, NLU), который позволяет обучать бота новым смыслам и фразам. Боты Aimylogic умеют общаться на разных языках: русском, английском, казахском, португальском, испанском языках.

В основе конструктора JINNEE, разработанного компанией ISS, лежит базовый набор инструментов, Андрей Куляшов, директор по развитию бизнеса компании ISS:

модуль проверки правописания, который исправляет ошибки, часто встречающиеся в естественном языке;
токенизатор, формирующий понятные для машины крупные текстовые блоки;
модуль лексического анализа, отвечающий за определение значимых последовательностей в тексте;
морфологический модуль, нормализующий слова, выделяющий леммы, а также отвечающий за устранение неднозначностей слов;
модуль синтаксического анализа, устанавливающий связи между словами и группами;
модуль семантического анализа, который выделяет сущности и намерения;
модуль NER (Named Entity Recognition), отвечающий за распознавание в тексте именованных сущностей.

Этот набор инструментов способен решать задачи бизнеса в любой индустрии. При этом конструктор ботов поддерживает широкий функционал: в личном кабинете можно прописывать любые сценарии обработки сущностных запросов и ведения диалогов». Так, виртуальный ассистент HR-отдела берет на себя широкий круг кадровых задач: от подбора кандидатов и первичного анкетирования до экзит-интервью и сбора отзывов о компании. Помимо рекрутинга и онбординга, боты JINNEE занимаются автоматизацией технической поддержки, обработкой входящих запросов, документооборотом, работой с субподрядчиками, продажами и др. Один из чат-ботов JINNEE интегрирован в общероссийскую систему сервисов для работников и работодателей Онлайнинспекция.рф - там он отвечает на вопросы по трудовому праву. На очереди - новые задачи: обеспечение преднастроенных, готовых решений для ритейла, банков, страховых компаний и т. д., которые планируется осуществить в течение текущего года.

Благодаря способности к самообучению NLU-модуль JINNEE точно понимает контекст задаваемых вопросов, говорят в компании ISS. Речь идет о том, что JINNEE распознает сущности и их контекст c помощью NLU-модуля за счет поиска по библиотеке и ключевым словам. Известно, напоминают в компании, что многие из нынешних ботов, ответив на первый вопрос в ветке разговора, контекст тут же «забывают», и даже если следующий вопрос связан с предыдущим, диалог начинается заново, фактически с нуля.

Это чаще всего и раздражает пользователей,- замечает Андрей Куляшов.- Наша задача – внедрить в JINNEE функциональность по удержанию контекста, чтобы бот умел выстраивать длинный последовательный разговор, а не воспринимал каждую последующую реплику как новый запрос.

Интересная функция JINNEE - карта разброса распознавания намерения в запросе, которая ведется в личном кабинете. В компании поясняют: человек обращается к боту, тот отвечает, а насколько точно он это делает, отображается на карте. Таким образом, становится понятно, хорошо ли модуль справляется с этим типом обращений: он дает нужный ответ сразу? Ему требуется уточнение? Или он вообще не понимает, о чем идет речь? Увидеть это можно наглядно на визуализированной карте: если расстояние между ответом бота и необходимым ответом достаточно велико, значит, именно в этой сфере нужно поработать, обучить бота новой лексике, конструкциям. Таким образом, можно непрерывно анализировать бота и улучшать его.

Еще один инструмент улучшения – обратная связь: если предлагать пользователю оценивать эффективность бота после каждого сеанса общения, то можно получить достаточно данных для выявления проблемных областей.

Важный аспект бота – умение взаимодействовать с несколькими информационными системами одновременно, получая из них нужные данные. С этой целью JINNEE получил продвинутый API, благодаря чему он легко интегрируется с любой CRM-системой или корпоративным порталом.

Не все наши клиенты хотят пользоваться NLU-движком. Часто им нужен сценарный бот, которого можно легко настроить под свои задачи в конструкторе. JINNEE позволяет решать в том числе и такие задачи, - отмечает Андрей Куляшов, ISS.

Сценарные боты позволяют быстро решать линейные бизнес-задачи: «поймать» клиента в момент коммуникации, добыть его контакт и ответить на популярный вопрос, например, остались ли в магазине смартфоны красного цвета.

Платформа VoiceBoх, разработанная компанией МТТ, позволяет собрать робота в зависимости от специфики и потребностей конкретной организации. Робот собирается из готовых функциональных блоков: входящие и исходящие вызовы, распознавание и синтез речи, интерактивное меню, логическая обработка, переадресация, интеграция с внешней базой данных. Голосовой робот может быть интегрирован с большинством CRM-систем, например, Битрикс24 или amoCRM, что позволяет оперативно формировать отчеты и повышать качество обслуживания.

В мае в Институте международных экономических связей (ИМЭС) заработал голосовой помощник абитуриентов, созданный на платформе. Голосовой робот звонит тем, кто оставил заявку, и выясняет, актуально ли для него получение образования, а также нужна ли ему консультация специалиста приемной комиссии. В режиме реального времени цифровой ассистент отправляет информацию в базу данных вуза и формирует отчет, помогая членам приемной комиссии расставить приоритеты в дальнейшей работе с абитуриентами.

По словам представителей вуза, цифровой ассистент на пике приемной кампании заменяет до 6 операторов контактного центра.

Большой плюс голосовой системы VoiceBox – это быстрота развертывания и гибкость масштабирования,- комментирует директор по продукту МТТ Иван Артемьев.

В зависимости от потребностей организации система может автоматизировать диалоги и с десятками и с тысячами абонентов.

Диалоговые платформы

Диалоговые платформы включают набор всех сервисов и решений для прототипирования, разработки, тестирования, развертывания, контроля качества и последующей поддержки диалогового решения ан протяжении всего его жизненного цикла. Они рассчитаны на то, что работать с ними будут ИТ-профессионалы: платформы обычно предоставляет возможность разрабатывать сценарии, в том числе, на языках программирования. Важно, что они обладают развитой функциональностью управления множеством веток сценариев и дают возможность развертывать разговорные решения корпоративного уровня.

Нередко у поставщиков таких решений есть собственные решения обработки естественного языка (Natural Language Processing, NLP), другие дают возможность подключать внешние сервисы: NLU, ASR (Automatic Speech Recognition), TTS (Text To Speech).

В некоторых платформах NLU позволяет использовать только простейшие паттерны, в других — глубоко обучать сложные модели,- рассказывает Кирилл Петров.- Если не хватает возможностей встроенного сервиса, здорово, если в платформе есть API для подключения других NLU к своему проекту.

Платформенные вендоры утверждают, что дают возможность создавать ботов- ассистентов в различных предметных областях и навыки для них с разветвленной логикой и чит-чатом («болталкой»).

JAICP

JAICP – разработка компании Just AI – платформа со встроенным NLU-сервисом для разработки мощных ИИ-ботов: чат-ботов, виртуальных операторов, голосовых ассистентов и навыков для них. Вендор позиционирует JAICP как инструмент для создания сложных разговорных решений: умных чат-ботов, голосовые игры, навыки для умных колонок и голосовых ассистентов (например, Алисы).

JAICP интегрирован с собственным NLU-ядром CAILA, которое позволяет ботам понимать естественную речь. Управление логами диалогов дает возможность как дообучать NLU прямо из интерфейса JAICP, а также загружать обучающие выборки, чтобы на старте проекта обучить NLU лучше распознавать намерения клиентов.

Dialog OS

Профессиональная платформа для создания интеллектуальных голосовых и текстовых роботов, разработанная компанией «Наносемантика». Использует гибридную модель Rules + ML, комбинирует Machine Learning и нечеткий поиск с применением правил.

Ключевым преимуществом гибридной модели Rules + ML является возможность работы с любым языком, говорят в компании.

Это означает, что применяемые технологии не зависят от требуемого естественного языка. Хоть эскимосский: если найдется материал для разработки базы знаний, то движок диалога будет работать с получившейся базой,- рассказывает Станислав Ашманов, генеральный директор компании «Наносемантика».

Конечно, базу знаний бота в любом случае придется разработать. Например, подготовить датасеты для обучения нейросети или в явном виде описать модели потенциальных входящих реплик («правила»). Эту работу на платформе DialogOS может выполнять человек, не обладающий ИТ-квалификацией.

Правда, совместное использование правил и машинного обучения на практическом уровне связано с некоторыми сложностями, комментирует Станислав Ашманов:

Основная проблема совмещения ML и rule-based заключается в том, что эти системы выдают результаты в абсолютно разных измерениях. Rule-based считает количество совпадений по словам в шаблонах с учетом коэффициентов, которые зависят от контекста диалога и повышают или понижают вес шаблону-кандидату. А ML выдает вероятности от 0.0 до 1.0 для каждого узла. Наша система приводит эти показатели к одной шкале по специальной формуле и ранжирует кандидатов.

Платформа DialogOS не требует обязательного наличия массива данных до начала работы над виртуальным ассистентом. Все данные можно построить с нуля при работе в платформе DialogOS над конкретным ассистентом, говорят в компании.

Конечно, лучше если у разработчика ассистента есть логи реальных разговоров с клиентами,- замечает Станислав Ашманов.- Но если их нет, он может быстро «из головы» набросать в платформе по 10-15 примеров реплик на заданную тему и на этом минимальном наборе уже получить обученную нейросеть и бота, который может общаться с клиентами.

Платформа поддерживает функционал работы с намерениями пользователей. Они описываются в виде правил и сопровождаются примерами конкретных фраз, связанных с этими намерениями. Предусмотрена также возможность просматривать историю коммуникации пользователей с виртуальным ассистентом и производить разметку намерений.

На платформе также имеются инструменты для отладки обучения. Например, таблица потенциальных конфликтов интентов, а также возможность увидеть информацию о наборе интентов-кандидатов для конкретной реплики, NER-кандидатов и их весах.

Erudite

ИИ-платформа Erudite для создания диалоговых роботов и управления их работой создана компанией Naumen. Комфортный и естественный диалог с роботом реализуется благодаря NLU-движку и машинному обучению, рассказывают в компании.

Реализовано доменное предобучение на русскоязычных корпусах данных для улучшения качества понимания естественного языка в проектах различной тематики. Предобработка реплик в диалоге реализована с помощью токенизации на базе алгоритма BPE. Для коррекции правописания используется машинное обучение. Возможно обучение робота на данных заказчика для развития навыков работы с узкоотраслевыми тематиками.

Для понимания смысла текста и реплик используются модели encoder-decoder, для классификация интентов (намерений) – алгоритм BERT. Для извлечения фактов из запросов клиентов применяются двунаправленные рекуррентные (bidirectional LTSM) и сверточные сетей (CNN) с блоком внимания.

Платформа Erudite реализует гибридный подход к обучению, сочетая машинное обучение и методы, основанные на правилах (rule-based), что обеспечивает полный контроль над диалоговыми роботами и возможность вносить коррективы в их работу в сжатые сроки.

Источник: компания Naumen

Большей прозрачности машинного обучения удается достичь за счет применения методов LIME и LRP, что позволяет визуализировать работу ML-модели, сделать логику и действия робота доступными для интерпретации и понимания, а также оценить влияние тех или иных обучающих примеров на его поведение.

Платформа содержит готовые к использованию диалоговые модули для быстрого старта и масштабирования, реализована преднастроенная работа с распространенными типами фактов и интентов (дата и время, согласие и отрицание, запрос оператора, города и страны).

Имеется также встроенный модуль социального чата для распознавания реплик, не связанных с темой консультации, и механизм плавного возвращения клиента к основному предмету диалога. Готовые фрагменты сценариев можно повторно переиспользовать без повторной настройки.

Роботы на платформе Naumen Erudite могут решать различные задачи:

обработка входящих звонков и чатов (консультант по продуктам и услугам, прием показаний счетчиков, HR-поддержка, суфлер для операторов Call-центров);
исходящие обзвоны (трекинг заказов и объектов, проверка баланса, техподдержка);
замена IVR в контактном центре (поиск адресов и объектов, оформление заявок и документов, заказ такси).

Обучение бота подразумевает не только подготовку данных и обучение работе с фактами и интентами, но и автоматическое объединение исторических диалогов в кластеры по ключевым словам, разметку обучающих диалогов и составление иерархического дерева тематик для классификации запросов, а также обучение робота распознаванию и интерпретации интентов и фактов в репликах собеседника. Поддерживается регулярное обучение бота на реальных «боевых» данных из отработанных диалогов.

В мае интеллектуальный чат-бот Naumen заработал в контакт-центре Федерального Казначейства России в чате личного кабинета на портале ГАС «Управление». Чат-бот круглосуточно предоставляет консультации по работе с порталом и проблемах при авторизации, а также помогает оформлять заявки на получение технической поддержки. Кроме того, чат-бот отвечает на часто задаваемые вопросы пользователей, например, про продление ЭЦП, заполнение и подачу отчетов, возможности ГАС «Управление» и особенностях работы с порталом..

CraftTalk

Платформа CraftTalk, разработанная одноименной компанией, - это решение «все в одном» для предоставления сервиса через чат с автоматизацией на основе базы знаний и искусственного интеллекта.

Платформа поддерживает развитый функционал омниканальности: коммуникации с клиентами возможны через чаты на сайте, в мессенджерах, социальных сетях и по электронной почте. При этом, как говорят в компании, платформа полностью готова для использования в контакт-центре: организация очередей для обработки обращений, работа в режиме высоких нагрузок с оптимизацией простоя оператора, рабочее место оператора и супервизора с детальной статистикой работы операторов и искусственного интеллекта по чем более 50 показателям.

Отдельный продукт – База знаний 2.0 – служит омниканальным источником знаний не только для людей, но и чат-ботов: содержит готовые ответы для чат-ботов и информацию для машинного обучения, помогает создавать сложные сценарии. Их могут разрабатывать в визуальном редакторе обычные сотрудники контакт-центра без программирования, даже если сценарии содержат сложную логику и интеграции с другими сервисами.

Реализована автоматизация обработки повторяющихся вопросов: чат-бот обучается у операторов, как отвечать на вопросы клиентов, и после этого может самостоятельно отвечать клиентам или работать интеллектуальным помощником оператора. Это свойство, отмечают в компании, помогает успешно справляться с пиками трафика обращений: благодаря увеличению доли повторяющихся вопросов, степень автоматизации вырастает до 70-80%.

Это поможет контакт-центру пережить даже 10-кратный рост трафика без привлечения дополнительных операторов,- утверждают специалисты CraftTalk.

В конце мая компания CraftTalk объявила о создании онлайн-чата для платформы личных финансов «Финуслуги», созданной Московской биржей. Онлайн-чат предназначен для консультаций физических лиц по всему спектру сервисов «Финуслуг».

Сергей Будник, директор по продукту платформы «Финуслуги» Московской биржи, поясняет выбор продукта:

Сегодня наш главный канал онлайн-общения с пользователями – различные мессенджеры. Поэтому мы выбрали для внедрения чат-платформу CraftTalk, которая помогла организовать омниканальную коммуникацию в чатах не только на портале, но и в двух наиболее популярных мессенджерах – Telegram и WhatsApp.

Через открытый АPI осуществляется интеграция платформы с CRM, личным кабинетом, сайтом и другими системами Московской биржи. Выполнена также объемная работа по настройке комплексной аналитики, говорит Сергей Будник. Она помогает в работе оператору и группам экспертов по конкретным тематикам и дает общую картину по результативности контакт-центра его супервизорам и руководителям.

Развитая поддержка омниканальности стала основанием для выбора платформы CraftTalk для создания чат-бота для клиентской коммуникации компании «Ингосстрах». Сегодня, согласно исследованию SDI 360), «Ингосстрах» - единственная в России крупная страхования компания, которая оказывает клиентам поддержку во всех основных мессенджерах. «Ингосстрах» использует сценарные чат-боты во время получения обращения клиента, а его алгоритм представляет собой дерево с большим набором ветвей-сценариев.

Помимо уточняющих вопросов чат-бот может дополнительно запрашивать документы, необходимые для дальнейшей консультации.

Open-source фреймворки

Фреймворк для разработки виртуальных ассистентов на базе СПО – это бесплатный инструмент, предназначенный для профессиональных разработчиков. Он позволяет описывать логику сценариев, не ограничиваясь архитектурой диалоговых платформ и других решений. Разговорные ИИ- фреймворки доступны для разных языков программирования: Python, Kotlin, Jovo и т.д. Их возможности ограничиваются только возможностями языка программирования, для которого они создаются, отмечает Кирилл Петров:

Это позволяет гибко работать с классами и форматами ввода и вывода данных, изменять код под цели проекта и кастомизировать ответы автоматически, в зависимости от класса.

Он добавляет:

Код, написанный с помощью фреймворка, необходимо разместить в среде выполнения самостоятельно. Для этого можно использовать свои собственные сервера в облаке или контуре или воспользоваться платформой, которая возьмет на себя все задачи по хостингу, масштабированию и балансировке. То же касается NLU-моделей. Если сценарий виртуального ассистента использует в своей работе понимание естественного языка, такие NLU-модели также необходимо размещать в среде выполнения и, соответственно, масштабировать и балансировать нагрузку.

RASA

Инструментарий с открытым кодом, построенный на Python, который разработчики проекта называют чат-ботом третьего поколения: он не просто ходит по графу состояний, а умеет сохранять и использовать контекст предыдущего диалога.

Блок RASA NLU включает функционал распознавания сущностей и выявления намерений. Для выявления сущностей используется подход, основанный на разработанном в Стенфорде методе Conditional Random Fields. Определение намерения базируется на модифицированном алгоритме StarSpace от Facebook, реализованном на Tensorflow. При этом не используются предобученные модели векторных представлений слов, что позволяет обойти ограничения данных представлений, замечает специалист Parallels в корпоративном блоге на Habr:

Например, определение намерения в алгоритмах RASA будет хорошо работать для любого языка, а также с любыми специфическими словами, которые вы укажете в обучающих примерах. При реализации же через предобученные векторные представления вроде GloVe или word2vec локализация бота и его применение в узкоспециализированных областях принесет достаточно много головной боли.

Важная часть данного фреймворка - RASA Stories, примеры реальных диалогов с ботом, отформатированные в формате «Намерение-Реакция». На основе этих историй обучается рекуррентная нейросеть (LSTM), которая сопоставляет предыдущую историю сообщений в требуемое действие. Это позволяет не задавать графы диалогов жестко, а также не определять все возможные состояния и переходы между ними, рассказывают в Parallels: при достаточном количестве примеров сеть будет адекватно предсказывать следующее состояние для перехода вне зависимости от наличия конкретного примера.

Deep Pavlov

Проект DeepPavlov, разработанный в Лаборатории нейронных систем и глубокого обучения МФТИ, – это библиотека для создания виртуальных ассистентов и анализа текста, построенная на TensorFlow и Keras. Она содержит набор компонентов для быстрого прототипирования диалоговых систем, которые позволяют автоматизировать процессы коммуникации в различных областях деятельности. Платформа обеспечивает полный цикл разработки диалоговых агентов, предназначенных для автоматизации коммуникационных процессов.

Преимуществом DeepPavlov в сравнении с библиотекой RASA, является гибкость в части конфигурации диалоговых агентов, а также набор предобученных моделей для NLP-задач русского языка.

Библиотека DeepPavlov содержит набор натренированных нейросетевых моделей для анализа текста (ML/DL/Rule-based), компонентов диалоговых систем и пайплайнов, библиотеку для создания и тестирования диалоговых моделей, инструменты прикладной разработки и интеграции (мессенджеры, программное обеспечение служб поддержки и т.д.). Заявляется о поддержке 53 языков.

Модели упакованы в простые в развертывании контейнеры, размещенные на Nvidia NGC и Docker Hub. Мы постарались максимально подробно описать особенности работы с кодом в документации.

Jovo

Фреймворк Jovo построен на TypeScript. Он позволяет создавать голосовые навыки, которые работают на разных устройствах и платформах, включая Amazon Alexa, Ассистента Google, мобильные телефоны, Raspberry Pi и др.

BotPress

BotPress — это разговорная AI-платформа с открытым исходным кодом, построенная на TypeScript. Позволяет создавать проекты, автоматизирующие коммуникации и рабочие процессы в компаниях. В BotPress есть такие удобные функции, как расширенные разрешения и безопасное хранение личных данных. Фреймворк нацелен, главным образом, на разработку ботов, а не голосовых решений. Нет поддержки различных языков.

JAICF

Разработанный российской компанией Just AI фреймворк для разработки разговорных решений JAICF ориентирован на язык Kotlin. Кирилл Петров поясняет, что фреймворк на базе Kotlin идеально подойдет для случаев, когда планируется создать приложение с регулярной потребностью в обновлениях и оптимизации.

Kotlin следует концепции контекстного программирования, поэтому наилучшим образом подходит для создания разговорных решений, где контекст диалога является главной идеей и ценностью,- подчеркивает эксперт.

Фреймворк JAICF предоставляет свободный доступ ко всем профессиональным инструментам, необходимым для разработки полноценной разговорной среды: готовой диалоговой машине, библиотекам, NLU-движкам (встроенному NLU-сервису CAILA и внешним движкам, например, Dialogflow или RASA), системам аналитики и хранения данных, готовым интеграциям с мессенджерами и экосистемами голосовых ассистентов Алиса, Alexa, Google Assistant, Facebook Messenger, Slack, Telegram и т.д.

Модульное тестирование позволяет минимизировать количество ошибок с помощью автоматизированного тестирования сценариев диалога. JAICF использует фреймворки привычного unit-тестирования и возможности Kotlin для удобного и лаконичного DSL. Пример продвинутого использования фреймворков для создания виртуального ассистента - интеллектуальный чат-бот, который компания QSOFT запустила на сайте одного из ведущих автомобильных брендов. Заказчик решил создать универсального помощника с искусственным интеллектом, который способен в удобном формате предоставлять информацию об автомобиле, отвечать на часто задаваемые вопросы, заменить функцию поиска информации на сайте и даже помочь оформить заявку о покупке автомобиля.

Проект был выполнен в несколько этапов с применением Kotlin, JAICF, RASA NLU, Python. В ходе проекта командой внедрения было проработано более 100 сценариев для навигации по сайту. Архитектура диалогов основана на более чем 100 намерениях, каждое из которых представляет собой отдельную ветку сценария диалога, рассказывают в компании QSOFT. Интеллектуальный чат-бот прошел обучение на базе из более чем 3000 тренировочных фраз и диалогов.

Чат-бот учится определять намерение пользователя, контекст и реагировать на высказывания собеседника. В зависимости от ситуации чат-бот может предоставлять оптимальный сценарий клиенту и выдавать более 200 реакций.

На пути к тематической универсализации

По мнению Ильи Померанцева, одной из главных задач, которую сейчас пытаются решить исследователи, работающие в рассматриваемой сфере, является разработка ассистента не ограниченного узкой областью.

Такой ассистент должен уметь общаться как обычный человек, не ограничиваясь заранее подготовленным словарем или набором предложений,- поясняет эксперт.

Но тот разговор, который пытаются имитировать виртуальные помощники и чат-боты, как форма человеческой коммуникации - крайне сложная дисциплина,- говорит Александр Хледенев, директор по цифровым решениям компании «ВС Лаб».- Помимо того, что он фундаментально основан на общих когнитивных способностях нашего мозга, которые ИИ пока непонятно когда воспроизведет, в нем огромное количество форм и аспектов, которые нужно учесть для полноценной имитации. Это, в первую очередь, аспекты вербальных и невербальных форм коммуникации, которые включаются в разговор - контекст, эмоциональная окраска (тон), жесты, выражение лица и пр..

Илья Померанцев отмечает, что с технологической точки зрения, большинство проблем, препятствующих универсальности ассистентов, возникает на стадии распознавания речи и анализа полученного текста.

Остроту проблемы корректного распознавания речи удалось снизить за счет использования подхода, основанного на распознавании элементарных частей (так называемых токенов), с последующим составлением из токенов осмысленного предложения. Причем, такого, который не требует огромных наборов исходных данных и в то же время дает приемлемое качество распознавания. Таким, например, является алгоритм Byte Pair Encoding (BPE).

Но еще большие проблемы возникают в части понимания текста машинами – над ними до сих пор бьются ученые и исследователи. Действительно, даже люди в обычном разговоре не всегда способны правильно понять контекст и, что еще сложнее, извлечь смысловую нагрузку из текста. Получается, что часть аналитической работы, связанная с пониманием языковых конструкций, сегодня неплохо проработана с помощью уже созданных языковых моделей.

Но после того, как мы разберемся с четким пониманием текущего контекста, нужен следующий шаг, Он будет связан с пониманием диалога на более высоком уровне, на котором придется моделировать собеседника, планировать диалог, составлять сценарии диалога на будущее,- говорит Илья Померанцев.

Необходимо добиться более глубокого понимания диалога, а значит, нужно отойти от решения частных задач, которыми занимаются вопросно-ответные системы,- подчеркивает эксперт.

Например, сегодня ведутся активные исследования в таких направлениях, как генерация нескольких альтернативных гипотез, отбор и оценка этих гипотез. Однако на уровне коммерческих решений, предлагаемых на рынке, лучшими вариантами диалоговых (вопросно-ответных) сегодня являются те, что ориентированы на конкретный предметный домен, уверен Илья Померанцев. И это несмотря на то, что крупнейшие компании типа «Яндекса» и Google имеют в своем распоряжении огромные наборы данных.

Наличие этих данных, вроде бы, говорит о том, что у них есть возможность разработки ассистента, способного поддерживать беседу, близкую к человеческой. Но стоит подольше пообщаться с такими системами и становится понятно, что в ситуациях, которым их заранее не обучили, они будут давать общие ответы, а в некоторых случаях даже говорить, что не понимают собеседника,- отмечает Илья Померанцев.

Сегодняшний же наш опыт коммуникаций с чат ботами и ассистентами, заключается в том, что в массовом порядке мы «общаемся» вовсе не с Алексой или Алисой, а с представителями их первого поколения, так называемыми, rule-based или транзакционными ботами,- замечает Александр Хледенев.- Понять это мы можем, когда нас просят нажать одну из кнопок, ответить стандартными фразами текстом или голосом. В логику таких ботов «зашиваются» действия по разработанным скриптам и правилам. Их «интеллект» заключается в распознавании нашего запроса (голосом или текстом), определении в нем ключевых слов, уточнении намерений и далее выполнении программы или поиск ответа в базе знаний.

Проекты с обучением таких ботов могут занимать до полугода, но они способны выполнить только простейшие операции, характерные для Call-центра или службы поддержки, замечает Александр Хледенев, хотя и могут быть выгодными даже на этом уровне.

Более продвинутое поколение помощников опирается на технологии разговорного интеллекта (Conversional AI), Deep Learning и NLP, и способно определять не только намерения, но и контекст диалога, а при наличии доступа к соответствующим данным - поддерживать нелинейные коммуникации. Они, в частности, способны выявлять ошибки, опечатки и «понимают» сокращения.

Такие продукты обучаются на исторических данных реальных коммуникаций, легче масштабирутся на другие сценарии и способны к дообучению на основе обратной связи,- подчеркивает Александр Хледенев.

Когда это поколение ассистентов получит широкое распространение, они точно перестанут раздражать пользователей совей «туповатостью», полагает эксперт.

«Раздражают» - это еще достаточно мягкое определение. Люди часто буквально ненавидят голосовых ботов, даже не попробовав их возможности,- сокрушается Станислав Ашманов.- Но в целом, да, основные претензии к виртуальным ассистентам – это непонимание контекста разговора, недостаточная персонализация общения, отсутствие эмоциональной окраски, «голос как у робота». Мы находимся на стадии развития технологии, когда эти недостатки все еще существуют. Но пути их разрешения уже понятны».

Направления совершенствования виртуальных ассистентов

Одно из ключевых направлений развития виртуальных ассистентов - отслеживание контекста диалога. Например, если пользователь обращается к техподдержке с вопросами про работу в системе «1С», то виртуальный ассистент должен держать этот фокус диалога, то есть в течение всего конкретного диалога он должен «помнить», что обсуждаемая тема – «1С», и все уточняющие вопросы надо в первую очередь расценивать, как вопросы именно по этой теме.

Поэтому вопрос: а что же мне делать с доступом? - это вопрос про доступ к «1С», даже если упоминание «1С» прозвучало несколькими репликами раньше,- поясняет Станислав Ашманов.

И это уже не примитивный диалог в стиле IVR, построенный в форме жесткого дерев, где все варианты ответов озвучиваются голосом и надо последовательно использовать кнопки IVR.

Это уже относительно свободный диалог, схожий с естественным диалогом между людьми,- говорит Станислав Ашманов.

Естественный диалог подразумевает эмоциональную составляющую общения. Попытки анализа психологического состояния человека реализуются сегодня. В идеале ПО бота должно отслеживать его на протяжении всей коммуникации.

Если человек в диалоге «нагревается», проявляет раздражение, то чаще всего правильнее передать диалог человеку, а не пытаться решить проблему клиента с помощью бота,- считает Станислав Ашманов.

Еще одно направление совершенствования цифровых помощников – персонализация диалога. С технологической точки зрения, это направление тесно связано с интеграциями. И они зачастую бывают весьма сложными в настройке.

Чтобы сделать эту часть работы проще для разработчика ассистента, в платформе DialogOS предусмотрен раздел, который позволяет техническому специалисту вписать в него любой код на JavaScript или Python,- рассказывает Станислав Ашманов.- Именно для целей интеграции с сервисом конкретной компании, с настройками которого и методами обращения к которому специалист хорошо знаком.

О другом аспекте персонализации цифровых помощников говорит Леонид Перминов, руководитель направления «Контактные центры» компании CTI в своей статье в журнале PLUS (марте 2022 г.):

В ближайшие годы на рынке может появиться новое поколение персональных виртуальных ассистентов, действующих от имени конкретной персоны,- Боты, обладающие информацией о своих владельцах и выполняющие рутинные операции за них, смогут сберечь клиенту значительные ресурсы. В то же время нельзя не отметить, что в случае появления таких ботов придется решать вопросы, связанные с обеспечением правомочности их действий от имени реальных людей, их верификацией в качестве истинных ботов, разработкой процедур проверки и т. д.,- предупреждает Леонид Перминов.

На пути к метавселенным

Идея глубокой персонализации умных виртуальных личностей уводит прямиком в пространство метавселенных. Сначала метавселенную представила компания Meta, затем Baidu рассказала о цифровом мире Xiang, населенном виртуальными персонажами.

Очевидно, что новые «цифровые двойники» людей (Human Digital Twins, HDT станут достаточно полными копиями породивших их личностей, гораздо более полными, чем те, что используются в компьютерных играх,- рассказывает Тимур Аитов, заместитель председателя комиссии по цифровым финансовым технологиям ТПП РФ на страницах интернет-ресурса Finversia.

Очевидно, что эти двойники будут отражать не только внешние данные человека, но и его внутренние качества – темперамент, склад ума, имеющиеся знания, навыки и т.д.

Все это понадобится двойнику, прежде всего, для моделирования взаимодействия пары «двойников» (робот-робот), вместо привычного нам формата общения (робот-человек). Новая возможность – взаимодействие с себе подобными – сегодня важна не для игр, а для бизнеса, и поэтому обязательно появится в концепции метавселенной Facebook,- подчеркивает экперт.

Возможности для взаимодействующих двойников открываются очень широкие. Так, двойник сможет работать автономно, например, независимо от своего «хозяина» проводить встречи с цифровыми копиями других людей.

В перечень задач такого автономного робота может войти создание консенсуса по спорным вопросам путем перебора существующих вариантов, получение ответов и комментариев других двойников, обсуждение будущих соглашений и проч.,- предполагает Тимур Аитов.

Цифровой помощник сможет не только обрести обширный набор справочных знаний, позволяющий ему замещать своего владельца в ситуациях принятия типовых решений, но еще и получить новые способности, например, знание многих иностранных языков. А потом устроиться на высокооплачиваемую работу в несколько компаний одновременно. Можно предложить еще много вариантов реализации новой среды обитания человеческих двойников – метавселенной, опираясь на современные достижения технологий и многочисленные варианты искусственного интеллекта.

Но вот интересный вопрос: можно ли будет «обмануть» двойника, атаковать его многочисленными методами социальной инженерии, как это происходит сегодня? Можно ли будет выведать его секреты?

Вероятнее всего, «взломать» двойника будет еще проще, чем обмануть пожилого, но все же человека, ведь у человека всегда есть еще и интуиция, которую «привить» роботам непросто. А у двойника – только «совесть», да и то – ненастоящая. Так что, каждый будет решать сам, что можно доверить своему двойнику,- подчеркивает Тимур Аитов.

Если уровень технологической реализации метавселенной нам еще предстоит увидеть в будущем, то на практическом уровне сегодня есть примеры создания сложных комплексных систем с высоким интеллектуальным уровнем. Пример – умные города.

Следующий материал обзора >>>
Главная страница обзора >>>