2023/10/24 13:46:24

Знакомый голос: Как сделать кастомного войс-бота всего за 5 шагов

Банки, ритейлеры и телеком-компании уже давно активно используют ботов для коммуникации с клиентами. Они позволяют значительно автоматизировать рутинные процессы, забирая на себя значительную часть работы: например, виртуальные ассистенты могут ответить на наиболее распространенные вопросы пользователей и проинформировать их о новых маркетинговых предложениях. Чтобы клиенты были более расположены к общению с ботами, их можно сделать более уникальными — например, заказать для них кастомных голос. Благодаря этому речь виртуального ассистента станет похожей, например, на голос известного артиста, или на то, как говорит лучший менеджер по продажам в компании заказчика. Рассказываем, как инструменты MTS AI помогут это сделать всего за пять шагов.

Содержание

Image:Tg_image_3553401551.jpeg

Какой голос можно выбрать?

У MTS AI есть 4 готовых голоса (два мужских и два женских), которые компания предлагает своим клиентам «из коробки». Они уже обучены и проверены, поэтому их интеграция в инфраструктуру заказчика проходит максимально быстро и просто. Также клиенты MTS AI могут заказать разработку уникального кастомного голоса, похожего на речь конкретного человека, будь то известный актер или любой другой человек. Например, для внутренних проектов экосистемы МТС компания планирует использовать кастомные голоса, синтезированные на основе речи актеров дубляжа.

Технически синтезировать голос с помощью нейросетей несложно, однако это потребует немного больше времени, чем внедрение универсального голоса: в среднем весь процесс занимает около месяца, при этом большую часть задач разработчики из MTS AI могут взять на себя.

Заказчик может управлять произношением конкретных реплик и слов благодаря SSML-разметке: для этого их необходимо выделить специальными тегами, например, такими как перед озвучкой текста. С их помощью можно управлять скоростью речи и интонациями, корректировать ударения в словах. Это особенно актуально, например, при озвучивании художественных произведений.

Также заказчику необходимо определиться, нужно ли будет голосовому боту проявлять какие-либо эмоции. MTS AI может синтезировать голоса с пятью разными настроениями, среди них — радость, грусть, злость и другие. В таком случае нейросеть фактически научится синтезировать не один голос, а сразу несколько, и в зависимости от контекста пользователь сможет выбрать подходящий вариант с нужной эмоцией.

Как создать голос на заказ с MTS AI?

1) выбрать голос. Это может быть как профессиональный диктор, так и любой другой человек с хорошей дикцией. Выбор зависит от целей заказчика: например, некоторым хочется удивить клиентов, и для этого они заказывают бота с голосом Диброва или Нагиева. Для колл-центров рекомендуется выбрать голос одного из опытных операторов компании. Живая речь человека звучит более естественно и располагает к себе собеседника. Напротив, даже синтезированную художественную речь диктора будет слышно сразу, и в разговоре она покажется более искусственной.

2) подготовить дата-сет для обучения нейросети. Для этого диктору необходимо записать в студии около 20 часов подготовленного по техническому заданию текста. Важно, чтобы он содержал в себе лексику, которая может потребоваться при синтезе (например, профессионализмы). Если бот будет проявлять в речи различные эмоции, то на каждую из них необходимо записать еще около часа материала с соответствующими интонациями диктора.

В студии непрофессиональные дикторы могут работать с преподавателем по технике речи, который при необходимости поможет скорректировать интонации, произношение фраз и отдельных звуков. MTS AI также может подготовить подходящие материалы для озвучания и организовать запись диктора.

3) дождаться обучения нейросети. После подготовки и проверки материалов начинается процесс обучения ML-модели синтезу нового голоса. Обучение выполняется на супер специальных вычислительных комплексах. При этом участие человека в этом процессе минимально, и он занимает всего несколько дней.

На этом этапе происходит нормализация нейросети — ее обучение фундаментальным принципам произношения текста. ИИ-модель учится верно использовать склонения и падежи, расставлять логические ударения, правильно произносить числительные, сокращения и аббревиатуры, учитывать знаки препинания. Также нейросеть понимает, как работать с омографами – словами, в которых ударение зависит от контекста. Эти нормы не зависят от конкретного заказчика, они относится к фундаментальной модели синтеза речи и по умолчанию распространяются на все нейросети компании.

4) протестировать нейросеть. О конкретных критериях, по которым можно оценить качество синтеза речи, мы расскажем ниже. Обычно для этого достаточно озвучить небольшой объем материала. Если нейросеть разрабатывается для колл-центра, то ее можно протестировать на стандартных фразах операторов компании. Если же она будет использоваться для озвучки художественных материалов, то ее можно проверить на коротких художественных рассказах.

5) интегрировать нейросеть в продукт. Кастомные голоса добавляются в платформу для синтеза и распознавания речи Audiogram. Она может работать как в виде облачного сервиса по модели PaaS (Platform as a Service - платформа как сервис), так и в виде решения, развернутого на мощностях заказчика по модели on premise.

Как проверить качество дата-сетов для обучения?

Для обеспечения высокого качества синтеза речи MTS AI устанавливает требования к работе диктора. Перед чтением текста он должен записать несколько секунд тишины, а также описать условия записи: объем помещения, наличие звукопоглощающих материалов, название микрофона, настройки системы записи и так далее. Также среди основных требований:

При записи диктор должен сохранять одинаковое положение тела и держать расстояние до микрофона около 10 – 20 см;

  • Громкость голоса на всех записях должна быть одинаковой;
  • Диктор должен соблюдать интонирование по знакам препинания текста и правилам русского языка;
  • Диктор должен пропустить фразу, если не уверен в ее произношении или если она вызывает непонимание и отторжение.

После получения материалов MTS AI также оценивает их на соответствие технических параметрам:

  • Формат данных: одноканальный широкополосный сигнал с частотой дискретизации 48 кГц и разрядностью 32 бит. При кодировании файлы должны быть в формате FLAC или PCM, окончательная запись — в linear PCM и WAV;
  • Место и условия записи: отсутствие посторонних шумов, минимальная реверберация голоса;
  • Уровень сигнала записи: рекомендуемый средний уровень сигнала находится в диапазоне от -6 до -12дБ относительно максимального, Уровень отношения сигнал-шум на микрофонном входе при записи в офисе или комнате не ниже +30 дБ;

Любая цифровая обработка сигнала запрещается.

Как оценить качество работы нейросети?

Зачастую заказчики оценивают качество синтеза речи субъективно. На основе собственного опыта они понимают, как должна звучать речь чат-бота, которая понравится клиентам и удовлетворит запросы бизнеса.

Для более объективной оценки клиент может запросить показатели Mean opinion score (MOS) и Side-by-side (SbS). Оба показателя формируются по результатам опроса большой группы респондентов: они прослушивают несколько синтезированных аудиозаписей и оценивают их по множеству критериев, например — общее впечатление, корректность пауз и интонаций и многое другое.

MOS и SbS различаются тем, что первая метрика дает оценку конкретной модели синтеза речи (по шкале от 1 до 5, чем выше — тем ближе запись к человеческой речи), в то время как второй показатель направлен на сравнение нескольких решений (от -2 до +2 относительно модели, с которой проводится сравнение). Среднее значение по всем показателям опроса дает метрику MOS или SbS.

Добиться идеального показателя при оценке MOS почти невозможно: даже естественная человеческая речь обычно оценивается в 4,5 балла. При этом показатель MOS очень субъективен и зависит от конкретных исследователей и респондентов: может отличаться список вопросов в опроснике, количество отвечающих и т.д. Поэтому даже метрику MOS рекомендуется запрашивать в сравнении с другим решением на той же тестовой выборке.