GigaAM (Giga Acoustic Model)

Продукт

Название базовой системы (платформы):	Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики:	SberDevices (СалютДевайсы, ранее СберДевайсы)
Дата премьеры системы:	апрель 2024 г.
Отрасли:	Информационные технологии

2024: Анонс продукта

В начале апреля 2024 года компания SberDevices представила набор открытых (Open Source) моделей машинного обучения для распознавания речи и эмоций. Доступная всем бесплатно разработка получила название GigaAM (Giga Acoustic Model).

Одна из моделей - Audio Foundation Model - предобучена на разнообразной русской речи. Она подходит для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и др.

SberDevices представила набор открытых моделей машинного обучения для распознавания речи и эмоций

Открытая модель для распознавания русскоязычных запросов GigaAM-CTC, по словам разработчиков, допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с такими популярными решениями как NeMo-Conformer-RNNT и Whisper-Large-v3.Обзор российского рынка банковской цифровизации: импортозамещение, искусственный интеллект и собственные экосистемы 6.9 т

Еще одна модель из набора GigaAM называется GigaAM-Emo. Эта акустическая модель для определения эмоций, как утверждают в SberDevices, продемонстрировала лучший результат на крупнейшем датасете Dusha среди известных моделей.

Все модели размещены в открытом доступе с некоммерческой лицензией и могут быть использованы для подготовки дипломных работ и научных статей. В SberDevices добавляют, что улучшенные версии этих моделей бизнесу доступны на платформе компании для синтеза и распознавания речи SaluteSpeech API, а физические лица могут ими воспользоваться в приложении SaluteSpeech App.

Как отметили в компании, одной из проблем машинного обучения является сбор обучающих данных. Для задач речевых технологий данный вопрос стоит тем более остро, поскольку используемые данные имеют сложную природу. Например, человеку трудно определить по звуковой записи эмоцию спикера и разобрать содержание речи в шумных условиях, поэтому одну и ту же аудиозапись могут размечать несколько экспертов. Это замедляет процесс разметки и повышает его стоимость. Модели GigaAM решают эту проблему.^[1]