Логотип
Баннер в шапке 1
Баннер в шапке 2

Fugatto (Foundational Generative Audio Transformer Opus 1)

Продукт
Разработчики: Nvidia (Нвидиа)
Дата премьеры системы: ноябрь 2024 г
Отрасли: Индустрия развлечений, досуг, спорт

2024: Анонс продукта

25 ноября 2024 года компания Nvidia представила модель генеративного искусственного интеллекта (ГенИИ) под названием Fugatto, предназначенную для создания различных звуков по текстовому описанию. Разработчики описывают новую нейросеть как «швейцарский армейский нож для звука».

Модель Fugatto (Foundational Generative Audio Transformer Opus 1) может на основе текстовых подсказок генерировать новые или модифицировать существующие музыкальные, голосовые и звуковые файлы. В качестве входных инструкций может быть введена фраза вроде «ливень с нарастающими раскатами грома» или «собачий лай в трубе». Нейросеть способна формировать музыкальные фрагменты на основе простого описания, удалять или добавлять музыкальные инструменты в существующую композицию, изменять акцент или эмоцию в голосе и пр.

Выпущен бесплатный ИИ-аудиогенератор, который создаёт звуки по описанию

«
Мы хотели создать ИИ-модель, которая понимает и генерирует звуки так же, как это делают люди, — говорит Рафаэль Валле (Rafael Valle), менеджер по прикладным аудиоисследованиям в Nvidia и один из участников проекта.
»

Fugatto — это генеративная модель-трансформер, которая основана на результатах предыдущих работ в таких областях, как моделирование речи, аудиокодирование и анализ аудиоматериалов. Новинка использует 2,5 млрд параметров. При обучении применялись высокопроизводительные системы Nvidia DGX на основе графических процессоров H100 Tensor Core.TAdviser выпустил новую Карту «Цифровизация ритейла»: 280 разработчиков и поставщиков услуг 15.5 т

Ожидается, что Fugatto найдет применение в разных сферах. Например, музыканты и исполнители могли бы использовать ИИ-модель для быстрого прототипирования или редактирования песни, пробуя разные стили, голоса и инструменты. Разработчики видеоигр смогут применять Fugatto для генерации вариаций звуков и пр. Модель может использоваться при создании персонализированных инструментов для изучения языка.[1][2]



СМ. ТАКЖЕ (1)