2025/03/11 18:14:41

Искусственный интеллект и создание музыки

По мере развития искусственного интеллекта (ИИ) растет и его потенциал в креативных областях, одной из которых является музыкальная индустрия. Последним трендом, внесенным ИИ в музыкальную индустрию, является сочинение музыки с помощью алгоритмов машинного обучения. Несмотря на то, что «искусственной» музыке еще далеко до произведений великих классиков, алгоритмы уже успели добиться достойных удивления результатов. Данная статья обозревает некоторые существующие на январь 2019 года методы использования ИИ для сочинения музыки и различные по масштабу релевантные проекты: от стартапов до продуктов от технологических гигантов.

Содержание

[Свернуть]

2024
2023
2019: Warner Music заключила первый в истории контракт с исполнителем-алгоритмом Endel
2018
2017: Выход альбома Тэрин Саузерн I AM AI в соавторстве с ИИ
2016: Google запускает Magenta для создания музыки и видео нейронными сетями
Робототехника

Основная статья: Искусственный интеллект

2024

Потери российских правообладателей музыки - ₽8,5 млрд из-за нейросетей

Российские правообладатели теряют ₽8,5 млрд в год из-за распространения музыки, созданной нейросетями. Такие данные 11 марта 2025 года опубликовала Ассоциация музыкальной индустрии (АМИ). В отчете отмечается, что несмотря на рост рынка стриминга на 40% в год, что вдвое выше мировых темпов, использование генеративных алгоритмов подрывает доходы авторов и правообладателей.

По информации пресс-службы Ассоциации музыкальной индустрии, к 2030 году прогнозируемые потери правообладателей увеличатся до ₽11 млрд в год. В организации считают, что урегулировать отношения между авторами охраняемого контента и ИИ-индустрией возможно только на законодательном уровне.

Правообладатели музыки в России теряют ₽8,5 млрд в год из-за нейросетей

В АМИ связывают выпадающие доходы правообладателей с нерешенными правовыми коллизиями, существующими не только в России, но и в мировой практике. Основная проблема заключается в использовании охраняемого авторским правом контента при обучении нейросетей без согласия создателей и без соответствующих выплат.Российский рынок СЭД: актуальные тенденции, новые технологии, крупнейшие поставщики. Обзор TAdviser 12.2 т

Генеральный директор АМИ Валерий Дробыш подчеркнул, что ИИ-индустрия фактически игнорирует интересы авторов. По его словам, все крупные нейросети настраиваются путем использования объектов авторского права без получения разрешения правообладателей, что является прямым нарушением их прав. Это приводит к многочисленным судебным разбирательствам между правообладателями и владельцами ИИ по всему миру, количество которых растет в геометрической прогрессии.

Другой аспект проблемы связан с увеличением доли генеративных произведений, используемых в коммерческих целях различными пользователями. Это касается всех основных каналов распространения музыкального контента: стриминговых сервисов, публичного исполнения (особенно фоновой музыки), а также эфирного и кабельного вещания. В результате авторский контент становится менее востребованным, а доходы правообладателей сокращаются.

Выпущен бесплатный ИИ-аудиогенератор, который создаёт звуки по описанию

25 ноября 2024 года компания Nvidia представила модель генеративного искусственного интеллекта (ГенИИ) под названием Fugatto, предназначенную для создания различных звуков по текстовому описанию. Разработчики описывают новую нейросеть как «швейцарский армейский нож для звука». Подробнее здесь.

В России запустили открытую нейросеть для создания музыки

В июле 2024 года в России запущена открытая нейросеть для создания музыки, разработанная инженерами пермской компании «Дабл Ю Экспо». Новая технология на базе искусственного интеллекта способна генерировать музыкальные произведения в современных жанрах, создавать уникальные тексты песен и настраивать композиции под вкусы целевой аудитории. Подробнее здесь.

Запущена нейросеть, способная генерировать полноценные трехминутные песни

3 апреля 2024 года компания Stability AI представила модель искусственного интеллекта Stable Audio 2.0, которая, как утверждается, устанавливает новые стандарты в области генерации аудиоматериалов. В частности, эта нейросеть способна создавать полноценные треки продолжительностью до трех минут. Подробнее здесь.

Adobe представила «фотошоп» для редактирования музыки и ее создания на основе текстовых описаний

28 февраля 2024 года компания Adobe анонсировала инструмент Project Music GenAI Control на основе генеративного искусственного интеллекта (ГенИИ). Это своеобразный «фотошоп» для редактирования музыки и ее создания на основе текстовых описаний. Подробнее здесь.

2023

Доходы разработчиков ИИ в глобальной музыкальной индустрии за год достигли 100 млн евро

По итогам 2023 года доходы разработчиков искусственного интеллекта в глобальной музыкальной индустрии достигли €100 млн. В перспективе этот показатель будет стремительно расти, о чем говорится в обзоре Международной конфедерации обществ авторов и композиторов (CISAC), опубликованном 4 декабря 2024 года.

Организаторы исследования отмечают, что выручка разработчиков сервисов и приложений на базе генеративного ИИ (ГенИИ) продолжает быстро увеличиваться. Вместе с тем создатели музыки и аудиовизуального контента рискуют потерять значительную долю своего дохода из-за воздействия ИИ-технологий. С одной стороны, генеративные системы предоставляют новые возможности для творчества. Однако, с другой стороны, авторы произведений могут понести убытки по двум основным причинам. Одна из них — потеря доходов из-за несанкционированного использования существующих композиций моделями ГенИИ без выплаты отчислений, вторая — замена традиционного контента материалами, созданными при помощи ИИ.

Доходы разработчиков ИИ в музыкальной индустрии за год достигли 100 млн евро

Исследование показало, что рынок музыки и аудиовизуального контента, создаваемого посредством ИИ, будет расти в геометрической прогрессии, увеличившись с примерно €3 млрд в 2023 году до €64 млрд в 2028-м. При этом, по оценкам, доходы создателей музыки могут сократиться на 24% к 2028 году. В результате, музыканты потеряют примерно €10 млрд потенциальных доходов. Создатели аудиовизуального контента могут лишиться за указанный период 21% выручки, или €12 млрд. Таким образом, совокупные потери отрасли из-за воздействия ИИ к 2028 году оцениваются в €22 млрд.

Говорится также, что переводчики и специалисты в области дубляжа и субтитров могут потерять до 56% доходов, в то время как доходы сценаристов и режиссеров сократятся на 15–20%.^[1]

В России создали нейросеть, позволяющую «дирижировать» воспроизведением классических музыкальных произведений

9 ноября 2023 года Сколковский институт науки и технологий (Сколтех) сообщил о разработке нейросети, которая позволяет любому желающему «настраивать» музыкальные произведения под свои предпочтения. Причем «дирижировать» воспроизведением музыки можно при помощи голоса, жестов и даже мимики.

Система использует модель искусственного интеллекта, которая обучена на общедоступном корпусе из 1067 музыкальных исполнений 236 произведений фортепианной музыки. В качестве входных данных используются ноты: модель учится играть по ним, предсказывая характеристики исполнения — локальный темп, позицию, длительность и громкость. Результатом является исполнение произведения в определенном стиле.

Метки в отрывке партитуры к сонате Бетховена № 17. Синим цветом обозначены указания по темпу, красным и оранжевым — указания по громкости, зелёным – акценты для нот.

Через специальное мобильное приложение пользователь может управлять ИИ-моделью: для этого используются микрофон и камера смартфона или планшета. Чтобы повлиять на исполнение того или иного произведения, достаточно нажать на кнопку и записать видео или аудио. С помощью голосовых команд или выражения эмоций на лице можно попросить ИИ-модель воспроизвести музыку по-другому — например, замедлить темп или сделать из классической мелодии колыбельную.

Для управления моделью мы используем указания к исполнению, которые уже написаны в нотах. В партитурах есть метки, которые указывают исполнителю, как играть ту или иную часть произведения: быстрее, медленнее, громче, тише и так далее. Мы берем все данные, которые есть, и на их основе преобразуем голосовые инструкции пользователя в эти указания, — говорят разработчики.

Нейросеть позволяет человеку, не обладающему навыками игры на музыкальных инструментах, влиять на то, как воспроизводится то или иное произведение классической музыки. В дальнейшие планы создателей входит улучшение интерфейса системы и расширение базы музыкальных произведений. Ожидается, что процесс взаимодействия пользователя и ИИ станет полностью интерактивным.^[2]

ИИ впервые в мире солировал на концерте во Владивостоке

10 сентября 2023 года в рамках Восточного экономического форума во Владивостоке прошел концерт, где искусственный интеллект от «Сбера» стал солистом и импровизатором. Такой эксперимент был проведен впервые в мировой истории. Подробнее здесь.

2019: Warner Music заключила первый в истории контракт с исполнителем-алгоритмом Endel

27 марта 2019 года появилась информация о том, что Warner Music заключила первый в истории контракт с исполнителем-алгоритмом Endel, создающим музыкальные композиции под настроение пользователя в текущий момент. По условиям контракта, в течение года нейросеть Endel выпустит 20 уникальных альбомов. На март 2017 года пять альбомов уже доступны для скачивания в iTunes, при этом все альбомы созданы, как выражаются разработчики, «нажатием одной кнопки».

Endel разработан одноименным стартапом, сооснователем и исполнительным директором которого выступает игровой журналист россиянин Олег Ставицкий. По утверждению разработчиков алгоритма, Endel адаптируется к настроению пользователя и помогает ему в зависимости от поставленных задач — музыка нейросети помогает заниматься спортом, работать, засыпать или медитировать. При этом ИИ сам определяет, что требуется человеку в данный момент, анализируя множество параметров: время суток, геолокацию, погоду за окном, пульс и частоту биения сердца человека.

Мы на пороге затопления рынка системами автоматической и процедурно-сгенерированной музыки, продукт которых удовлетворит большинство людей в большинстве ситуаций, — утверждает аналитик рынка Холли Херндон.

По мнению эксперта, дальнейшая трансформация рынка музыки и шоу-бизнеса будет происходить ускоренными темпами. Как известно, в Китае и Корее концерты полностью виртуальных исполнителей — уже обычное дело, а число фанатов «цифровых» кумиров исчисляется миллионами. Теперь эта тенденция, полагает аналитик, будет распространяться и на более консервативном западном рынке.

2018

На пересечении двух растущих индустрий

Ожидается^[3], что в мировом масштабе доход компаний от использования искусственного интеллекта составит $1,2 трлн по итогам 2018 года, что на 70 процентов больше по сравнению с 2017 годом, а в 2022 году, по прогнозам, эти выгоды достигнут $3,9 трлн. И такой быстрый рост уже далеко ни для кого не тайна: искусственный интеллект можно назвать определяющей технологией 21-го века. Искусственный интеллект отличается от традиционных программ анализа данных своей способностью учиться распознавать шаблоны с помощью алгоритмов машинного обучения, а затем принимать автономные решения на основе этих шаблонов, будучи явно не запрограммированным на это.

В то же время, мировой рынок программного обеспечения для производства музыки, по прогнозам^[4], вырастет до $6,26 млрд к концу 2022 года. Ключевым фактором, который будет стимулировать рост индустрии, является растущий спрос на цифровой аудио-контент во всем мире. Аудио-контент, в свою очередь, набирает популярность в связи с недавно начавшимся ростом^[5] потоковых (стриминговых) сервисов. Это приводит к увеличению числа исполнителей и музыкальных продюсеров, создающих музыкальный контент, что, в конечном итоге, увеличивает спрос на программное обеспечение для сочинения музыки. Алгоритмы ИИ уже несколько лет используются для определения музыкального вкуса и настройки персональных рекомендаций на потоковых сервисах, и на фоне всплеска исследований и инвестиций в технологию искусственного интеллекта в целом, произошел шквал активности^[6] вокруг предмета сочинения музыки с помощью этой технологии. И по прогнозам^[7], ИИ сильно повлияет на процесс создания музыкального контента.

Примеры использования: крупные компании

NSynth Super (Google)

NSynth Super^[8] является частью продолжающегося эксперимента под именем Magenta^[9]: исследовательского проекта в Google, который "изучает, как технология машинного обучения может помочь деятелям искусства творить по-новому" и взглянуть на творческий процесс с другого ракурса.

Различные звуковые эффекты^[10], изменяющие частоту и амплитуду звука, электрические музыкальные инструменты^[11] — всё это примеры других звучаний, созданных с помощью технологий. Теперь в список таких технологий можно включить и машинное обучение, потому что прогресс в этой области открывает нетрадиционные возможности для генерации необычного звучания.

Основываясь на прошлых исследованиях в этой области, Magenta создала NSynth (Neural Synthesizer (прим. Нейронный Синтезатор)) — алгоритм машинного обучения, который использует глубокую нейронную сеть для изучения различных характеристик звука, а затем создает совершенно другое звучание на их основе. По словам разработчиков^[12], вместо того, чтобы комбинировать или смешивать звуки, NSynth синтезирует звук, используя акустические качества оригинальных звуков. Благодаря этому можно получить звук, который является и звучанием флейты, и звучанием ситара, — всем сразу.

Прототип NSynth Super - экспериментального инструмента, способного генерировать новые звуки

С момента релиза алгоритма NSynth, Magenta продолжала экспериментировать с различными музыкальными интерфейсами и инструментами, чтобы сделать вывод алгоритма NSynth более понятным для обывателя и воспроизводимым. В рамках этого исследования они создали NSynth Super в сотрудничестве с Google Creative Lab. Это экспериментальный инструмент с открытым исходным кодом, который дает музыкантам возможность создавать музыку, используя новые звуки, генерируемые алгоритмом NSynth из 4-х различных базовых исходных звуков. Затем прототипом опыта (на фото выше) поделились с небольшим сообществом музыкантов, чтобы лучше понять, как они могут использовать его в своем творческом процессе. Например, можно посмотреть^[13] , как лондонский музыкальный продюсер Гектор Плиммер исследует звуки, сгенерированные NSynth Super.

Звуки, сгенерированные NSynth Super

Как пишут разработчики на своем сайте, "используя NSynth Super, музыканты имеют возможность исследовать более 100 000 новых звуков, сгенерированных с помощью алгоритма NSynth".

Flow Machines (Sony)

Flow Machines^[14], (прим. дословный перевод — Потоковые Машины) — это научно-исследовательский проект, целью которого является расширение границ креативности человека в музыке.

Центральной частью этого проекта является Flow Machines Composer. Пока что это не робот с сознанием, который стремится выразить свои переживания с помощью музыки, но это набор сложных алгоритмов, которые получили свое знание и «чувство» музыки за счет изучения огромной базы данных (15 000 песен).

Чтобы написать песню с помощью Flow Machines Composer, сначала нужно задать стиль мелодии, а затем внутри системы происходит следующее^[15]: алгоритм получает выборку песен с похожим стилем, запускает аналитическую модель, известную как цепь Маркова, которая идентифицирует шаблоны в этих выборках, а затем имитирует и изменяет их, чтобы создать свою собственную оригинальную композицию.

Далее компьютер вычисляет вероятность определенных аккордовых прогрессий^[16], мелодических связей и ритмических рисунков^[17], и использует эти вероятности для создания правдоподобных и звучащих удачно (с точки зрения музыки) вариаций.

А вот на следующем этапе сочинения, система требует вмешательства человека. Пользователь может сохранить понравившуюся часть получившейся мелодии, и отказаться от остального, а затем снова запустить программу в ожидании следующих удачных сгенерированных вариаций. И так можно делать до тех пор, пока не появится мелодия и последовательность аккордов, которыми вы будете довольны.

В сентябре 2016-го года Flow Machines представили свету свой сингл "Daddy's Car" — это достаточно оживленная поп-песня, основанная на выборке мелодий Beatles^[18].

Сингл "Daddy's Car"

Примеры использования: стартапы

AIVA

AIVA^[19] (Artificial Intelligence Virtual Artist)— это стартап, базирующийся в Люксембурге и профинансированный в размере 768 000$^[20], цель которого, как пишут разработчики на своем сайте^[21],— это «дать возможность людям создавать персонализированные саундтреки с помощью искусственного интеллекта». По словам разработчиков, AIVA способна сочинять эмоциональные саундтреки для фильмов, видеоигр, рекламных роликов и любого другого типа развлекательного контента.

AIVA изучила искусство сочинения музыки, «прочитав» большую коллекцию музыкальных партитур, написанных композиторами (Моцартом, Бетховеном, Бахом и др.), и «создала математическую модель представления того, что такое музыка»^[22]. Именно эта модель и используется для сочинения современной музыки. Стоит упоминания тот факт, что недавно AIVA стала виртуальным композитором, чьи работы были зарегистрированы в обществе авторских прав (SACEM^[23]). Одну из этих работ можно послушать ниже^[24].

AIVA - "Genesis" Symphonic Fantasy in A minor, Op. 21

Popgun

Запущенный в январе 2017 года, австралийский стартап Popgun, как сообщается^[25], использует глубокое обучение для создания музыкального искусственного интеллекта, который сможет "дополнять" исполнителей в режиме реального времени.

Проектом Popgun стал искусственный интеллект Alice, который может предсказать, что музыкант будет играть дальше, подыгрывать ему, и даже немного импровизировать на музыкальную тему партитуры музыканта-человека.

Всему этому Alice научилась не сразу, а постепенно: лучше всего это отобразит видео^[26], которое показывает эволюцию технологии с января 2017 года по июль 2018 года. Видео начинается с того как искусственный интеллект Alice демонстрирует свои навыки прогнозирования: музыкант играет короткие мелодии на фортепиано, и Alice отвечает тем, что по ее предположению музыкант будет играть дальше.

Искусственный интеллект Alice может "дополнять" исполнителей в режиме реального времени

К августу 2017 года Alice была способна на импровизацию: т.е сначала она прослушивала последовательность нот, сыгранную человеком, а затем изменяла её, но при этом сохраняла главную музыкальную тему. К концу года Alice могла в различных стилях создавать оригинальные фортепианные композиции без участия человека.

На январь 2019 года Popgun имеет искусственный интеллект (или, лучше сказать, группу искусственных интеллектов), который может подыграть человеку на пианино, на басу или на барабанах (или на всем сразу). Если же мелодия снабжена человеческим вокалом, то разработанный алгоритм может сочинять подходящую инструментальную партию, а также сводить несколько музыкальных отрывков в один и производить финальную обработку звучания.

Будущее искусственного интеллекта для сочинения музыки

Всё это, конечно, удивительно, однако же имеющиеся технологии далеки от того, чтобы искусственный интеллект обладал способностью создавать что-то принципиально новое: машина может пропустить через себя огромный объём данных, и «понять» как можно сделать и как уже было сделано, но она не может загореться внезапным приступом вдохновения и воплотить свою творческую задумку. Мелодии, сочиненные искусственным интеллектом, все еще нуждаются в том, чтобы человек приложил к ним руку в отношении теории музыки, музыкального производства и оркестровки. Иначе же они будут звучать немного непривычно и достаточно сумбурно для человеческого уха.

Большой проблемой для искусственного интеллекта является понимание творческих и художественных решений (однако же иногда это является проблемой и для экспертов в области музыки). Кроме того, машины по-прежнему не обладают неуловимым творческим началом, являющимся жизненно необходимым для создания искусства. В целом, ИИ-эксперты согласны, что искусственный интеллект никогда не сможет заменить человека на поприще создания музыки, но, как упоминалось выше, сможет значительно изменить весь процесс.

2017: Выход альбома Тэрин Саузерн I AM AI в соавторстве с ИИ

Американская певица Тэрин Саузерн выпустила летом 2017 года сингл Break Free, который открывает её новый альбом I AM AI – «Я – искусственный интеллект». В официальном анонсе было указано, что весь альбом, включая этот трек, создается в соавторстве с неизвестным публике музыкантом Amper. Однако не вызывающий на первый взгляд никаких подозрений творческий дуэт оказался вовсе не тем, что можно было ожидать^[27].

Проект Amper – искусственный интеллект, результат совместной работы технических специалистов и профессиональных музыкантов. Он способен писать, исполнять и продюсировать музыку. Ампер – первый в истории искусственный интеллект, выпустивший собственный музыкальный альбом.

Ампер является уникальным в своем роде. ИИ, генерирующие музыку, существовали и до него, однако ранние модели работали по определенному алгоритму и итоговый продукт требовал серьезной переделки человеком, вплоть до изменения аккордов и целых частей мелодии, прежде чем мог считаться полноценным музыкальным произведением.

Ампер же не нуждается в помощи, когда создает собственные треки – он самостоятельно подбирает необходимые звуки и выстраивает структуры аккордов. Обрабатывающему полученную в итоге мелодию человеку остается только подкорректировать ритм и стилистику – все остальное Ампер делает сам всего за несколько секунд.

2016: Google запускает Magenta для создания музыки и видео нейронными сетями

В мае 2016 года компания Google даже запустила специальный проект Magenta, основная задача которого заключается в изучении креативных возможностей нейронной сети. Ученые планируют осваивать премудрости творческого процесса постепенно: сначала будет разработан алгоритм для создания музыкальных произведений. Затем настанет очередь видео и изобразительного искусства. Данные о результатах работы планируется размещать в открытом доступе на GitHub.

«Есть несколько причин, по которым я захотел сформировать Magenta, и одна из них заключалась в желании увидеть полноценные, честные и удивительные улучшения в искусстве глубинного обучения», - говорит руководитель проекта Дуглас Экк^[28].

Буквально через пару недель после открытия Magneta, была запущена программа по импорту музыкальных файлов MIDI-формата в систему TensorFlow с целью обучить искусственный интеллект созданию музыки. Однако пока результаты работы программы не столь удачны (хотя справедливости ради нужно сказать, что прошло еще не так много времени).