Проект

«ТВ Центр» перевел из аудио в текст 77 тыс. часов видеоконтента

Заказчики: ТВ Центр

Москва; СМИ, теле- и радиовещание

Подрядчики: Яндекс (Yandex)
Продукт: Yandex Cloud Услуги виртуальной вычислительной инфраструктуры

Дата проекта: 2022/04 — 2022/10
Технология: IaaS - Инфраструктура как услуга
подрядчики - 218
проекты - 1241
системы - 441
вендоры - 230

2022: Перевод из аудио в текстовый формат большого медиаархива

24 ноября 2022 года федеральный телеканал «ТВ Центр» сообщил о том, что перевел из аудио в текстовый формат большой медиаархив на облачной платформе Yandex Cloud. Это 50 терабайт или более 70 тысяч часов телепередач, сериалов и документальных фильмов. За счет транскрибирования телеканал настроил быстрый поиск по архивам и стал эффективнее использовать медиаконтент.

Ранее видеоархивы обрабатывали сотрудники телеканала. Они вручную размечали контент специальными поисковыми тегами, поэтому полнота и качество разметки были очень низкими. Для обработки 77 тысяч часов видео им понадобилось бы не менее 13 лет непрерывного просмотра. В облаке «ТВ Центр» не только упростил поиск по архивам для сотрудников, но и сократил количество инцидентов, связанных с неправомерным использованием контента.

Для транскрибирования контента телеканал использует облачный сервис синтеза и распознавания речи Yandex SpeechKit. Технология позволяет генерировать теги для поиска контента по событиям, локациям, именам. За один месяц удалось транскрибировать весь архив и настроить автоматическую обработку нового контента. В будущем «ТВ Центр» планирует настроить поиск контента по времени года, погоде и составу съемочной группы.