Медиа будущего: какие нейросети уже сегодня можно использовать в СМИ
Сегодня все больше людей понимают, что за нейросетями будущее, и что на них можно делать вещи, которые раньше были невозможны. Как и любой инновационный продукт - широкой аудитории нейросети кажутся чем-то малоприменимым, но любопытным. Они умеют писать музыку, обрабатывать и генерировать изображения, выделять главное, озвучивать текст, поддерживать несложный диалог. Но после первого восторга все наиграются, и новинка станет рабочей обыденностью во всех сферах. Например, специально для СМИ было отобрано несколько способов потенциального применения нейросетей для решения реальных задач.
В данной статье представлены результаты исследования экспертов, которые, опираясь на свой многолетний опыт работы в онлайн-СМИ, проанализировали: что могло бы упростить журналистам работу, улучшить качество материалов и повысить эффективность бизнеса.
Основные статьи:
Генерация изображений на основе контекста материала
Изображения в новостях или постах в соцсетях привлекают внимание. Текст без картинок, каким бы интересным он ни был, по статистике читается меньше, чем текст с любой картинкой. Поэтому журналисты ежедневно тратят минуты и часы в поисках тематических изображений в фотобанках. Такие фото не имеют прямого отношения к новости и загружаются только для красоты. Почему бы не поручить генерировать тематические изображения к новостям или постам нейросетью?
Использование нейросетей для генерации изображений может значительно сократить время, затрачиваемое на подбор картинок к статьям.
Однако без опыта работы генеративными сетями затраты времени у журналиста будут сопоставимы с трудозатратами на поиск по фотобанкам: вместо формулирования ключевых слов для фотобанка нужно будет написать prompt (или «подсказки», прим. TAdviser), а вместо выбора подходящего результата поиска - дождаться генерации, при необходимости переформулировать запрос, повысить качество и скачать результат.Обзор российского рынка банковской цифровизации: импортозамещение, искусственный интеллект и собственные экосистемы
В пользу нейросетей говорит также то, что сгенерированные изображения обладают высокой оригинальностью, привлекают внимание, часто получаются довольно красивыми, не нарушают авторские права и дешевле покупки лицензий у авторов. А встраивание алгоритма непосредственно в административную панель сайта с автоматизацией создания запроса к нейросети на основе выделенного контекста материала (который может написать другая нейросеть, выделяющая смыслы) - может свести трудозатраты журналиста к значениям, близким к нулю: до пары кликов мышью.
В таблице ниже приведен список продуктов и их сравнительные характеристики. Данный список не является исчерпывающим, и существуют другие продукты и алгоритмы генерации изображений на основе текстовых описаний.
Остановимся на трех наиболее популярных продуктах: DALL-E 2, Midjourney, Stable Diffusion, которые потенциально можно использовать в работе СМИ.
Алгоритм DALL-E, разработанный компанией OpenAI может генерировать изображения на основе сложных текстовых описаний, включая концепции, которые не были представлены в тренировочных данных. Одной из особенностей DALL-E 2 является то, что она может за секунды создавать не только фотореалистичные изображения, но и необычные произведения, такие как абстрактные иллюстрации и несуществующие объекты, на которые у художника уйдут недели или месяцы.
DALL-E 2 реалистично редактирует изображения, удаляя и добавляя элементы, изменяя композицию, тени и текстуру. Может создавать вариации, вдохновляясь оригиналом. DALL-E 2 предоставляет публичный API, который потенциально можно использовать для встраивания функций в движок сайтов СМИ.
Midjourney использует собственную технологию глубокого обучения, позволяющую создавать изображения с высокой степенью детализации и реалистичности. Уже существует несколько готовых продуктов, таких как приложения для создания автоматических рекламных баннеров и обложек для книг на основе текстовых описаний.
В настоящее время Midjourney доступен через Discord-бот на официальном Discord-сервере. Пользователь генерирует изображение с помощью команды «/imagine» и вводит запрос, как в любом другом генераторе искусственного интеллекта. Затем бот возвращает 4 изображения, можно выбрать 1 из 4 и создать вариации на его основе либо повысить его детализацию.
На рисунке изображен скриншот одной из итераций запроса авторов для генерации изображения, подходящего для иллюстрации данной статьи:
Разработчики Midjouney предоставляют бесплатный доступ к своему детищу с некоторыми ограничениями.
Stable Diffusion - это нейросетевая архитектура, разработанная исследователями из Stability AI, которая также может использоваться для генерации изображений на основе текстовых описаний.
Архитектура была обучена на большом наборе данных изображений и текстовых описаний, что позволяет ей генерировать качественные и реалистичные изображения на основе различных контекстов материала.
Главное преимущество, которое должно заинтересовать разработчика, планирующего внедрить нейросеть в работу редакции СМИ - это открытый исходный код под лицензией Creative ML OpenRail-M. Возможен запуск Stable Diffusion на локальном компьютере, а не через веб-сайт или API. Но перед использованием кода в коммерческих целях следует получить специальное разрешение.
Creative ML OpenRail-M требует, чтобы любые производные сети (Derivatives) были опубликованы под открытой лицензией и были доступны для бесплатного использования, исключая любые патентные требования. Накладываются этические ограничения на содержание картинок и сценарии использования.
Как встроить генерацию картинок в административную панель сайта?
В идеальном мире в сайты и социальные сети уже встроен алгоритм генерации изображений. Сам процесс генерации при этом может протекать тремя способами:
- Пользователь вынужден в отдельном поле (окне) описывать изображение, которое хочет получить и генерировать его непосредственно в приложении админки сайта или личного кабинета социальной сети.
- Текст статьи или поста автоматически обрабатывается, изображение генерируется на основе контекста материала или его части. В этой схеме может участвовать текстовая нейросеть наподобие ChatGPT, о чем речь пойдет ниже.
- Комбинированный вариант, когда пользователь может использовать предложенные иллюстрации или дать собственное описание тому, что хочет получить.
Техническая реализация такой задумки уже сейчас не представляется долгой и дорогой. Пройдут уже не годы, а месяцы, когда подобный алгоритм можно будет встраивать также просто, как создавать адаптивный дизайн в конструкторе лендингов.
Улучшение качества фотографий
Upscale image - услуга, которую предлагают десятки сайтов в поисковой выдаче. Функцию также можно установить непосредственно в административную панель сайта и увеличивать разрешение фотографий в разы. Это актуально для СМИ, которые используют любительские фото с места событий. К тому же, многие старые статьи, возрастом годы или даже десятки лет до сих пор ранжируются в поисковой выдаче и получают трафик. И если текст в них выглядит прилично, то фото выдает преклонный возраст публикации. Редакциям сайтов, имеющих многолетние фотоархивы, стоит задуматься об обработке всех старых фото, что повысит их ранжируемость в поиске и улучшит внешний вид прошлогодних новостей, на которые все еще идет трафик.
Автоматическая генерация текстов
Существует множество текстовых нейронных сетей, которые используются в различных областях, таких как обработка естественного языка (Natural Language Processing, NLP), машинный перевод, генерация текстов, анализ тональности, определение тематики и многое другое.
Некоторые из наиболее известных и широко используемых моделей:
- BERT (Bidirectional Encoder Representations from Transformers)
- GPT (Generative Pre-trained Transformer)
- LSTM (Long Short-Term Memory)
- CNN (Convolutional Neural Networks)
- Word2Vec (Word to Vector)
- Seq2Seq (Sequence to Sequence)
Каждая из этих моделей имеет свои особенности и применяется для решения определенных задач в области NLP. Например, BERT используется для классификации текста, а GPT - для генерации текста. LSTM и CNN используются для анализа тональности, а Word2Vec и Seq2Seq применяются для машинного перевода.
ChatGPT от OpenAI в некоторых сценариях сочиняют тексты неотличимо от человека. К написанию аналитических или художественных материалов это имеет мало отношения. Новости тоже возникают из текущей повестки, их нельзя сочинять, особенно учитывая увеличивающуюся строгость действующего законодательства России. Но с помощью нейросетей можно перерабатывать уже написанные тексты и делать из них новые, автоматизируя работу рерайтеров. И роботы здесь вовсе не заменят человека, а лишь повысят его продуктивность. Если раньше 1 рерайтер мог написать от 10 до 30 текстов за смену, то сейчас он сможет выбирать 100-200 инфоповодов, скармливать их нейросети и проверять результаты, при необходимости корректируя.
Также нейросеть восхитительно сочиняет заголовки и может выдавать их десятками, создавая ассортимент редактору на выбор.
1 марта 2023 года анонсирован API GPT-3.5, а это значит, что появится возможность встроить в административную панель сайта или программу постинга в соцсети модули, которые помогут еще сильнее упростить функцию рерайта, а также снизить объем ручного труда и по авторским материалам.
Совместная работа нейросети и журналиста
Один из возможных вариантов применения API и совместной работы журналиста и нейросети: нейросеть помогает журналисту и предлагает варианты следующего предложения, абзаца или заголовка в формате, похожем на автодополнение, которое каждый видел в работе поисковых строк или фильтров.
Текстовые нейросети уже применяются в ежедневной работе. И позволяют получать выдающиеся результаты по трафику. Однако нередко нейросеть проявляет чрезмерную фантазию, сочиняя факты. И стоит признать, на русском она пишет не так блестяще, как на родном, английском. За нейросетью приходится следить корректору, что существенно замедляет работу. Например, сюжет из 15 материалов был сгенерирован силами 1 человека и одной нейросети за 30 минут, но у корректора ушло почти 2 часа на вычитку и правки. А в обычной жизни написание 15 однотипных материалов заняло бы примерно 3-4 часа, но на коррекцию ушло бы не более часа. На первый взгляд, результат не кажется впечатляющим из-за завышенных ожиданий на старте. Но по факту трудозатраты сокращаются в 2 раза, а скорость выдачи материалов повышается вдвое. Руководителям, принимающим управленческие решения, приводящие даже к 20%-ному росту, вручают медали. А здесь достигается удвоение результата с помощью подключения всего одного инструмента.
Если посчитать трудозатраты, то можно в цифрах определить эффективность использования нейросетей в работе журналистов. На диаграмме ниже отражен результат наиболее пессимистичных расчетов при использовании браузерной версии ChatGPT на платном тарифе. Драматичность экономии времени следует оценивать, глядя на цифры, потому что для отражения маленьких значений совместно с большими применена логарифмическая шкала при построении диаграммы.
Подготовка полноценного ответа нейросетью, длиной около 3000 символов на русском языке, занимает около 1 минуты, в зависимости от времени суток и загруженности программы. Стоит отметить, что генерация текстов на английском существенно быстрее. Человек может составить 5 вариантов заголовков на выбор примерно за 60 секунд. Нейросеть - за 15. Однако совместная работа подразумевает генерирование 5 заголовков нейросетью, выбор и корректировка журналистом наилучшего из предложенных.
По той же логике журналист может составить тезисный план к готовому тексту или к новой идее, изложив нейросети суть того, что он планирует написать.
Когда требуется удлинить текст ("налить воды") - нейросеть незаменима, журналисту останется корректировать готовый материал, поскольку литературный русский у ChatGPT не так хорош, как английский.
Сокращение текста также сэкономит время вдвое, когда журналист с нейросетью работают в команде, в сравнении с индивидуальным трудом представителя естественного интеллекта.
Наибольшая экономия времени видна при подготовке рерайта. Журналисту чаще всего достаточно внести правки по стилистике. Но иногда нейросеть досочиняет несуществующие факты, что может привести к плачевным последствиям для СМИ. Поэтому пока рискованно допускать нейросеть в админку СМИ с правом публикации без человеческого контроля.
Читатель может самостоятельно перевести экономию времени в экономию денег применительно к своему проекту и принять одно из двух возможных решений:
- экономить на зарплате журналистов и райтеров, делегируя половину работы нейросети,
- сохранить штат, но увеличить минимум вдвое объем произведенного контента.
Кроме написания рерайтов, можно автоматически генерировать дайджесты и сводки, наподобие итогов недели или итогов дня. Нейросеть вполне способна справиться с кратким пересказом основных событий, отмеченных редактором.
Таким образом, использование нейросетей существенно ускоряет процесс написания материалов и позволяет сэкономить время журналистов, увеличивая объем производимого контента, или снижать затраты на оплату труда райтеров и журналистов. Нейросеть может быть особенно полезна при написании рерайтов и редактировании готовых материалов. Однако пока что использование нейросетей требует контроля со стороны человека, чтобы избежать публикации некорректной или ложной информации.
Извлечение смыслов из текста
Извлечение смыслов для нейросети - более простая задача. Однако это тоже упрощает труд людей, работающих с большими объемами данных.
Нейросеть может выделить теги, написать подзаголовки для материала, составить аннотацию и заключение, сформировать оглавление.
Что касается тегов, то категоризация, или, другими словами, автоматическая расстановка тегов - задача, над которой прямо сейчас бьются ИТ-отделы многих крупных информационных агентств. Теги должны аккумулировать основной смысл материала. Это необходимо для связи с другими материалами, с похожим смыслом. Многие годы журналисты из-под палки расставляют теги вручную. Сейчас, из 2023 года, кажется что эта работа изначально не была человеческой. Но такая возможность есть уже несколько лет.
У автоматической расстановки тегов, кроме экономии времени журналистов, множество других плюсов. Во-первых, так можно поставить очень много тегов. Ради эстетики часть из них можно скрыть. Они понадобятся для разных служебных целей, вроде вывода похожего материала, сборки рубрик, формирования сюжетов, досье на персон. Можно создавать новые сложные типы материалов, которые будут скрыты как минимум от читателей, а может быть, и от журналистов. Поверх них можно строить интересные алгоритмы подбора. Например, определять субъект, объект, действия и тональность материала.
Что еще можно делать?
Коротко перечислим и другие возможные способы применения нейросетей в работе онлайн-СМИ.
- Генерация видеороликов. Сочетая последовательно несколько нейросетей, можно генерировать клипы с видеорядом, озвучкой и титрами. На имеющихся технологиях получится примитивно, но такие короткие ролики можно ставить в сторис, шортс или просто ленты соцсетей. Это привлекательнее статичных картинок и несет минимум человеческих трудозатрат.
- Обработка временных рядов. Временные ряды метрик, разные графики, дашборды… Сейчас графики просматриваются глазами, обрабатываются с помощью аналитики данных, затем определяются отклонения, которые произошли в прошлом, и общий тренд. Но большинство аномалий на пересечениях параметров по-прежнему замечаем случайно. Нейросети можно было бы поручить предсказание аномалий. Нейронка учится определять, как ведет себя график перед резким ростом или резким падением и предупреждает об аномалиях. Еще в 2016-2017 годах крупные компании рассказывали в докладах о подобной практике. С тех пор это стало проще внедрить. Такая сеть не будет дорогой по ресурсам.
На графике ниже представлен пример поиска аномалий в количестве визитов на сайт регионального СМИ. Желтая линия тренда показывает средние значения, а красная и зеленая - допустимый коридор. Нахождение графика в пределах коридора считаем нормой. Выход кривой за пределы коридора - аномалией, требующей повышенного внимания аналитиков.
- Выявление трендов трафика. Тренды трафика уже сейчас можно анализировать в реальном времени, а не постфактум. Когда какая-то новость или сюжет только начинает набирать обороты, это можно не заметить. Журналисты не отслеживают дашборды в реальном времени и заставлять их бесполезно. А начавший вируситься материал в первые минуты или часы жизни может не выделяться на фоне более старых материалов, пока не станет одних из лидеров по просмотрам. С помощью анализа трендов можно будет значительно раньше людей определять лидеров повестки и сразу начинать прокачивать тему, собирая весь трафик. Сейчас потенциальную вирусность материала редакторы определяют интуитивно.
- Поиск цикличностей. Цикличность может иметь период повторяемости от минуты до дня, месяца или года. Что бы дала цикличность в анализе посещаемости? Можно использовать ее как шумоподавление, по принципу работы умных наушников. Они записывают в микрофон окружающий звук и вычитают его из того, что передается в динамике. Если вычитать цикличность из посещаемости, то можно видеть реальное изменение глобальных метрик. При этом анализ временных рядов не особо завязан на специфику того, что анализируется. Проценты нагрузки на процессор или проценты переходов из ВК - сеть смотрит на график в целом, анализирует его во времени, находит цикличность, и потом вычитает ее. После этого можно искать аномалии.
- Работа со звуком. Уже есть готовый проект по работе со звуком. Он позволяет анализировать звук и превращать его в текст. Проект работает на нейросетях, журналисты им пользуются уже два года. Изначально он появился в качестве помощника по расшифровке голосовых интервью для журналистов. Журналисты получают экономию времени, и можно научно доказать, что разработка стоила повышения экономической эффективности их труда. Обратную конвертацию, создание аудиосообщения из материала уже делают все голосовые помощники. С одной стороны, уже давно можно попросить голосового помощника почитать новости. Но СМИ могут добавить творческую составляющую. Например, генерировать какой-нибудь подкаст из итогов дня, картину дня на текущий момент или сводку по определенному сюжету.
Сколько это стоит
На март 2023 года платная браузерная версия ChatGPT стоит 20 долларов в месяц, MidJourney - 10 долларов. Платный API ChatGPT - $0,002 за 1000 токенов, или около 750 слов. Среднее количество символов в слове на английском языке - 5 букв, а на русском языке - 6 букв. С учетом этого примерное количество символов в 750 словах на английском языке составляет 3 750 символов, а на русском языке - 4 500 символов. Однако, это лишь приблизительная оценка, и фактическое количество символов может отличаться в зависимости от текста и его содержания. Таким образом, статья, написанная с первой попытки, будет стоить не более 15 копеек, что можно считать погрешностью и не учитывать в расчете экономии на трудозатратах.
Запуск нейросети на собственных серверах обойдется значительно дороже и не факт, что качественнее. Текстовые нейронные сети - тяжелые. Чтобы просто запустить такую сеть, нужен сервер с мощной видеокартой. Его стоимость переваливает за сотню тысяч рублей в месяц по состоянию на февраль 2023 года.
В то же время, для обработки картинок не нужен мощный сервер. К тому же, возможно использование бесплатных алгоритмов с открытым кодом. Сейчас у большинства смартфонов функции обработки в режиме реального времени уже встроены в галерею фотокамеры. Поэтому со временем и генерация текстов тоже должна эволюционировать и обходиться технически дешевле.
Нейросеть, которая извлекает смысл, стоит дешевле генератора текстов. Ей потребуется отдельный сервер как минимум за 20 тысяч рублей в месяц.
Остальные перечисленные в статье функции в большинстве своем доступны для использования прямо сейчас: какие-то не требуют ничего, кроме регистрации, другие - несколько недель чистой работы по внедрению и аренды недешевых серверов. Все остальное также реализуемо в ближайшем будущем. Все технологии существуют и эти области применения уже через пару лет будут звучать наивно.
Вместо вывода
В качестве вывода по итогам статьи без каких-либо правок представляем ответ ChatGPT на запрос "Какие перспективы использования нейросетей в работе СМИ?":
Использование нейросетей в работе СМИ имеет широкие перспективы. Одна из главных проблем в работе журналистов - это огромное количество информации, которое нужно обработать и проанализировать, чтобы отобрать наиболее значимые новости. В этом случае нейросети могут помочь автоматизировать процесс сбора, фильтрации, обработки и анализа информации, что существенно сэкономит время и усилия журналистов.
Например, нейросети могут использоваться для автоматического написания новостных статей на основе данных, собранных из различных источников. Это может помочь сократить время, затрачиваемое на написание статей, освободить журналистов для выполнения более творческих задач, а также улучшить качество и точность текстов.
Кроме того, нейросети могут использоваться для анализа данных и прогнозирования тенденций, что позволяет СМИ быть более информированными и точными в своих предсказаниях. Например, нейросети могут помочь в прогнозировании результатов выборов, экономических тенденций, погоды и других важных событий.
Также нейросети могут использоваться для улучшения интерактивности и персонализации контента для читателей. Например, на основе предпочтений и интересов читателей нейросети могут рекомендовать им наиболее подходящие материалы, что позволяет увеличить вовлеченность и удержание аудитории.
Таким образом, использование нейросетей в работе СМИ имеет большие перспективы и может помочь сделать работу журналистов более эффективной и точной, а также улучшить качество контента для читателей.
Авторы:
- Ирина Гольмгрейн,
- Станислав Попов
Рисунки: Midjourney