Илья Кучумов: Современные поисковые базы – это миллиарды документов, которые важно оптимизировать

20.12.22, Вт, 11:30, Мск,

Эксперт в области программирования и руководитель отдела разработки рассказал про технологии, которые помогают бизнесу оптимизировать обработку больших объемов данных

На днях в Москве завершилась ежегодная конференция разработчиков высоконагруженных систем Highload++ 22. Событие собрало свыше трех тысяч участников, среди которых были представители компаний Яндекс, Авито, Тинькофф, VK и других. Во время конференции эксперты IT-индустрии представили 120 докладов о разработке, эксплуатации и оптимизации масштабных систем хранения данных в Рунете. Эксперт в области высоконагруженных систем и автор доклада из топ-15 по версии Highload++ 22 Илья Кучумов, принявший участие в конференции, отмечает, что без подобных решений сложно представить развитие современного бизнеса. Илья рассказал о конференции и о том, как разработчики решают проблемы бизнеса, связанные с обработкой крупных массивов данных.

Илья Кучумов

Илья, вы участвовали в профессиональной конференции HighLoad++. На что были акценты в этом году?

Основной фокус конференции был на практических кейсах, новейших технологиях и подходах, которые помогают бизнесу проектировать и внедрять высоконагруженные, доступные и быстрые системы. Обсуждались архитектуры крупных проектов, базы данных и системы хранения, devops и системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с большими IT-системами.

Событие традиционно собирает специалистов IT-отрасли. Чем это мероприятие привлекает профессионалов?

Мероприятие направлено на обмен знаниями в области технологий, которые критически важны для развития современного бизнеса. Здесь можно узнать о новых подходах крупных российских компаний и обсудить свои решения. Например, идеи, представленные в нашем докладе, оказались полезными коллегам, которые используют неструктурированные данные из Интернета для решения своих задач.Обзор российского рынка банковской цифровизации: импортозамещение, искусственный интеллект и собственные экосистемы 6.9 т

О вашем докладе спрошу чуть позже. Для начала объясните простым языком, что такое высоконагруженные системы и почему они так важны для современного бизнеса?

Высоконагруженные системы — это критически важные приложения, которые способны обрабатывать огромное количество операций или запросов от пользователей одновременно, не теряя в производительности и надежности. Это могут быть онлайн-магазины, социальные сети, финансовые платформы и другие бизнесы с миллионами активных пользователей. Эти системы важны для бизнеса, так как они обеспечивают стабильность и доступность сервисов даже при пиковых нагрузках, что помогает удерживать клиентов и поддерживать репутацию компании. В условиях цифровой экономики, где мгновенный доступ к данным и услугам становится нормой, эффективные высоконагруженные системы позволяют компаниям успешно масштабироваться и конкурировать на рынке.

Ваш доклад `Как достать все что угодно со всего интернета` организаторы признали одним из 15 лучших. Какой кейс лежит в его основе?

Это разработка сервиса – поиск по товарам, который позволяет пользователям находить актуальные предложения во всех интернет-магазинах. Причем и в крупных маркетплейсах, и в совсем небольших буквально с сотнями товаров. Одна из главных задач для создания такого сервиса – это сбор самой полной базы товаров из всех возможных источников. В своем докладе я рассказал про несколько подходов, которые мы сделали для решения этой задачи.

Расскажите, что было важно для создания такого сервиса и как вы отразили это в докладе?

Одним из технически сложных компонентов было создание алгоритма для выделения структурированных данных, которые очень важны для поисковых систем. Такими вопросами занимается много исследователей со всего мира, и главная сложность — при высокой точности алгоритма сделать его вычислительно недорогим, чтобы для его работы требовалось как можно меньше серверов. Это очень важно, потому что современные поисковые базы состоят из миллиардов документов, и оптимизация даже на единицы процентов имеет большое значение. В докладе я изложил, во-первых, обобщенную версию нашего алгоритма. Во-вторых – основные методы оптимизации, которые мы использовали, чтобы сделать его по-настоящему быстрым, применимым в большом сервисе с высокой нагрузкой.

Последний вопрос: какие возможности для бизнеса открывают высоконагруженные системы в связи с появлением искусственного интеллекта?

ИИ позволяет автоматизировать многие трудоемкие процессы, тем самым повышая эффективность и скорость работы как людей, так и компьютеров. Также эти технологии помогают настраивать системы под индивидуальные потребности пользователей, улучшая клиентский опыт. Кроме того, они способствуют развитию таких перспективных направлений, как интеллектуальные голосовые помощники, чат-боты и системы компьютерного зрения, открывая новые возможности для бизнеса в сферах коммуникации, обслуживания и автоматизации рутинных задач.

Автор: Иван Савельев