Kolmogorov-Arnold Networks (KAN)

Продукт

Разработчики:	Калифорнийский технологический институт (Caltech), Массачусетский технологический институт (MIT)
Дата премьеры системы:	май 2024 г
Отрасли:	Информационные технологии

2024: Создание нейросети

В конце апреля 2024 года американские исследователи из ряда научных организаций сообщили о разработке принципиально новой архитектуры нейросетей — Kolmogorov-Arnold Networks (KAN). В основу платформы положены труды советских академиков Андрея Колмогорова и Владимира Арнольда.

Традиционно в основе систем глубокого обучения, в том числе платформ компьютерного зрения и больших языковых моделей (LLM), лежит многослойный перцептрон (MLP). Это архитектура взаимосвязанных нейронов, которые выступают в качестве единиц для вычислительных операций в сети.

На основе трудов советских академиков Андрея Колмогорова и Владимира Арнольда создана принципиально новая архитектура нейросетей

Как сообщается, ученые из США предложили более эффективное решение. В работе приняли участие специалисты из Массачусетского технологического института (MIT), Калифорнийского технологического института (Caltech), Северо-Восточного университета (Northeastern University) и Института искусственного интеллекта и фундаментальных взаимодействий Национального научного фонда США (IAIFI). В то время как MLP имеют фиксированные функции активации на узлах («нейроны»), системы KAN используют обучаемые функции активации на ребрах («веса»). В KAN вообще нет линейных весов — каждый весовой параметр заменяется одномерной функцией, параметризованной в виде сплайна.CommuniGate Pro: итоги первого года работы законного правообладателя 2.2 т

Утверждается, что архитектура KAN способна превзойти MLP как по точности, так и по интерпретируемости. Теоретически KAN обладают более быстрыми законами нейронного масштабирования, чем MLP. В целом, KAN — многообещающая альтернатива MLP, открывающая новые возможности для дальнейшего совершенствования моделей глубокого обучения. Вместе с тем у новой технологии есть определенные недостатки: это, в частности, более низкая скорость обучения. Иными словами, для задач, в которых приоритет отдается скорости, MLP остаются более практичным вариантом.^[1]