Groq LPU (языковой процессор)

Продукт

Разработчики:	Groq
Дата премьеры системы:	февраль 2024 г.
Отрасли:	Электротехника и микроэлектроника
Технологии:	Процессоры

2024: Анонс продукта

В конце февраля 2024 года стартап Groq представил специализированный процессор LPU (Language Processing Unit), предназначенный для ускорения работы больших языковых моделей (LLM). Ожидается, что изделие произведет революцию на рынке искусственного интеллекта.

Groq LPU базируется на архитектуре тензорного потокового процессора (TSP). Решение наделено локальной памятью SRAM объемом 230 Мбайт с пропускной способностью 80 Тбайт/с. Утверждается, что производительность на операциях INT8 достигает 750 TOPS, на операциях FP16 — 188 Тфлопс. При работе с моделью Mixtral 8x7B ускоритель Groq LPU обеспечивает скорость инференса до 480 токенов в секунду, что является одним из лучших показателей в отрасли по состоянию на конец февраля 2024 года. В таких моделях, как Llama 2 70B с длиной контекста 4096 токенов, новый чип демонстрирует быстродействие на уровне 300 токенов в секунду, тогда как в меньшей модели Llama 2 7B с 2048 токенами контекста скорость инференса достигает 750 токенов в секунду.

Стартап Groq представил специализированный процессор, предназначенный для ускорения работы больших языковых моделей

В целом, как отмечается, ускоритель Groq LPU превосходит конкурирующие продукты NVIDIA, AMD и Intel. Фактически речь идет о переосмыслении эффективности вычислений ИИ. Изделие Groq LPU — это не просто чип: это предвестник новой эры, когда ИИ сможет легко интегрироваться в повседневную жизнь, преодолевая существующие барьеры задержки, затрудняющие взаимодействие систем с пользователем в режиме реального времени.Помощник или конкурент? Чем ИИ может быть полезен в HR-процессах

В отличие от графических процессоров, в LPU используется упрощенный подход, устраняющий необходимость в сложном аппаратном обеспечении планирования и обеспечивающий постоянную задержку и большую пропускную способность. Кроме того, новое изделие обладает высокой энергетической эффективностью, благодаря чему сокращаются общие расходы на поддержание систем ИИ.^[1]