Taalas представила ASIC с прямой интеграцией в кремний для Llama 8B
Taalas представила ASIC с прямой интеграцией в кремний для Llama 8B
Taalas, команда, сформированная бывшими инженерами Tenstorrent, объявила о чипе, который встраивает модель непосредственно в кремний без внешней памяти.
Дизайн и производительность
Компания интегрировала веса модели и архитектуру непосредственно в сам чип, избегая HBM и сложной упаковки, чтобы упростить проектирование аппаратного обеспечения для инференса.
Приведённые Taalas показатели производительности включают 17,000 токенов в секунду на Llama 3.1 8B, что, по их словам, опережает текущие SOTA GPU на порядок.
- Стоимость производства: утверждается, что чип в 20 раз дешевле в производстве, чем сопоставимое GPU-оборудование.
- Потребление энергии: согласно отчётам, устройство использует в 10 раз меньше энергии, чем эти GPU при той же нагрузке.
Компромиссы и гибкость
Taalas признаёт технические компромиссы: встроенные веса квантизированы до точности 3–6 бит и демонстрационный контекст ограничен входом в 1,000 токенов и выходом того же размера.
Хотя ASIC ориентирован на конкретное семейство моделей, конструкция сохраняет поддержку адаптеров LoRA и переменного окна контекста, сохраняя некоторую гибкость в дообучении.
Дорожная карта
Доступный кремний реализует Llama 8B (HC1). Taalas планирует выпустить среднеразмерный чип с улучшенными возможностями рассуждения весной и продемонстрировать передовую модель на кремнии второго поколения к зиме.
Практические заметки
Taalas сообщает, что аппаратное обеспечение уже существует и было продемонстрировано; команда позиционирует продукт как нечто большее, чем слайды для инвесторов, при этом предупреждая о присущих архитектурных ограничениях.
Сочетание высокой пропускной способности, сниженной стоимости и меньшего энергопотребления может изменить развертывание инференса на периферии и в локальной инфраструктуре для совместимых семейств моделей.