Исследователи из лаборатории Yandex Research в сотрудничестве с ведущими научными центрами — НИУ ВШЭ, MIT, KAUST и ISTA — разработали инновационный подход к квантизации больших языковых моделей (LLM), получивший название HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS).
Ранее сжатие гигантских нейросетей, необходимое для их запуска на персональных устройствах, требовало значительных вычислительных ресурсов и длилось от часов до недель на серверах. Новый метод кардинально упрощает этот процесс: теперь квантизацию можно выполнить прямо на смартфоне или ноутбуке всего за несколько минут, причём без ущерба для качества работы модели.
HIGGS особенно эффективен для супермасштабных архитектур, таких как DeepSeek R1 (671 млрд параметров) и Llama 4 Maverick (400 млрд параметров), которые ранее можно было сжимать лишь базовыми способами, неизбежно ведущими к заметной деградации производительности. Благодаря HIGGS, такие модели теперь становятся доступны для локального использования.
Метод реализован как zero-shot («безданный») алгоритм: он не требует дополнительных обучающих наборов или внешних баз знаний, что делает его особенно практичным и универсальным.
Код HIGGS уже опубликован в открытом доступе на платформах Hugging Face и GitHub, что открывает широкие возможности для сообщества разработчиков и исследователей.
По мнению команды Yandex, технология не только ускорит разработку и тестирование ИИ-решений, но и существенно снизит финансовые и технические барьеры для входа на рынок. Теперь даже стартапы, небольшие лаборатории и независимые исследователи смогут внедрять передовые LLM в свои продукты без необходимости аренды дорогостоящих серверов.