Модели в тисках: для работы с ИИ больше не нужны мощные серверы

    Ученые «Яндекса» вместе с партнерами из ведущих научно-технологических вузов (НИУ ВШЭ, MIT, KAUST и ISTA) совершили прорыв в оптимизации больших языковых моделей (LLM), узнал Forbes. Благодаря разработанному ими методу сжатия LLM без потери качества для работы с моделями будет достаточно смартфона или ноутбука. В условиях ограниченного доступа к графическим ускорителям (GPU) это может значительно упростить внедрение технологий на основе LLM в таких чувствительных сферах, как медицина, финансовые услуги и персональные ассистенты, считают эксперты

    Лаборатория исследований ИИ Yandex Research совместно с партнерами разработала метод быстрого сжатия больших языковых моделей без потери качества, рассказали Forbes в «Яндексе». Теперь для работы с моделями достаточно смартфона или ноутбука — и не нужно использовать дорогие серверы и мощные GPU, заверяют в компании. Метод, получивший название HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS), позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает большие языковые модели (LLM) доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.

    Telegram-канал Forbes.Russia Канал о бизнесе, финансах, экономике и стиле жизни Подписаться

    В число партнеров по разработке вошли такие крупные научно-технологические вузы, как Массачусетский технологический институт (MIT), НИУ ВШЭ, саудовский Научно-технологический университет имени короля Абдаллы (KAUST, King Abdullah University of Science and Technology) и Австрийский институт науки и технологий (ISTA, The Institute of Science and Technology Austria) — в списке авторов научной статьи, посвященной новому методу, указаны их сотрудники.

    Новый метод сжатия больших языковых моделей может изменить правила игры в мире ИИ, отмечает представитель факультета компьютерных наук НИУ ВШЭ. «Теперь даже небольшие компании, стартапы и исследователи смогут использовать мощные модели на обычных устройствах, таких как смартфоны и ноутбуки. Это открывает двери для инноваций в самых разных областях: от образования и медицины до социальных услуг и технологических стартапов, — продолжает он. — Метод HIGGS не только делает ИИ более доступным, но и ускоряет процесс разработки, позволяя быстрее тестировать и внедрять новые идеи. В итоге это может привести к более демократичному и равномерному распределению технологических возможностей, что особенно важно для регионов и организаций с ограниченными ресурсами».

     

    Дорогие и большие

    Основная сложность в использовании LLM заключается в том, что они требуют значительных вычислительных ресурсов, обращают внимание эксперты. «Это касается и open source моделей. Например, одна из них — популярная DeepSeek-R1 — не помещается даже на дорогостоящих серверах, предназначенных для работы с ИИ и машинным обучением. Это означает, что использовать большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе», — поясняют авторы нового метода.

    Новый метод квантизации (сжатия) позволяет уменьшить размер модели, сохранив ее качество, и запустить на более доступных устройствах. Например, с его помощью можно сжимать даже такие большие модели, как DeepSeek-R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве, поясняют в «Яндексе», добавляя, что это особенно пригодится в тех областях, где ресурсы ограничены, например в образовании или социальной сфере, и в ситуациях, когда недостаточно подходящих данных для дообучения модели.

     

    Квантование модели снижает требования к вычислительным ресурсам и может сделать ее запуск более экономически выгодным по сравнению с использованием API, стоимость которого зависит от размера модели, продолжают в компании: «Многие бизнесы также хотят размещать данные внутри своих систем из-за требований законодательства или необходимости хранить чувствительную информацию внутри компании. Сжатие модели позволяет сэкономить на затратах, связанных с ее использованием, и делает возможным запуск модели на собственном оборудовании». Ранее для интеграции модели типа DeepSeek-R1 могли потребоваться инвестиции в размере сотни миллионов долларов на оборудование и обслуживание серверов, рассуждают в «Яндексе». С HIGGS теперь можно у себя дома сжать самую свежую открытую модель (типа DeepSeek), в хорошем качестве и быстро запустить на своем компьютере. Вообще, это и раньше можно было сделать, но модель заметно теряла в качестве, резюмируют там.

    «Поворотный момент»

    По данным январского исследования «Будущее генИИ в странах БРИКС+» компании «Яков и Партнеры», в 2024 году 54% российских компаний (из топ-300) внедрили ИИ-решения хотя бы в одну функцию организации. При этом стоимость разработки ИИ выросла на 20-30%. В России прирост ВВП за счет ИИ, согласно государственной стратегии, накопленным итогом к 2030 году должен достичь 11,2 трлн рублей, указывают аналитики. Этот план также предполагает увеличение объема оказываемых услуг в области ИИ до 60 млрд рублей в год.

    Подходы к сжатию LLM сами по себе развиваются довольно давно, но несомненное достижение исследования — сжатие с меньшей потерей в качестве генераций и предсказаний модели, указывает к.к.н., руководитель научной группы «Методы оптимизации в машинном обучении» Института AIRI, старший преподаватель Сколтеха Александр Тюрин. С применением такого метода можно отказаться от необходимости пересылать приватные данные (текст или фотографии) на удаленный сервер, выполняя вычисления локально на устройстве, говорит он.

     

    Сжать модель масштаба DeepSeek R1 — серьезное достижение, особенно если действительно удалось сохранить качество, размышляет AI-евангелист, разработчик команды AI/ML «Битрикс24» Сергей Нотевский: «Напомню, речь идет о 671 млрд параметров, а современные модели вроде Llama 4 уже приближаются к 2 трлн — запуск таких моделей требует десятков GPU и значительных бюджетов». Например, аренда одного GPU-сервера, по его словам, может обходиться в 200 000 рублей в месяц, а для запуска одной полной версии той же DeepSeek нужно как минимум 16 таких серверов. «Если новый метод действительно позволяет добиваться такого уровня сжатия, что модели можно запускать на ноутбуках или смартфонах без заметной потери качества, — это действительно поворотный момент, так как речь идет о возможности запускать больше экземпляров модели на тех же ресурсах», — считает Нотевский.

    Директор по ИИ в IT Альфа-банка Святослав Соловьев называет разработку «интересным кейсом международного взаимодействия». «Мы видим большой потенциал применения сжатых LLM для массовых сервисов — таких, как чат-боты, ИИ-ассистенты, переводчики, аналитики данных в реальном времени. Работу такие модели выполняют с хорошим качеством при сильном увеличении быстродействия и снижении затрат на оборудование», — говорит Соловьев.

    Метод HIGGS представляет собой важный шаг в развитии технологий квантования LLM, рассуждает эксперт по машинному обучению и ИИ Максим Першин. В реальном мире его применение может, по его мнению, существенно расширить доступ к LLM, позволяя запускать мощные модели на потребительском оборудовании с низкой вычислительной мощностью, «что особенно важно в текущих условиях ограниченного доступа к GPU-ресурсам» (Graphics Processing Unit — процессор для обработки графики и высокопроизводительных вычислений). «Благодаря отсутствию необходимости использовать дополнительные данные при квантовании метод идеально подходит для задач с высокими требованиями к конфиденциальности. Это может значительно упростить внедрение технологий на основе LLM в таких чувствительных сферах, как медицина, финансовые услуги и персональные ассистенты, предоставляя возможность использовать мощные языковые модели локально без передачи чувствительной информации на внешние серверы», — заключает он.

    Источник: www.forbes.ru

    Like this post? Please share to your friends:
    Arcads
    Добавить комментарий

    ;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: