В секторе ИИ-технологий российской IT-отрасли формируется новый сегмент — Inference-as-a-service («инференс как услуга»), то есть применение обученной модели к новым данным для получения предсказаний или выводов. Такой сервис выводит на рынок провайдер облачных и AI-технологий Cloud.ru, подобную услугу уже предоставляет «Яндекс», функционал инференса больших языковых моделей (LLM) в облаке реализован и на платформе МТС. По мнению аналитиков, Inference-as-a-service будет широко востребован бизнесом, который с его помощью сможет тестировать разные версии моделей, выбирать оптимальную и дообучать ее под свои задачи. Согласно экспертным оценкам, российский рынок облачных сервисов для вычислений с использованием графических процессоров (GPU) в России в 2024 году мог вырасти на 55% и превысить 17 млрд рублей
Cloud.ru запускает готовый облачный сервис для инференса LLM с возможностью разделения GPU (Graphics Processing Unit — процессор для обработки графики и высокопроизводительных вычислений) и гибким подходом к утилизации вычислительных ресурсов, рассказали Forbes в компании. Сервис получил название Evolution ML Inference и позволяет бизнесу запускать и развертывать как собственные AI-модели, так и любые ML/DL (машинное и глубокое обучение) opensource-модели из библиотеки Hugging Face на базе облачных GPU в несколько кликов. Cloud.ru предоставляет доступ к мощным графическим процессорам, выполняет полное администрирование и обслуживание инфраструктуры.
Инференс — ключевой этап в процессе применения ИИ, когда обученная модель начинает использоваться для обработки новых данных и выдачи предсказаний. Если обучение модели — это фаза, в которой ИИ накапливает знания и настраивает свои параметры на основе огромных объемов данных, то инференс представляет собой применение этих знаний на практике.
Рынок ИИ в России в 2025 году достигнет объема в $5,36 млрд и превысит $20 млрд к 2031 году при среднем годовом темпе роста (CAGR) около 28%, прогнозирует Statista. Рынок инференса при этом большой: 80% всех ресурсов компании отдают на подобные задачи, поясняет руководитель направления AI в Cloud.ru Дмитрий Юдин: «Он состоит из трех компонентов: hardware, сегмент PaaS (платформа как услуга) и сегмент SaaS (софт как услуга). Запуская новый сервис, мы создаем новый рынок Inference-as-a-Service, который значительно сместит фокус с рынка hardware-решений в сторону управляемых сервисов (PaaS) для инференса ИИ-моделей».
Аналогичные продукты и сервисы на базе своих GPU предлагает, в частности, Nebius Group основателя «Яндекса» Аркадия Воложа. Так, в сентябре 2024 года компания запустила платформу AI Studio, которая предоставляет доступ к большим языковым моделям как раз по модели Inference-as-a-Service. По оценке Nebius, рынок услуг на основе GPU, а также облачных сервисов для работы с ИИ в 2030 году превысит $260 млрд.
Спрос на инференс ИИ-моделей растет от месяца к месяцу, говорит Юдин, ссылаясь на статистику OpenRouter: пользователи генерируют миллиарды токенов в месяц к популярным ИИ-моделям. Для российского рынка, считает он, «безусловно, важной является локализация популярных LLM-моделей» для решения бизнес-задач и соблюдения российского законодательства. «Мы видим большой потенциал рынка в этом направлении. Наиболее заметен спрос именно на инференс моделей — пользователи в меньшей степени их обучают, так как это дорого стоит и требует большого количества ресурсов, навыков, технической подготовки, экспертизы, — поясняет он. — Большая часть пользователей идет именно в инференс, так как уже есть много готовых решений в опен сорсе, есть понятные инструкции по разворачиванию моделей, но это тоже требует значительных вложений в инфраструктуру».
Cloud.ru запускает свой сервис на фоне непростой ситуации с доступностью GPU на российском рынке. Эксперты признают, что проблема дефицита ускорителей существует — впрочем, как и с любой другой в России, с ней научились бороться с помощью параллельного импорта. «Это привело к сильному повышению цен, что коснулось, скорее, только небольших компаний, — рассуждает эксперт в области машинного обучения и ИИ Иван Серов. — Для крупных же компаний вроде «Сбера» проблема не стоит так остро, так как они еще до санкций имели огромное количество видеокарт, а далее просто начали оптимизировать их использование. Мы можем видеть, как GigaChat или YandexGPT развиваются с каждым годом вопреки любому дефициту, потому что крупные компании все еще могут себе позволить закупать видеокарты, просто по гораздо большей цене. А компании поменьше перешли на облачные решения вместо закупки собственных серверов».
Оборудование поставляется в Россию так же, как и серверы, системы хранения данных и другие типы «железа», вопрос лишь в высокой стоимости и длительных сроках ожидания, констатирует менеджер продукта в K2 Cloud Илья Саламатов. «Ввоз GPU в страну действительно усложнился, — сообщили Forbes в пресс-службе MWS (MTC Web Services). — При этом облачные провайдеры обладают запасами графических ускорителей, закупленных еще до введения ограничений. Поэтому спрос на виртуальную инфраструктуру с GPU растет с каждым годом. В облаке MWS ее продажи в 2024 году выросли в два раза».
От мала до велика
Доля инференса будет увеличиваться, так как технология постепенно будет находить все больше мест, где она действительно будет работать и приносить положительный эффект, полагают эксперты. «Инференс может потребовать больше GPU-мощностей, так как в решениях для конечных пользователей одним из ключевых показателей будет скорость ответа», — считает Илья Саламатов.
Чаще всего на рынке говорят про кейсы использования LLM для создания внутренних баз с умным поиском на основе генеративных моделей, ИИ-агентов, продолжает Саламатов. Но важнее, по его мнению, сказать о том, когда технология может быть в принципе эффективна: «Для этого нужны большие массивы данных для обучения, и ценность будет заключаться в точных ответах. Экономическая выгода появляется, когда модель используется в процессах, где много рутинных операций и повторяющихся действий. Наиболее медленно технология будет внедряться в тех отраслях, где есть серьезные регуляторные ограничения и высока цена ошибки».
Целевой аудиторией Дмитрий Юдин называет «крупный, средний и малый бизнес, а также исследователей и энтузиастов в области ИИ». Чтобы работать с сервисом, по его словам, нет необходимости обладать глубокими знаниями в области AI, но нужно иметь технические навыки: «Использовать сервис можно, например, в задачах поддержки пользователей, продажах и маркетинге, где модель уже хорошо умеет «суммаризировать» информацию, отвечать на вопросы по документации, решать проблему белого листа и многое другое».
По мнению источника в одной из крупных компаний на рынке облачных технологий, высока вероятность, что продукт может быть «отлично востребован на рынке». «Cloud.ru начал активную стадию продаж, сервис интересный, будем тестировать», — сообщил он Forbes.
Подобными сервисами могут пользоваться бизнес, стартапы, интеграторы и ИИ-команды, e-commerce и сфера образования, перечисляет Иван Серов. Крупные компании могут использовать их для автоматизации и снижения нагрузки на сотрудников. Например, банк может запустить LLM-интерфейс для поиска информации во внутренней базе знаний, а страховая компания — внедрить автоанализ обращений клиентов и генерацию ответов на них, продолжает Серов.
«Для стартапов это быстрая возможность создать MVP (Minimum Viable Product, «минимально жизнеспособный продукт») и протестировать гипотезу. Например, стартап может сделать юридического чат-бота на базе Llama 2, который будет отвечать на правовые вопросы, или сделать ИИ-секретаря, который будет принимать звонки и голосом общаться с клиентами, — рассуждает Иван Серов. — Интеграторы и ИИ-команды, работающие с коммерческими и госзаказами, могут разрабатывать различные решения в облаке, например сделать чат-бота для «Госуслуг». В e-сommerce же с помощью подобных сервисов можно продвигать продукты, генерируя описание карточек товаров под SEO, а вузы могут открыть доступ к LLM для студентов в рамках курса по машинному обучению».
Трое в лодке
Российский рынок облачных сервисов для вычислений с использованием графических процессоров (GPU) в России в 2024 году мог вырасти на 55%, до 17,1 млрд рублей, оценивали аналитики J’son & Partners Consulting.
Cloud.ru — не единственный игрок, который рассчитывает на доходы от развития сегмента «Инференс как услуга». Так, подобные сервисы уже есть у таких крупнейших участников рынка, как «Яндекс» и МТС. В феврале 2025 года «Яндекс» запустил для бизнеса Dedicated Inference Endpoint — инструмент для инференса нейросетей на выделенных облачных ресурсах по заявкам клиента, рассказывает руководитель продуктового ML-направления Yandex Cloud Артур Самигуллин. «С его помощью можно запустить модели YandexGPT, а также Qwen, DeepSeek, LLaMa и множество других нейросетей с открытым исходным кодом. Таким образом, бизнес всегда может протестировать новые и актуальные версии моделей, выбрать оптимальную и дообучить ее под свои задачи, — говорит он. — При этом клиенту не нужно самостоятельно готовить инфраструктуру, настраивать работу нейросети и ее мониторинг». В Yandex Cloud также планируют вскоре добавить запуск моделей в выделенном режиме «по кнопке» с возможностью выбора параметров инференса.
Функционал инференса LLM в облаке также реализован в платформе MWS GPT, которую МТС запустила в феврале. Сервис позволяет бизнесу единовременно использовать разные LLM, а также работать с любыми open-source-моделями, дообучать их, применять функционал function calling, а затем внедрять и использовать готовые решения на инфраструктуре MWS, говорит CPO платформы MWS GPT Павел Бабин. По его словам, MWS GPT снимает с заказчика необходимость управлять инфраструктурой, думать про использование ресурсов и платить за дорогую аренду видеокарт, а тем более переживать за «эффективное масштабирование». «Клиент получает масштабируемость из коробки», — заключает он.
Почем интеллект
«Если мы берем в качестве примера кейс консультации или поддержки пользователей, то инференс действительно становится более экономически эффективным. Модель работает только тогда, когда поступает обращение от пользователя — это позволяет избежать постоянных затрат на вычисления, как в случае с выделенными серверами или собственной инфраструктурой, — заверяют в Cloud.ru. — По нашим подсчетам, при таком сценарии аренда инфраструктуры обходится более чем в 10 раз дороже, чем использование инференса в облаке (в месяц). Кроме того, это существенно упрощает работу ML-инженера — модель можно развернуть буквально в несколько кликов, без необходимости глубокой настройки».
Сервис от МТС работает по модели pay-as-you-go, и оплата происходит по факту потребления. «В целом стартап с небольшой нагрузкой может пользоваться сервисом за 10 000 рублей в месяц или даже меньше. Соответственно, чем больше данных обрабатывается, тем выше оплата», — заключают в компании.
Источник: www.forbes.ru