Заглянули под капот: ученые выяснили, как ИИ принимает решения на разных этапах

    Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research разработали новый метод, который помогает понять, почему ИИ-модель приняла то или иное решение в процессе вычисления, и при необходимости повлиять на нее, узнал Forbes. По мнению экспертов, этот метод, названный SAE Match, может помочь преодолеть эффект «черного ящика» для бизнеса и потенциально подтолкнуть вперед весь рынок, поскольку компании начнут больше доверять технологии

    В лаборатории исследований искусственного интеллекта T-Bank AI Research разработали новый научный метод под названием SAE Match, который позволяет заглянуть внутрь искусственного интеллекта, выяснить, в какой момент ИИ начинает давать неправильные или нежелательные ответы, и вовремя скорректировать их, рассказали Forbes в компании. «Это прорывной шаг на пути к более прозрачным, точным и понятным алгоритмам, что особенно важно при внедрении ИИ в критически важные сферы, такие как медицина, финансы и безопасность», — утверждают в Т-банке.

    Telegram-канал Forbes.Russia Канал о бизнесе, финансах, экономике и стиле жизни Подписаться

    В чем суть открытия

    Метод SAE Match относится к области интерпретируемости ИИ, главная цель которой — сделать работу ИИ более прозрачной и понятной для человека, чтобы можно было отслеживать, как модель обрабатывает информацию, почему она принимает те или иные решения, и впоследствии повысить точность ответов.

    Современные языковые модели состоят из нескольких слоев, каждый из которых использует результат предыдущего: так модель старается улучшить свои предсказания слой за слоем, поясняют в Т-банке: «Однако иногда модель может выдавать недостоверную или даже оскорбительную информацию. Ранее не существовало метода, который позволял бы проследить, как концепции изменяются от слоя к слою. SAE Match стал первым инструментом, который не просто фиксирует концепции на отдельных слоях, а анализирует их эволюцию в процессе вычислений». Эксперименты на ряде моделей показали, что он помогает отслеживать признаки, которые остаются неизменными на нескольких слоях сети, указывают в компании: «Это делает поведение ИИ более предсказуемым и понятным, в том числе дает возможность контролировать процесс генерации текста, а не просто накладывать внешние ограничения или обучать модель на новых данных, что дорого и требует больших вычислительных ресурсов».

     

    Кроме того, как заверяют авторы метода (ими указаны Никита Балаганский, Ян Максимов и Даниил Гаврилов), SAE Match не требует дополнительных данных или дообучения модели, что делает его гораздо более доступным, чем другие методы контроля работы ИИ: «Это особенно важно для небольших команд, которые не могут позволить себе сбор и обработку больших наборов данных». Также метод, по их словам, позволяет отслеживать, когда модель начинает предсказывать нежелательные или потенциально опасные фразы, и предотвращать их появление, это поможет создавать более безопасные и этичные решения на базе ИИ.

    «Представьте умного голосового помощника, который рекомендует фильмы. И вдруг он начинает выдавать недостоверную или даже грубую информацию, — говорит руководитель научной группы LLM Foundations в T-Bank AI Research Никита Балаганский. — Сейчас изменить его поведение — сложная задача, ведь существующие методы не дают нам четкого понимания, где именно возникла проблема. Наши исследования в области интерпретируемости ИИ направлены на то, чтобы такие сбои можно было заметить и быстро исправить без дорогостоящего переобучения модели».

     

    Результаты исследования будут представлены на одной из главных международных конференций в области машинного обучения и искусственного интеллекта уровня А* ICRL, которая пройдет в Сингапуре 24-28 апреля 2025 года.

    Почему это важно

    Появление таких решений подталкивает рынок к новому этапу зрелости, указывают эксперты. Прозрачность и интерпретируемость моделей становятся не академической задачей, а реальным конкурентным преимуществом, полагает CEO AI-лаборатории NDT (Neuraldeep.tech, входит в группу компаний red_mad_robot) Валерий Ковальский. «Если бизнесу проще понять, как работает ИИ, — он быстрее принимает решение о его внедрении. Это повышает общую планку требований к разработчикам, особенно в условиях, когда open source сообщество уже предлагает сопоставимые инструменты. Вопрос будет не только в научной новизне, но и в том, кто быстрее и удобнее адаптирует технологию под реальные задачи», — считает он.

    Исследователи предложили оригинальный способ, как можно сделать работу современных больших языковых моделей (Large Language Model, LLM) более прозрачной, чтобы их было легче анализировать, понимать и корректировать, размышляет руководитель разработки больших языковых моделей 

    Avito  Анастасия Рысьмятова. Такие решения, по ее мнению, могут в будущем дать исследователям и разработчикам мощный инструмент для анализа внутренней логики нейросетей и повышения их прозрачности, помогая создавать более предсказуемые и надежные системы ИИ. «Развитие этого подхода способно сократить затраты на создание моделей, снизить риски возникновения ошибок и галлюцинаций, а значит, повысить доверие к результатам работы нейросетей», — говорит она.

     

    В банковском секторе, промышленности и ряде других областей, где решения влияют на миллиардные активы и безопасность производства, «черный ящик» нейросетей неприемлем, рассуждают в MTS AI. «Компаниям требуется полная объяснимость каждого этапа работы модели: от обработки входных данных до формирования результата. Например, если ИИ рекомендует отказать в кредите или остановить конвейер, специалисты должны понимать, на основании каких параметров принято решение. Это не только снижает риски ошибок, но и позволяет оперативно корректировать логику системы. Чем прозрачнее работа алгоритма, тем выше точность и доверие к его выводам», — объясняют в компании важность SAE Match.

    Объем российского рынка LLM‑продуктов для бизнеса по итогам 2024 года составит 35 млрд рублей, подсчитывали ранее в Центре искусственного интеллекта МТС (MTS AI). До 2028 года, когда он увеличится до более чем 85 млрд рублей, этот показатель будет расти в среднем на 25% в год, прогнозировали аналитики центра.

    Задача обеспечения безопасности и контроля ИИ очень важна сегодня, некоторые компании в гонке за новыми моделями и показателями в бенчмарках забывают про этот аспект, замечает CTO направления genAI в Just AI Антон Сипачев. «А между тем ИИ внедряется повсеместно, и агентские подходы, в которых ИИ может обращаться к различным сервисам и системам, делает его далеко не просто безобидным текстовым чатом, — продолжает он. — Есть разные подходы к решению этой задачи — предобучение на фильтрованных данных или цензурирование сгенерированных токенов». Предложенный метод позволит как глубже провести анализ проблемных мест, так и улучшить уже существующие методы, считает Сипачев.

    Одна из проблем в области интерпретируемого ИИ — так называемая полисемантичность и наложение признаков, поясняет директор лаборатории FusionBrain Института AIRI Андрей Кузнецов. Это значит, что один и тот же участок нейронов в модели может отвечать за несколько разных концепций сразу, например за понятия «мама» и «женщина», продолжает он, и отследить, как именно эти признаки меняются от слоя к слою внутри модели, довольно сложно. «Коллеги предложили авторский способ сопоставления таких признаков между слоями. Это может быть очень полезным в ситуациях, когда доступ к обучающим данным ограничен или невозможен, — рассуждает Кузнецов. — Основная цель — понять, что происходит с концептами внутри модели, чтобы установить, почему модель отвечает на вопросы определенным образом. Помимо этого, в работе предложен механизм для сокращения размера моделей без потери качества ответов».

    Хотя метод решает довольно техническую задачу, направление исследования «крайне актуально» в современной исследовательской повестке, потому что понимание внутренних механизмов работы моделей важно как для безопасности, так и для практического применения, обращает внимание Кузнецов. «Например, чтобы знать, что модель не выдает токсичные или ложные ответы из-за внутренних свойств своей архитектуры. Более того, над тем, как сделать модели более интерпретируемыми, сейчас работает все наше научное сообщество в сфере ИИ, а наука — это коллективный и кумулятивный процесс, в котором масштабные сдвиги происходят в процессе объединения узкоспециализированных результатов», — заключает он.

     

    Источник: www.forbes.ru

    Like this post? Please share to your friends:
    Arcads
    Добавить комментарий

    ;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: