Интернет-магазин DONTA

Hugging Face демонстрирует, как масштабирование вычислений во время тестирования может помочь SLM превзойти более крупные модели ИИ

Исследователи смогли улучшить возможности открытых моделей ИИ с помощью исследования Google DeepMind.

Hugging Face демонстрирует, как масштабирование вычислений во время тестирования может помочь SLM превзойти более крупные модели ИИ

Модели рассуждений, такие как o1 от OpenAI, используют масштабирование во время тестирования для улучшения своих результатов

Реклама

Hugging Face поделился новым исследованием на прошлой неделе, демонстрирующим, как малые языковые модели (SLM) могут превзойти более крупные модели. В посте исследователи платформы заявили, что вместо увеличения времени обучения моделей искусственного интеллекта (ИИ), сосредоточение внимания на вычислениях во время тестирования может показать улучшенные результаты для моделей ИИ. Последнее является стратегией вывода, которая позволяет моделям ИИ тратить больше времени на решение проблемы и предлагает различные подходы, такие как самообновление и поиск по верификатору, которые могут повысить их эффективность.

Как работает масштабирование вычислений во время тестирования

В своем посте Hugging Face подчеркнул, что традиционный подход к улучшению возможностей модели ИИ часто может быть ресурсоемким и чрезвычайно дорогим. Обычно используется метод, называемый train-time compute, где данные и алгоритмы предварительной подготовки используются для улучшения способа, которым базовая модель разбивает запрос и получает решение.

В качестве альтернативы исследователи утверждают, что сосредоточение внимания на масштабировании вычислений во время тестирования, методе, когда моделям ИИ разрешено тратить больше времени на решение проблемы и давать им возможность исправиться, может показать похожие результаты.

Выделив пример модели OpenAI o1 reasoning-focused, которая использует вычисления во время тестирования, исследователи заявили, что эта техника может позволить моделям ИИ демонстрировать улучшенные возможности, несмотря на то, что они не вносят изменений в данные обучения или методы предварительной подготовки. Однако была одна проблема. Поскольку большинство моделей рассуждений закрыты, нет возможности узнать, какие стратегии используются.

Исследователи использовали исследование Google DeepMind и методы обратного проектирования, чтобы выяснить, как именно разработчики LLM могут масштабировать вычисления во время тестирования на этапе постобучения. Согласно исследованию, простое увеличение времени обработки не показывает значительного улучшения выходных данных для сложных запросов.

Вместо этого исследователи рекомендуют использовать алгоритм самообновления, который позволяет моделям ИИ оценивать ответы в последующих итерациях, а также выявлять и исправлять потенциальные ошибки. Кроме того, использование верификатора, по которому модели могут выполнять поиск, может еще больше улучшить ответы. Такими верификаторами могут быть обученная модель вознаграждения или жестко закодированная эвристика.

Более продвинутые методы будут включать подход best-of-N, когда модель генерирует несколько ответов на проблему и присваивает оценку, чтобы судить, какой из них лучше подходит. Такие подходы можно сочетать с моделью вознаграждения. Поиск по лучу, который отдает приоритет пошаговому обоснованию и присваивает баллы за каждый шаг, — еще одна стратегия, на которую обратили внимание исследователи.

  • ИИ предсказывает ароматы и происхождение виски с точностью более 90 процентов

Используя вышеупомянутые стратегии, исследователи Hugging Face смогли использовать SLM Llama 3B и заставить ее превзойти Llama 70B, гораздо более крупную модель, на тесте MATH-500.