23 июня, 2024

hleb

Находите все последние статьи и смотрите телешоу, репортажи и подкасты, связанные с Россией.

Исследователи Microsoft представляют переформулировку: итеративный алгоритм выборки, который ищет рецепты цепочки размышлений (CoT) для данной задачи без вмешательства человека.

Исследователи Microsoft представляют переформулировку: итеративный алгоритм выборки, который ищет рецепты цепочки размышлений (CoT) для данной задачи без вмешательства человека.

https://arxiv.org/abs/2305.09993

Недавно языковые большие модели (LLM) разработали и трансформировали обработку естественного языка с помощью своих низкоуровневых мотивационных методов. Эти модели расширили возможности использования практически во всех областях, от машинного перевода, понимания естественного языка, завершения текста, анализа тональности, распознавания речи и так далее. При низкоуровневом мотивационном подходе LLM предоставляется несколько примеров данной задачи, а также некоторые инструкции на естественном языке и их использование; Они способны адаптироваться и научиться правильно выполнять задачу. Задачи, которые требуют повторяющихся шагов и распространения ограничений, имеют несколько ограничений при использовании этих методов стимуляции, чтобы преодолеть любой новый представленный подход.

Группа исследователей из Microsoft Research, Редмонд, США, недавно представила новый метод под названием Reprompting, который устраняет все ограничения, связанные с методами стимуляции. Этот подход автоматически ищет некоторые полезные и эффективные подсказки цепочки идей (CoT). Цепное управление помогает улучшить логические способности больших языковых моделей и помогает им выполнять сложные логические задачи. Для этого во время стимула в качестве моделей представляются несколько декларативных цепочек мыслей. Он очень эффективно находит реверсирование стимуляции ЦТ без какого-либо вмешательства человека.

Исследователи использовали итеративную технику выборки, известную как выборка Гиббса, в своем алгоритме повторной подсказки. Он формулирует проблему как выборку общего распределения эпитетов CoT. Поскольку распределение трудно охарактеризовать напрямую, в качестве метода аппроксимации использовалась выборка Гиббса. Этот метод выборки помогает определить наилучшую инструкцию, пробуя разные инструкции и выбирая лучшую.

Алгоритм повторной подсказки начинается с выборки необработанных рецептов CoT с помощью подсказки без срабатывания, при которой не предоставляется немедленная информация. Подсказка Zero-shot позволяет LLM генерировать ответы на задачи без предварительного обучения. Затем алгоритм многократно пробует новые рецепты, используя решения, ранее выбранные в качестве родительских подсказок, и эти новые рецепты используются для решения других задач обучения с целью найти набор стимулов, которые имеют схожие подсказки CoT.

READ  Поставщик Apple в значительной степени подтверждает смерть твердотельных кнопок iPhone 15 Pro.

Алгоритм оценивался по Большой пятерке задач (BBH), требующих многошагового мышления. BBH фокусируется на задачах, которые, по ее мнению, выходят за рамки возможностей и возможностей современных языковых парадигм. ChatGPT и InstructGPT использовались в качестве LLM для оценки алгоритма. При оценке было показано, что повторные подсказки работают лучше, чем написанные человеком методы стимуляции CoT.

Повторная выборка также показала большой потенциал в сочетании моделей с использованием различных LLM для инициализации и выборки новых рецептов. Это может помочь перенести знания из более сильной модели в более слабую модель, что приведет к значительному повышению производительности, демонстрируемой более слабой моделью. Повторные подсказки показали лучшие результаты, чем написанные человеком CoT, вызывающие задачи BBH, на 17 баллов. Исследователи заявили, что рецепты CoT, которые хорошо работают на одной модели, могут не работать на другой, подчеркнув необходимость оптимизации CoT каждой модели для более объективного сравнения.

Короче говоря, алгоритм повторной подсказки — это отличный автоматизированный метод поиска эффективных требований CoT для LLM без вмешательства человека. Это ценный подход для устранения ограничений существующих методов и достижения превосходной производительности в задачах, требующих многоэтапного мышления.


сканировать бумага. Не забудьте присоединиться 21k+ML Sub RedditИ Дискорд-каналИ И Информационный бюллетень по электронной почте, где мы делимся последними новостями об исследованиях ИИ, крутыми проектами в области ИИ и многим другим. Если у вас есть какие-либо вопросы относительно статьи выше или если мы что-то пропустили, напишите нам по адресу [email protected]

🚀 Ознакомьтесь с инструментами искусственного интеллекта 100 в клубе инструментов искусственного интеллекта.

Таня Малхотра учится на последнем курсе Университета нефти и энергетики в Дехрадуне и получает степень бакалавра технических наук в области компьютерных наук со специализацией в области искусственного интеллекта и машинного обучения.
Она увлечена наукой о данных и обладает хорошим аналитическим и критическим мышлением, а также большим интересом к приобретению новых навыков, руководству группами и организованному управлению работой.

READ  Как сбросить пароль Apple Watch