Report of airi test task for Research Scientist

Part 1. Part 2. Review of papers

DPDP for VRP (paper, code)

В статье на примере задач VRP (Vehicle Routing Problems) показано, как можно ускорить классическое динамическое программирование с помощью обучаемой эвристрики (aka GNN for beam search). Это помогает находить оптимальные решения быстрее, чем другие методы.
Меня в этой статье больше всего заинтересовало то, как была проведена интеграция методов глубокого обучения и классической оптимизации. И то что DPDP превосходит традиционные эвристики, сохраняя при этом преимущества гарантий оптимальности.
Вопросы: Можно ли использовать DPDP для ускорения обучения AlphaZero-like архитектур?

The Primacy Bias in Deep Reinforcement Learning (paper, code)

Problem: The Primacy Bias in Deep RL: a tendency to overfit early experiences that damages the rest of the learning process. Solution: Given an agent’s neural network, periodically reinitialize the parameters of its last few layers while preserving the replay buffer.

Primacy bias связанo с тенденцией рл алгоритмов переобучаться на ранних взаимодействиях с окружающей средой, что приводит к пренебрежению информацией, полученной из более позднего опыта. При этом, при применении классических алгоритмов с replay buffer-ом, RL агент реже обучается на новом опыте, так как периодически возвращается к старому опыту, усугубляя проблему primacy bias. Для решения этой проблемы авторы предлагают периодически сбрасывать последние слои агента, сохраняя при этом их replay buffer.
Меня заинтересовало то, что здесь решая проблему переобучения мы так же улучшаем exploration модели (причем в статьях про exploration эта идея была уже давно, например тут периодически полностью обновляют веса агента, отвечающего за exploration модели), а так же то, что решение выглядит очень простым и хочется попробовать применить где-то похожий концепт.

Toolformer: Language Models Can Teach Themselves to Use Tools (paper)

Статья о том, как зафайнтьюнить ллм для того, чтобы она научилась пользоваться некоторым простым API (калькулятор, календарь, поиск по википедии, машинный переводчик, q&a). Авторы рассказывают о том, как с помощью уже обученной ллм переписать исходный датасет на датасет с вставками вызовов API и тем самым получить данные, на которых можно обучить модель, которая умеет пользоваться API. Такая модель превосходит более большие модели на различных бенчмарках.
Добавила потому что решение выглядит очень простым и красивым.
Возможно сложный decision making можно сильно упростить с помощью какого-то подобного hierarchical learning, когда мы учимся решать задачу с помощью помощников (как API в этой статье для ллм).

Вот так должен выглядеть вызов API в сгенерированном тексте: