Продвинутая техника дообучения языковых моделей, при которой модель сначала учится генерировать ответы, затем люди оценивают разные варианты ответов, и на основе этих оценок строится модель вознаграждения, с помощью которой основная модель учится давать более качественные, безопасные и полезные ответы.
RLHF (Reinforcement Learning from Human Feedback), или обучение с подкреплением на основе обратной связи от человека, — это техника, используемая для тонкой настройки больших языковых моделей (LLM).
Она позволяет выравнивать поведение модели с человеческими предпочтениями и ценностями, делая её ответы более полезными, честными и безвредными. В процессе RLHF сначала генерируются несколько ответов модели на один и тот же промпт, затем живые асессоры или специально обученные модели оценивают эти ответы по заданным критериям (например, релевантность, связность, безопасность).
На основе этих оценок обучается модель вознаграждения (reward model), которая затем используется для оптимизации исходной LLM с помощью алгоритмов обучения с подкреплением. Таким образом, модель учится генерировать ответы, которые максимизируют ожидаемое вознаграждение, то есть соответствуют человеческим предпочтениям. Эта итеративная процедура значительно улучшает качество и безопасность генеративных моделей, преодолевая ограничения традиционной тонкой настройки на размеченных данных.