Эффективный метод дообучения больших языковых моделей, при котором вместо обновления всех миллиардов параметров модели обучаются небольшие низкоранговые матрицы, которые затем внедряются в исходную модель. Резко снижает вычислительные затраты и требования к памяти.
LoRA (Low-Rank Adaptation of Large Language Models) – это метод эффективного дообучения больших языковых моделей (LLM).
Вместо того чтобы изменять все миллиарды параметров огромной модели, LoRA замораживает веса предобученной модели и внедряет небольшое количество обучаемых низкоранговых матриц в каждый слой Трансформера. Эти матрицы имеют значительно меньше параметров по сравнению с оригинальной моделью, что радикально сокращает число изменяемых весов. Например, вместо переобучения 100 миллиардов параметров, LoRA может дообучать всего несколько миллионов.
Процесс дообучения LoRA фокусируется только на этих небольших матрицах, что позволяет существенно снизить вычислительные затраты и требования к памяти. После обучения эти низкоранговые матрицы объединяются с весами исходной модели для инференса. Таким образом, LoRA является эффективным способом адаптации LLM к новым задачам или предметным областям без необходимости полного переобучения, что экономит время и ресурсы, а также позволяет хранить множество "адаптеров" для одной базовой модели.