Набор метрик для автоматической оценки качества суммаризации текста и других задач генерации. ROUGE-N оценивает совпадение n-грамм, ROUGE-L — совпадение самой длинной общей подпоследовательности.
Пример: Перед внедрением AI-инструмента для создания резюме отчётов, инженеры проверяют его работу с помощью ROUGE score, сравнивая AI-сводки с эталонными, написанными аналитиками.
ROUGE Score (Recall-Oriented Understudy for Gisting Evaluation) — это набор метрик, используемых для автоматической оценки качества текста, сгенерированного компьютерной программой, по сравнению с эталонным текстом (или несколькими эталонными текстами), написанным человеком. Чаще всего ROUGE применяется для оценки систем суммаризации текста и машинного перевода.
Существует несколько вариантов ROUGE, каждый из которых по-разному измеряет пересечение слов или N-грамм (последовательности из N слов) между сгенерированным и эталонным текстами. Например, ROUGE-N сравнивает количество совпадающих N-грамм, ROUGE-L — самую длинную общую подпоследовательность, а ROUGE-S — пары пропущенных слов (skip-bigram). Высокий ROUGE Score обычно указывает на хорошее качество суммаризации или перевода, так как сгенерированный текст содержит много ключевых фраз из эталонного. Метрика позволяет быстро и объективно оценить большие объемы текста без участия человека, что критически важно для разработки и тестирования AI-моделей.