Алгоритмическая метрика для оценки качества машинного перевода путём сравнения с одним или несколькими эталонными переводами, выполненными человеком. Оценивает точность совпадения n-грамм (последовательностей слов).
Пример: При разработке AI-переводчика для описаний товаров BLEU score используется для автоматической проверки, насколько перевод модели близок к профессиональному переводу, выполненному лингвистом.
BLEU (Bilingual Evaluation Understudy) Score — это широко используемая метрика для автоматической оценки качества текста, сгенерированного машинным переводом, по сравнению с одним или несколькими эталонными переводами, выполненными человеком.
Принцип работы BLEU заключается в подсчете совпадений n-грамм (последовательностей из N слов) между машинным переводом и эталонными переводами. Чем больше совпадений, особенно длинных n-грамм, тем выше оценка. Метрика также включает штраф за слишком короткие переводы, чтобы избежать получения высоких баллов за неполные фразы. Она выражается в значении от 0 до 1 (или от 0 до 100%).
Эта метрика необходима для быстрого и объективного сравнения различных систем машинного перевода, оптимизации их производительности и отслеживания прогресса в задачах NLP, таких как машинный перевод, суммаризация текста и генерация ответов. BLEU является первым шагом в оценке качества, позволяя исследователям и разработчикам количественно оценивать эффективность своих моделей без привлечения дорогостоящих человеческих экспертов на каждом этапе.