Минимальная смысловая единица текста, на которую модель разбивает входные и выходные данные. Это может быть слово, часть слова (суффикс/приставка), символ или знак пунктуации. Лимиты моделей часто измеряются в токенах.
Пример: Слово «Москва» может быть одним токеном, а словосочетание «искусственный интеллект» может разбиться на два или три токена в зависимости от модели.
Токен в контексте обработки естественного языка (NLP) и больших языковых моделей (LLM) — это базовая, минимальная смысловая единица текста, на которую модель может оперировать. Проще говоря, это "слово" или "часть слова", которую модель понимает.
Процесс преобразования текста в токены называется токенизацией. Это первый шаг при подаче текста в LLM. Модели не работают с буквами напрямую, а воспринимают текст как последовательность токенов. Токенизация может быть основана на словах, подсловах (например, приставка, корень, суффикс) или даже символах, в зависимости от используемого алгоритма (BPE, WordPiece, SentencePiece). Например, слово "невероятно" может быть токенизировано как один токен, так и на несколько, таких как "не", "веро" и "ятно".
Токены играют ключевую роль, поскольку они определяют размер словаря модели и вычислительную сложность. Чем больше токенов в тексте, тем больше вычислительных ресурсов требуется для его обработки и тем выше стоимость запроса к коммерческим API.