Контекстное окно (Context Window)

Модели и архитектуры

Максимальное количество токенов (слов, символов), которое модель может одновременно принять на вход и удерживать в памяти для обработки одного запроса. Определяет, насколько длинные тексты или диалоги может анализировать модель. Пример: Модель Claude с контекстным окном в 200 000 токенов способна анализировать и резюмировать документ объёмом в 200 страниц за один запрос.

Контекстное окно (Context Window) — это определенный лимит токенов (слов или их частей), который большая языковая модель (LLM) может одномоментно обработать и использовать для генерации ответа. Этот лимит включает в себя как пользовательский запрос (промпт), так и саму историю диалога, а также потенциально сгенерированный моделью ответ.

Размер контекстного окна напрямую определяет способность модели «помнить» предыдущие части разговора или большой объем входной информации. Чем больше контекстное окно, тем более сложные и многошаговые задачи может выполнять модель, сохраняя логику и согласованность. Это критично для приложений, требующих понимания длительных текстов, когерентных диалогов или обработки больших объемов данных.

Работа контекстного окна заключается в том, что все токены, находящиеся внутри этого лимита, формируют «понимание» модели о текущей ситуации. Токены за пределами этого окна либо отбрасываются, либо требуют дополнительных механизмов (например, суммаризации или ретривера) для включения в контекст. Ограничение обусловлено вычислительными мощностями и архитектурой трансформеров, на которых базируются современные LLM.