🪙 Как не сливать токены в языковых моделях

Если вы активно пользуетесь языковыми моделями вроде Claude или GPT, то наверняка замечали, как быстро заканчиваются лимиты токенов. Особенно это применимо к премиум моделям, типа Opus 4.6, использование которых даже на платных подписках лимитировано. Всё дело в том, что при каждом запросе передаётся вся история диалога, и чем она длиннее, тем больше токенов уходит. Но есть способ сэкономить.

Попробуйте делать краткое summary. На определённом этапе общения с моделью (например, в середине диалога) попросите её сформулировать резюме в формате markdown. В этом резюме должна быть вся ключевая информация, чтобы другой агент мог продолжить разговор с того же места. Затем откройте нового агента, вставьте туда это summary и задайте следующий вопрос. Новый диалог начнётся с минимальной историей, но с сохранением контекста 👍

👩‍💻 Data Flow