Коротко — да, такое возможно, и причин несколько. Ниже — почему это может происходить и что можно сделать, чтобы уменьшить расход квоты.
Возможные причины
- Платформа (Antigravity) считает не только число запросов, а «стоимость» каждого запроса (токены/compute). Даже небольшой проект может потребовать большого контекста — и это дорого.
- Вы могли случайно переключиться на более «дорогой» режим/модель (например, Gemini 3.1 Pro с более высоким cost-per-token или с включёнными тяжёлыми опциями).
- Большие входы/выходы: если вы отправляете целые файлы или длинные логи — каждый запрос потребляет много токенов.
- Множественные повторные вызовы/ретраи: автоповторы или параллельные запросы съедают квоту быстрее.
- Площадка может иметь отдельные ограничения (например, 5‑дневная пауза/циклы обнуления) или баг в учёте на стороне Antigravity.
- Использование дополнительных функций (анализ кода, execution, multimodal, длинные генерации) увеличивает расход.
- Если вы делаете задания, которые требуют много внутренней обработки (рефакторинг большого блока, генерация тестов, подробные объяснения) — это дороже, чем простые правки.
Что проверить сначала (диагностика)
1. Зайдите в дашборд Antigravity / billing и посмотрите детализацию расходов: какие запросы/токены съели квоту.
2. Посмотрите логи запросов — размер входа и выхода (в токенах или символах), частота запросов, были ли ретраи.
3. Убедитесь, что используете действительно Gemini 3.1 Pro, а не более дорогую опцию (или наоборот — не переключились на Ultra).
4. Посмотрите настройки запросов: max_output_tokens, temperature, включён ли режим «analysis»/tools.
5. Проверьте, не делает ли платформа дополнительные фоновые запросы (например, проверка безопасности, синтакс.анализ), которые тоже учитываются.
Практические способы снизить расход
- Считать/ограничивать токены:
- Установите max_output_tokens (чтобы модель не генерировала лишние килобайты).
- Обрезайте вход (убирайте несущественные комментарии, большие блоки, отправляйте только диффы).
- Работать с контекстом:
- Вместо отправки всей кодовой базы — индексируйте репозиторий в векторное хранилище и посылайте только релевантные фрагменты.
- Используйте подход «summarize + diff»: сначала получите сводку файла, потом отправляйте только изменённые участки.
- Менять модель для рутинных задач:
- Используйте более лёгкую/дешёвую модель (instant/1.5/1.0) для базовой рефакторной работы или поиска, а Gemini 3.1 Pro — для сложных задач.
- Кэширование и локальная логика:
- Кэшируйте результаты частых запросов.
- Делайте локальную валидацию (статический анализ, unit tests) до отправки в LLM.
- Оптимизация запросов:
- Делайте пачки изменений в одном запросе (если это выгоднее по токенам), либо наоборот — дробите, если генерация каждого шага даёт много лишнего вывода.
- Задавайте явные инструкции: «возьми только эти 50 строк», «ответ — не более 200 токенов, без объяснений».
- Уточнить условия подписки/лимитов:
- Связаться с поддержкой Antigravity: запросите детализацию лимитов и объяснение, почему 5‑дневное ожидание.
- Возможно, потребуется апгрейд тарифа или запрос на увеличение квоты.
Если нужно — я могу помочь:
- Посмотреть пример запроса (вход + ожидаемый выход) и оценить примерный расход токенов.
- Составить оптимизированный prompt/flow для работы с PHP‑проектом (чтобы снизить токены).
- Подготовить список файлов/диффов, которые выгоднее отправлять моделью.
Хотите прислать пример запроса (включая размер входа/выхода или скрин usage с дашборда)? Тогда скажу конкретно, что именно резать/перенастраивать.