Короткий ответ: да — сейчас есть рабочие нейросети и инструменты, которые могут генерировать 10–20‑секундные ролики; но большинство качественных решений либо требуют серьёзного локального железа (GPU с приличным объёмом VRAM) и некоторой настройки, либо у коммерческих веб‑сервисов есть платные лимиты/привязка карт. Полностью бесплатные, простые и «из коробки» веб‑сервисы с хорошим качеством на 20 с практически отсутствуют.
Что реально подходит под ваши условия (без доната/карт, работает в РФ без прокси):
1) Локально (рекомендую — лучший вариант без оплаты и без привязки карт)
- Automatic1111 WebUI + Deforum (скрипт/расширение для анимаций Stable Diffusion).
- Возможности: генерация анимаций из текста и опорных изображений (img2img), keyframes, камера/зум, экспорт кадров/видео.
- Плюсы: бесплатное, работает оффлайн, много гайдов и сообществ.
- Минусы: нужен GPU (рекомендуемо ≥8–12 GB VRAM для SD1.5; для SDXL/более качественных моделей — ещё больше), установка Python/CUDA, скачивание модели (checkpoint).
- ComfyUI (с видео‑нодами) или другие локальные пайплайны (Stable Diffusion + ControlNet).
- Возможности: более модульный подход, удобно делать кондиционирование по референсу (ControlNet, depth, pose).
- AnimateDiff (GitHub) — open‑source текст‑видео модель, поддерживает image‑conditioned generation.
- Плюсы: ориентирована на видео, есть режимы с conditioning.
- Минусы: требует скачивания весов и мощного GPU, может быть сложнее в установке.
2) Комбинированный рабочий пайплайн для лучшего качества и стабильности
- Генерируете базовые кадры через img2img / keyframes (SD + Deforum или AnimateDiff) с фиксированным seed.
- Применяете ControlNet/depth/pose для согласованности композиции по кадрам (особенно если есть опорное изображение).
- Сглаживаете движение и добавляете промежуточные кадры с RIFE/DAIN (интерполяция), повышаете разрешение/чёткость с ESRGAN или Real-ESRGAN.
- Финально собираете в видео через ffmpeg.
3) Другие полезные инструменты (без оплаты, работают локально)
- Ebsynth — перенос стиля/правок с опорного кадра на видео (если есть исходная последовательность кадров).
- RIFE (реалтайм‑интерполяция кадров) — делает плавнее.
- Real‑ESRGAN / Video2X — апскейл видео.
Ограничения и реальность ожиданий
- Качество кадров и временная стабильность всё ещё хуже чем у фото‑генерации: артефакты, «прыжки» в деталях, проблемы с лицами/руками/логикой движения.
- Для 10–20 с при 24–30 fps придётся генерировать сотни кадров — это ресурсоёмко.
- Многие самые «горячие» текст‑видео модели (Imagen Video, Make‑A‑Video, Pika) закрыты/коммерческие или дают лишь демо/лимиты.
Доступность в РФ
- GitHub‑репозитории и открытые проекты работают из России без VPN.
- Единственная «затычка» — некоторые официальные checkpoints (например от StabilityAI) теперь распространяются через Hugging Face и требуют принятия лицензии/входа в аккаунт. Но существуют альтернативные community‑чекпоинты и модели, которые можно найти/скачать (внимание к лицензиям и правовым ограничениям).
Если хотите, помогу:
- Подскажу конкретные репозитории/ссылки и команду установки (Automatic1111 + Deforum или ComfyUI), либо
- Подберу оптимальный рабочий пайплайн по вашему железу — напишите, какая у вас видеокарта (VRAM), есть ли опыт установки python/CUDA, и хотите ли совсем «без консоли» интерфейс.