Aginx
Контент-завод: из текстового брифа автоматически собирает готовый вертикальный ролик до 60 секунд для Reels / Shorts / TikTok. LLM пишет сценарий со сценами, крючком и стилем озвучки, а пайплайн генерирует видео, голос, музыку и субтитры и сшивает их в один файл через ffmpeg. Один контур: бриф → сценарий → медиа → монтаж.
Оглавление
Эксперимент в производстве: можно ли свести съёмку короткого ролика к одному контуру «бриф → готовый файл», где LLM работает режиссёром, а генеративные модели — съёмочной группой. Без ручного монтажа, повторяемо, с фолбэками.
Контекст
Личный бренд и контент-маркетинг упираются в один и тот же затык: идея есть, а на съёмку, монтаж, озвучку и субтитры уходят часы. Aginx убирает ручной труд из этой цепочки — на вход короткий бриф в свободной форме, на выход готовый вертикальный ролик 9:16 под Reels, Shorts или TikTok.
Как это устроено
Контур из четырёх стадий, каждая — отдельный, изолированный шаг:
- Оркестратор — Claude получает бриф и возвращает строгий JSON-сценарий: сцены с таймингом, визуальные промты (английские, кинематографичные), текст озвучки (русский), настроение, движение камеры, промт музыки и крючок-первая фраза.
- Визуал — по типу контента:
broll(видео по сценам),slideshow(изображения с движением) илиtalking_head(анимированный аватар, говорящий под озвучку). - Аудио — синтез голоса и фоновой музыки; озвучка генерируется до платной генерации видео, чтобы не жечь бюджет, если TTS упал.
- Сборка — ffmpeg сшивает сцены, микширует голос и музыку, прожигает ASS-субтитры и отдаёт один
.mp4.
Инженерная рамка
- Один источник правды — сценарий. LLM отдаёт типизированный JSON под Pydantic-схему; всё, что ниже, читает структуру, а не свободный текст. Меньше неоднозначности, проще отлаживать.
- Провайдеры с фолбэком.
MediaProviderходит сначала в fal.ai, при ошибке переключается на Replicate; голос — ElevenLabs / MiniMax. Модели — параметр конфига, а не вшитая зависимость. - Идемпотентность и resume. Сценарий и промежуточные файлы пишутся на диск сразу; прерванную задачу можно продолжить — готовые сцены пропускаются, а не пересчитываются.
- Порядок ради денег. Дешёвые и рискованные шаги идут раньше дорогих: сначала сценарий и озвучка, потом платная генерация видео.
Режимы и управление
- Три типа контента:
broll,talking_head,slideshow— оркестратор выбирает сам или его можно зафиксировать. - CLI на Typer: бриф строкой или JSON-файлом, тонкая настройка голоса (стабильность, скорость, высота, эмоция),
--dry-runдля просмотра только сценария,resumeдля докрутки задачи. - Конфиг, а не код: модели, разрешение, fps, громкость музыки и параметры голоса вынесены в
config.yaml.
Что забрал как инженер
- Связка «LLM-режиссёр + типизированный сценарий + генеративные модели» превращает производство видео в управляемый пайплайн, а не в череду ручных шагов.
- Главная сложность не в генерации, а в оркестрации: порядок стадий, фолбэки, идемпотентность и контроль расходов решают больше, чем выбор конкретной модели.
- Aginx — основа для контент-завода: ту же схему можно адаптировать под чужой бренд или продукт.
Похожие материалы
Проекты с похожими технологиями и задачами
Код Архетипа
Веб-приложение: по имени и дате рождения собирает «карту архетипа» — как человек принимает решения и в какие паттерны попадает. Пять символических слоёв (нумерология, астрология, психоматрица, таро) сводятся в единый портрет через LLM. Бесплатный архетип + платный отчёт.
- Python
- FastAPI
- PostgreSQL
- Next.js
- TypeScript
- +1
Tech Path Finder
Образовательная платформа для IT-специалистов с квизами, мок-интервью, code review и персональными рекомендациями на основе алгоритма деградации знаний
- Python
- FastAPI
- PostgreSQL
- Redis
- Kafka
- +5
Социогенетика — собственная веб-студия
Моя первая веб-студия с собственным офисом (2012-2014). Кастомная разработка для госзаказов и Siemens. Закрыта после ухода Siemens из России в 2014. Урок о рисках и диверсификации.
- Django
- Python
- PostgreSQL
- MySQL