Aginx

Контент-завод: из текстового брифа автоматически собирает готовый вертикальный ролик до 60 секунд для Reels / Shorts / TikTok. LLM пишет сценарий со сценами, крючком и стилем озвучки, а пайплайн генерирует видео, голос, музыку и субтитры и сшивает их в один файл через ffmpeg. Один контур: бриф → сценарий → медиа → монтаж.

Эксперимент в производстве: можно ли свести съёмку короткого ролика к одному контуру «бриф → готовый файл», где LLM работает режиссёром, а генеративные модели — съёмочной группой. Без ручного монтажа, повторяемо, с фолбэками.

Контекст

Личный бренд и контент-маркетинг упираются в один и тот же затык: идея есть, а на съёмку, монтаж, озвучку и субтитры уходят часы. Aginx убирает ручной труд из этой цепочки — на вход короткий бриф в свободной форме, на выход готовый вертикальный ролик 9:16 под Reels, Shorts или TikTok.

Как это устроено

Контур из четырёх стадий, каждая — отдельный, изолированный шаг:

Оркестратор — Claude получает бриф и возвращает строгий JSON-сценарий: сцены с таймингом, визуальные промты (английские, кинематографичные), текст озвучки (русский), настроение, движение камеры, промт музыки и крючок-первая фраза.
Визуал — по типу контента: broll (видео по сценам), slideshow (изображения с движением) или talking_head (анимированный аватар, говорящий под озвучку).
Аудио — синтез голоса и фоновой музыки; озвучка генерируется до платной генерации видео, чтобы не жечь бюджет, если TTS упал.
Сборка — ffmpeg сшивает сцены, микширует голос и музыку, прожигает ASS-субтитры и отдаёт один .mp4.

PythonasyncioTyperPydanticClaudefal.aiReplicateElevenLabsffmpeg

Инженерная рамка

Один источник правды — сценарий. LLM отдаёт типизированный JSON под Pydantic-схему; всё, что ниже, читает структуру, а не свободный текст. Меньше неоднозначности, проще отлаживать.
Провайдеры с фолбэком. MediaProvider ходит сначала в fal.ai, при ошибке переключается на Replicate; голос — ElevenLabs / MiniMax. Модели — параметр конфига, а не вшитая зависимость.
Идемпотентность и resume. Сценарий и промежуточные файлы пишутся на диск сразу; прерванную задачу можно продолжить — готовые сцены пропускаются, а не пересчитываются.
Порядок ради денег. Дешёвые и рискованные шаги идут раньше дорогих: сначала сценарий и озвучка, потом платная генерация видео.

Режимы и управление

Три типа контента: broll, talking_head, slideshow — оркестратор выбирает сам или его можно зафиксировать.
CLI на Typer: бриф строкой или JSON-файлом, тонкая настройка голоса (стабильность, скорость, высота, эмоция), --dry-run для просмотра только сценария, resume для докрутки задачи.
Конфиг, а не код: модели, разрешение, fps, громкость музыки и параметры голоса вынесены в config.yaml.

Что забрал как инженер

1 контур

бриф → сценарий → медиа → файл

2 провайдера

fal.ai с фолбэком на Replicate

resume

докрутка прерванных задач без пересчёта

Связка «LLM-режиссёр + типизированный сценарий + генеративные модели» превращает производство видео в управляемый пайплайн, а не в череду ручных шагов.
Главная сложность не в генерации, а в оркестрации: порядок стадий, фолбэки, идемпотентность и контроль расходов решают больше, чем выбор конкретной модели.
Aginx — основа для контент-завода: ту же схему можно адаптировать под чужой бренд или продукт.

← К списку проектов Обсудить проект

Aginx

Оглавление

Контекст

Как это устроено

Инженерная рамка

Режимы и управление

Что забрал как инженер

Похожие материалы

Код Архетипа

Tech Path Finder

Социогенетика — собственная веб-студия