Когда я впервые попытался использовать AI для генерации визуалов в проект, результат выглядел как коллаж из Pinterest — технически корректно, но совершенно бессистемно. Каждая картинка жила своей жизнью. Проблема была не в модели, а в моём подходе. Я пытался генерировать контент, не определив визуальный язык.
Системная генерация визуального контента требует трёх компонентов: зафиксированный стиль (Style Bible), инструмент генерации (Fusara, Recraft или OpenRouter API), и автоматизация через скрипты. Без первого элемента остальные два работают вхолостую — ты получаешь тысячи разрозненных картинок вместо связного визуального языка.
В этом материале я разберу процесс построения системы AI-генерации от определения визуального вкуса до batch-обработки через API. Ты увидишь конкретные промпты, скрипты и инструменты, которые превращают хаотичную генерацию в управляемый конвейер.
Почему большинство AI-генераторов дают мусор
Типичный сценарий выглядит так: открываешь Midjourney или DALL-E, вводишь промпт "modern office interior, minimalist" — получаешь технически приличную картинку. Повторяешь процесс 50 раз для проекта — на выходе 50 разных стилей, которые не складываются в единое целое.
Проблема в том, что генеративные модели не запоминают контекст между сессиями. Каждый запрос — отдельный акт творчества без памяти о предыдущих. Ты можешь получить идеальную картинку, но воспроизвести её невозможно даже с тем же промптом.
Три главных барьера для системной генерации:
Отсутствие визуального языка — ты не можешь описать словами то, что видишь внутренним взором. "Минималистично" для тебя и для модели — разные вещи.
Нет консистентности между запросами — каждая генерация живёт в вакууме. Сегодняшний "corporate blue" не совпадает со вчерашним.
Ручной труд масштабируется линейно — нужно 100 картинок? Готовься потратить 100 сессий с промптами.
Решение не в более детальных промптах. Анна Ставенски из AI Mindset сформулировала это так: "Современные топовые модели более креативны, чем в среднем люди — и этим надо пользоваться". Но креативность без системы — это хаос.
Визуальное ДНК: как определить свой стиль через Know Your Taste
До того, как генерировать что-либо, нужно понять собственные визуальные предпочтения. Не на уровне "мне нравится синий", а на уровне структурных паттернов — композиция, цветовая гармония, текстурность, типографика.
Know Your Taste — это методология анализа визуальных предпочтений через AI. Идея простая: ты показываешь боту 20-30 изображений, которые резонируют, и он выявляет общие паттерны.
Вот как я настроил этот бот в Claude:
Role: Visual Architect and Taste Analyst
Your task: Deconstruct aesthetic DNA, connect preferences to art movements.
MODE 1: ART — Deep DNA Analysis
- Analyze composition, color theory, textures, lighting
- Connect to historical art movements (Bauhaus, Swiss Design, Memphis, etc.)
- Extract principles, not descriptions
MODE 2: UI — Materiality & Logic
- Spatial hierarchy, grid systems, typographic logic
- Information density, interaction patterns
- Material properties (glass, metal, gradients)
After every 5-10 images → Output Master Prompt:
- Core visual principles (3-5 rules)
- Color palette (hex codes + emotional associations)
- Compositional patterns
- Reference keywords for image generation
Format output as markdown + CSS variables where applicable.
Ключевой момент — бот не просто описывает картинки ("это голубое небо с облаками"), а выявляет структурные элементы. После анализа 10-15 изображений он выдаёт Master Prompt — концентрированное описание твоего визуального языка.
Пример выхода после анализа моих референсов:
## Visual DNA Summary
### Core Principles
1. High information density with breathing space
2. Muted industrial palette + accent neons
3. Asymmetric balance with strong anchors
4. Tech-forward but human-readable
### Color Palette
--primary: #1A1F2E (deep slate)
--accent: #00F5FF (electric cyan)
--neutral: #8B92A8 (steel gray)
--background: #0D1117 (code editor black)
### Compositional Patterns
- Grid-based layouts with intentional breaks
- 60-30-10 color rule
- Sans-serif dominance (Inter, Geist, Suisse)
- Negative space as active element
### Generation Keywords
"brutalist UI, dark mode, neon accents, geometric sans-serif,
asymmetric grid, high contrast, tech documentation aesthetic"
Теперь у тебя есть визуальный язык в машинно-читаемой форме. Это основа для всей последующей генерации.
В моей практике этот этап занимает 1-2 часа, но экономит десятки часов на последующей генерации. Ты перестаёшь блуждать в пространстве возможностей и работаешь внутри чётко определённого стиля.
Креативный ассистент: сократический метод для генерации идей
После определения визуального языка нужен инструмент для генерации конкретных идей. Здесь работает второй бот — Creative Architect на основе сократического метода.
Классическая ошибка — просить AI "придумай концепцию для лендинга". Ты получишь generic ответ, который звучит умно, но не применим. Сократический метод работает иначе: AI задаёт вопросы, чтобы выявить твоё скрытое намерение.
Вот промпт для креативного ассистента:
Role: Recursive Maieutic Architect
You guide through creative exploration using Socratic method.
Rule of 3 Depths:
Cycle 1: Deconstruction
- What is the core problem? (not the surface request)
- What constraints define the solution space?
- What assumptions need testing?
Cycle 2: Reframing
- What if we inverted the constraint?
- What analogies exist in other domains?
- What does success look like emotionally?
Cycle 3: Abstraction
- What pattern underlies this problem?
- What meta-principle applies?
- What's the simplest version that works?
Phase 4: Synthesis
- Output format:
1. Conceptual metaphor
2. Visual prompt (using user's Style Bible)
3. Technical parameters (aspect ratio, models, reference images)
Never give direct answers in Cycles 1-3. Only questions.
In Phase 4, output executable brief.
Пример диалога:
Я: Мне нужна визуальная концепция для курса по DeFi.
Бот: Что должен почувствовать человек, когда увидит эту визуализацию? Доверие к технологии или волнение от возможностей?
Я: Скорее уверенность — что это не магия, а понятная система.
Бот: Когда ты думаешь об "уверенности в системе", какие физические объекты приходят в голову? Архитектура? Механизмы? Карты?
Я: Схемы метро — понятная сложность. Ты видишь структуру, но не перегружен деталями.
Бот: Какие элементы схем метро делают их "уверенными"? Цвет? Геометрия? Иерархия?
Я: Чёткие линии, ограниченная палитра, понятные узлы соединений.
После 3-4 циклов бот выдаёт:
## Synthesis: DeFi Course Visual Concept
Metaphor: "Protocol Metro Map"
- DeFi protocols as metro lines
- Liquidity pools as transfer stations
- User journey as route planning
Visual Prompt:
"Isometric technical diagram, DeFi protocol network as metro map,
limited color palette (3 accent colors), geometric sans-serif labels,
connection nodes with glow effect, dark background #0D1117,
clean lines, minimalist legend, blueprint aesthetic"
Technical Parameters:
- Model: Flux Pro 1.1 (best for technical diagrams)
- Aspect ratio: 16:9 (presentation format)
- Style reference: attach 2-3 metro map examples
- Negative prompt: "photorealistic, gradients, shadows, 3D depth"
Этот подход работает потому, что ты не генеришь идеи из вакуума — ты извлекаешь структуру из собственной головы через направленные вопросы. AI здесь не креативный источник, а майевтический инструмент (от греч. maieutikos — повивальное искусство).
Fusara и Recraft: инструменты для генерации с консистентностью
Теперь, когда у тебя есть визуальный язык и конкретная идея, нужен инструмент генерации. Я использую два основных: Fusara для экспериментов и Recraft для финальной продукции.
Fusara: агрегатор моделей с единым API
Fusara — это мета-платформа, которая даёт доступ к Flux, SDXL, Imagen 3, Midjourney, DALL-E через единый интерфейс. Ключевая фича — Style Reference: ты загружаешь 1-3 референсных изображения, и модель пытается воспроизвести стиль.
Пример генерации через Fusara CLI:
fusara generate \
--model flux-pro-1.1 \
--prompt "DeFi protocol network as metro map, isometric view, dark background" \
--style-reference style_bible/metro_ref_01.png,style_bible/metro_ref_02.png \
--aspect-ratio 16:9 \
--negative "photorealistic, 3D render, shadows" \
--output defi_metro_concept.png
Минус Fusara — отсутствие встроенного управления стилем. Ты можешь загружать референсы, но не можешь сохранить стиль для повторного использования. Каждый запрос требует прикрепления тех же файлов.
Recraft: создание собственного стиля
Recraft решает проблему консистентности через создание кастомных стилей. Ты загружаешь 4-5 изображений, которые представляют твой визуальный язык, и платформа обучает style model на лету.
Процесс создания стиля в Recraft:
- Собираешь 4-5 изображений, которые представляют твой Style Bible
- Создаёшь новый Style в интерфейсе (Settings → Styles → Create New)
- Загружаешь референсы и даёшь имя (например, "Tech Blueprint v1")
- Recraft анализирует паттерны (занимает 2-3 минуты)
- Стиль доступен в дропдауне для любой генерации
Пример промпта с кастомным стилем:
Style: Tech Blueprint v1
Prompt: "Liquidity pool visualization as water reservoir system,
pipes connecting protocols, flow meters showing APY, dark industrial aesthetic"
Advanced settings:
- Colors: preserve palette from style
- Structure: high adherence (80%)
- Details: medium (avoid overfitting)
В моей практике один хорошо настроенный стиль в Recraft генерирует консистентные результаты в 80% случаев. Остальные 20% требуют minor tweaks в промпте.
Сравнение Fusara vs Recraft:
| Параметр | Fusara | Recraft |
|---|---|---|
| Доступ к моделям | 10+ (Flux, Midjourney, DALL-E) | 3 (собственные модели) |
| Консистентность стиля | Средняя (через Style Reference) | Высокая (custom styles) |
| API | Да (Python, Node.js) | Да (REST API) |
| Цена за генерацию | $0.04–0.15 | $0.08 фикс |
| Скорость генерации | 15-45 сек | 8-12 сек |
| Обучение стиля | Нет | Да (на лету) |
Я использую Fusara для экспериментов с разными моделями и Recraft для финальной продакшен-генерации, когда нужна консистентность.
LoRA: тренировка собственной визуальной модели
Для максимальной консистентности нужен собственный LoRA (Low-Rank Adaptation) — дообученная версия базовой модели на твоих данных. Это уровень, когда ты не подстраиваешься под возможности инструмента, а инструмент подстраивается под твой стиль.
LoRA — это не полная переобучение модели, а добавление слоя адаптации. Базовая модель (Flux, SDXL) остаётся нетронутой, но поверх накладывается твой визуальный язык. Размер LoRA — 10-50 МБ вместо 4-6 ГБ полной модели.
Шаги создания LoRA:
- Подготовка датасета: 20-50 изображений в едином стиле, высокое разрешение (1024×1024 минимум)
- Аннотация: каждое изображение описываешь промптом, который его
генерировал бы с нуля. Используешь теги типа [V1] для версионирования стиля
3. Выбор платформы для обучения: Replicate, Hugging Face Spaces или локально через diffusers library
4. Обучение: 500-2000 шагов (20-60 минут на GPU), learning rate 1e-4
5. Тестирование: генерируешь на разных промптах, проверяешь консистентность
Пример обучения LoRA через Replicate:
import replicate
training = replicate.trainings.create(
version="8f9c3f55...",
input={
"instance_prompt": "tech blueprint [V1] digital art",
"class_prompt": "digital art",
"instance_data": "gs://bucket/style_dataset/",
"max_train_steps": 1000,
"learning_rate": 1e-4
}
)
# После обучения получаешь LoRA weights
# Используешь в генерации:
output = replicate.run(
"stability-ai/sdxl-lightning:...",
input={
"prompt": "DeFi dashboard, tech blueprint [V1]",
"lora_weights": training.output
}
)
Когда нужен LoRA:
- Ты генерируешь 100+ изображений в месяц одного проекта
- Нужна абсолютная консистентность персонажей или объектов
- Есть бюджет на обучение ($50-200 за качественный LoRA)
- Планируешь переиспользовать стиль 6+ месяцев
В моём случае LoRA окупается через месяц регулярной генерации, потому что экономлю на prompt engineering и итерациях.
Практический workflow: от идеи до финального изображения
Собираю всё в единую цепочку:
День 1 — Research & Style Bible
- Собираю 15-20 референсов в Pinterest/Are.na
- Выписываю ключевые элементы (палитра, типография, текстуры)
- Создаю 3-5 описаний в разных фокусах
День 2 — Первые генерации (Fusara)
- Генерирую 30-50 вариантов на разных моделях
- Выбираю 3-4 лучших, скачиваю
- Загружаю в Figma, анализирую что сработало
День 3 — Создание кастомного стиля (Recraft)
- Из лучших вариантов выбираю 5 изображений
- Создаю новый Style в Recraft
- Генерирую 20 вариантов с этим стилем
День 4-5 — Финализация и вариативность
- Если консистентность высокая → переходу на Recraft для всех генераций
- Если нужны эксперименты → запускаю LoRA обучение параллельно
- Экспортирую в разных форматах (PNG, WebP для веб, JPG для соцсетей)
Вся цепочка от идеи до 50 финальных изображений занимает 1 неделю. Без систематизации — уходит месяц.
Итог
Консистентная визуальная генерация — это не магия AI. Это:
- Style Bible как система, которая фильтрует хаос
- Правильные инструменты под задачу (Fusara для экспериментов, Recraft для консистентности, LoRA для масштаба)
- Промпт-инженерия как диалог, а не монолог
- Регулярность, которая учит тебя читать выход моделей
Начни с Style Bible и Recraft. Остального можно добавлять потом.
Подписывайся на канал https://t.me/serg_defi — разбираю такие темы каждую неделю.