Обзор открытого генератора изображений Krea 2

2049.news · 25.06.2026, 17:20:01

Обзор открытого генератора изображений Krea 2


Krea 2 — это модель генерации изображений 12B DiT с открытым исходным кодом, выпущенная Krea и доступная в двух отдельных контрольных точках для разных задач и рабочих процессов.

Варианты модели и предполагаемое использование

Проект предоставляет две контрольные точки: Raw как базовую контрольную точку для обучения, подходящую для дообучения и обучения LoRA, и Turbo, предназначенную для генерации изображений и инференса в производственных рабочих процессах.

Режимы генерации и курирование датасета

Krea 2 поддерживает только конвейер «текст‑в‑изображение»; инпейтинг, изображение‑в‑изображение и редактирование на основе текста недоступны в выпущенных контрольных точках.

Во время предобучения разработчики исключили синтетические изображения, используя пользовательские фильтры для удаления так называемого "digital plastic", целью чего было получение более разнообразных, ориентированных на искусство и реалистичных результатов.

Качество, поведение и обработка подсказок

Контрольная точка Turbo даёт изображения с высокой детализацией, улучшенной анатомией и читаемым текстом, избегая размытия, артефактов сетки и шума при тех же шагах сэмплирования по сравнению с некоторыми другими моделями.

Инструменты улучшения подсказок сопровождают модель и могут значительно увеличить детализацию или изменить стиль, поэтому рекомендуется начинать с конкретной подсказки, чтобы сохранять предсказуемость результатов.

Соблюдение пространственных подсказок в целом сильное: композиция сцены, персонажи и объекты обычно соответствуют инструкциям, и, как сообщается, текстовый энкодер Qwen3VL понимает русский, позволяя использовать подсказки на этом языке.

Разрешение, артефакты и рекомендуемые значения по умолчанию

Модель Turbo настроена на выходы в диапазоне от 1 MP (1024x1024) до 4 MP (2048x2048); большие размеры, такие как 16 MP (4096x4096), возможны, но часто приводят к анатомическим ошибкам и дублированию элементов.

Изображения в 2048x2048 заметно более чёткие и детализированные по сравнению с 1024x1024, поэтому использование этого разрешения по умолчанию целесообразно для многих рабочих процессов.

Производительность на потребительском железе

На системе с NVIDIA 4090 и 128 GB оперативной памяти запуск Turbo в bf16 с текстовым энкодером Qwen3VL 4B обычно загружает около 23 GB видеопамяти и 10 GB системной памяти.

В этих условиях изображение 1024x1024 при 8 шагах и cfg 1 рендерится примерно за 5 сек, а 2048x2048 занимает около 23 сек.

Использование весов fp8 для модели и энкодера может сократить использование видеопамяти примерно до 18–20 GB, уменьшив время генерации примерно до 4 сек для 1024x1024 и 21 сек для 2048x2048, с небольшим компромиссом в точности и возможными лишними конечностями или шумом в тонких деталях.

Дообучение и ресурсы сообщества

Поддержка обучения LoRA уже интегрирована в инструменты, такие как AI‑Toolkit и Musubi, при этом для квантизованного обучения сообщают примерно 6 сек/шаг, а неквантизованного — ближе к +6 мин/шаг на той же аппаратуре.

Krea выпустила коллекцию LoRA от сообщества, совместимую с шаблонами Comfy, и пользователи сообщают об успешных переносах стилей, которые ранее было трудно получить на других моделях.

Документация, лицензирование и распространение

Разработчики опубликовали технический отчёт, подробно описывающий процедуры обучения и решения по датасету, а распространение модели включает доставку через торрент в дополнение к хостингу, чтобы упростить загрузку больших файлов.

Лицензия разрешает коммерческое использование, если годовой доход остаётся ниже $1 mln, и явно запрещает создание NSFW‑производных с использованием контрольной точки.

Выводы для практиков

Krea 2 позиционируется как быстрая, ориентированная на искусство открытая модель с высокой точностью выполнения подсказок и практическими значениями по умолчанию около 2048x2048; практикам следует протестировать компромиссы между fp8 и bf16 и ожидать некоторую вариативность подсказок в разных сидах.


Похожие записи

ElevenLabs releases Music V2 music-generation model
ByteDance unveils SeedDance 2.5 video generation model
Прокрутите вниз для загрузки следующего материала