Обзор открытого генератора изображений Krea 2
Обзор открытого генератора изображений Krea 2
Krea 2 — это модель генерации изображений 12B DiT с открытым исходным кодом, выпущенная Krea и доступная в двух отдельных контрольных точках для разных задач и рабочих процессов.
Варианты модели и предполагаемое использование
Проект предоставляет две контрольные точки: Raw как базовую контрольную точку для обучения, подходящую для дообучения и обучения LoRA, и Turbo, предназначенную для генерации изображений и инференса в производственных рабочих процессах.
Режимы генерации и курирование датасета
Krea 2 поддерживает только конвейер «текст‑в‑изображение»; инпейтинг, изображение‑в‑изображение и редактирование на основе текста недоступны в выпущенных контрольных точках.
Во время предобучения разработчики исключили синтетические изображения, используя пользовательские фильтры для удаления так называемого "digital plastic", целью чего было получение более разнообразных, ориентированных на искусство и реалистичных результатов.
Качество, поведение и обработка подсказок
Контрольная точка Turbo даёт изображения с высокой детализацией, улучшенной анатомией и читаемым текстом, избегая размытия, артефактов сетки и шума при тех же шагах сэмплирования по сравнению с некоторыми другими моделями.
Инструменты улучшения подсказок сопровождают модель и могут значительно увеличить детализацию или изменить стиль, поэтому рекомендуется начинать с конкретной подсказки, чтобы сохранять предсказуемость результатов.
Соблюдение пространственных подсказок в целом сильное: композиция сцены, персонажи и объекты обычно соответствуют инструкциям, и, как сообщается, текстовый энкодер Qwen3VL понимает русский, позволяя использовать подсказки на этом языке.
Разрешение, артефакты и рекомендуемые значения по умолчанию
Модель Turbo настроена на выходы в диапазоне от 1 MP (1024x1024) до 4 MP (2048x2048); большие размеры, такие как 16 MP (4096x4096), возможны, но часто приводят к анатомическим ошибкам и дублированию элементов.
Изображения в 2048x2048 заметно более чёткие и детализированные по сравнению с 1024x1024, поэтому использование этого разрешения по умолчанию целесообразно для многих рабочих процессов.
Производительность на потребительском железе
На системе с NVIDIA 4090 и 128 GB оперативной памяти запуск Turbo в bf16 с текстовым энкодером Qwen3VL 4B обычно загружает около 23 GB видеопамяти и 10 GB системной памяти.
В этих условиях изображение 1024x1024 при 8 шагах и cfg 1 рендерится примерно за 5 сек, а 2048x2048 занимает около 23 сек.
Использование весов fp8 для модели и энкодера может сократить использование видеопамяти примерно до 18–20 GB, уменьшив время генерации примерно до 4 сек для 1024x1024 и 21 сек для 2048x2048, с небольшим компромиссом в точности и возможными лишними конечностями или шумом в тонких деталях.
Дообучение и ресурсы сообщества
Поддержка обучения LoRA уже интегрирована в инструменты, такие как AI‑Toolkit и Musubi, при этом для квантизованного обучения сообщают примерно 6 сек/шаг, а неквантизованного — ближе к +6 мин/шаг на той же аппаратуре.
Krea выпустила коллекцию LoRA от сообщества, совместимую с шаблонами Comfy, и пользователи сообщают об успешных переносах стилей, которые ранее было трудно получить на других моделях.
Документация, лицензирование и распространение
Разработчики опубликовали технический отчёт, подробно описывающий процедуры обучения и решения по датасету, а распространение модели включает доставку через торрент в дополнение к хостингу, чтобы упростить загрузку больших файлов.
Лицензия разрешает коммерческое использование, если годовой доход остаётся ниже $1 mln, и явно запрещает создание NSFW‑производных с использованием контрольной точки.
Выводы для практиков
Krea 2 позиционируется как быстрая, ориентированная на искусство открытая модель с высокой точностью выполнения подсказок и практическими значениями по умолчанию около 2048x2048; практикам следует протестировать компромиссы между fp8 и bf16 и ожидать некоторую вариативность подсказок в разных сидах.
Похожие записи

