Nvidia представила Pixel Diffusion Decoder для изображений высокого разрешения
Nvidia представила Pixel Diffusion Decoder для изображений высокого разрешения
Nvidia представила Pixel Diffusion Decoder (PiD) — декодер, предназначенный для получения изображений высокого разрешения непосредственно из латентных представлений.
PiD объединяет декодирование и апсемплинг в одном модуле, что обеспечивает более быструю генерацию больших изображений по сравнению с традиционными декодерами на базе VAE.
Как работает PiD
Большинство моделей текст-в-изображение генерируют в сжатых латентных пространствах, затем используют VAE-декодер для восстановления итоговых пиксельных изображений в целевом разрешении.
Традиционные декодеры ориентированы на точную реконструкцию, а не на синтез дополнительной высокочастотной детализации, и вычислительные затраты растут с увеличением выходного разрешения.
Производительность и характеристики
Nvidia сообщает, что PiD может декодировать латент размером 512×512 в изображение 2048×2048 примерно за ~1 сек на GPU 5090, используя 13 GB VRAM.
Подход также поддерживает генерацию изображений 4096×4096 из больших латентов, сочетая меньше шагов денойзинга с интегрированным апсемплингом для эффективности.
Совместимость и чекпоинты
PiD совместим с существующими моделями VAE и RAE, и Nvidia выпустила чекпоинты, предназначенные для интеграции с Flux и сопутствующими пайплайнами.
Nvidia перечисляет чекпоинты для Flux, Flux 2, SD3, Dino v2 и Siglip, в то время как Z-image использует VAE от Flux без отдельного чекпоинта для PiD.
Сообщество и инструменты
Kijai официально присоединился к числу мейнтейнеров кода Comfy, и экспериментальная поддержка интеграции PiD в рабочие процессы Comfy в настоящее время находится в разработке.
Тестовые рабочие процессы и узлы сообщества появились на публичных форумах, что указывает на растущий интерес разработчиков и практические эксперименты с моделями, поддерживающими PiD.
Nvidia также предоставила 2K и 4K варианты весов, обученные отображать латенты 512 и 1024 в более высокие пиксельные выходы соответственно, упрощая пайплайны апскейла.

