Nvidia представила Pixel Diffusion Decoder для изображений высокого разрешения

2049.news · 26.05.2026, 14:35:03

Nvidia представила Pixel Diffusion Decoder для изображений высокого разрешения


Nvidia представила Pixel Diffusion Decoder (PiD) — декодер, предназначенный для получения изображений высокого разрешения непосредственно из латентных представлений.

PiD объединяет декодирование и апсемплинг в одном модуле, что обеспечивает более быструю генерацию больших изображений по сравнению с традиционными декодерами на базе VAE.

Как работает PiD

Большинство моделей текст-в-изображение генерируют в сжатых латентных пространствах, затем используют VAE-декодер для восстановления итоговых пиксельных изображений в целевом разрешении.

Традиционные декодеры ориентированы на точную реконструкцию, а не на синтез дополнительной высокочастотной детализации, и вычислительные затраты растут с увеличением выходного разрешения.

Производительность и характеристики

Nvidia сообщает, что PiD может декодировать латент размером 512×512 в изображение 2048×2048 примерно за ~1 сек на GPU 5090, используя 13 GB VRAM.

Подход также поддерживает генерацию изображений 4096×4096 из больших латентов, сочетая меньше шагов денойзинга с интегрированным апсемплингом для эффективности.

Совместимость и чекпоинты

PiD совместим с существующими моделями VAE и RAE, и Nvidia выпустила чекпоинты, предназначенные для интеграции с Flux и сопутствующими пайплайнами.

Nvidia перечисляет чекпоинты для Flux, Flux 2, SD3, Dino v2 и Siglip, в то время как Z-image использует VAE от Flux без отдельного чекпоинта для PiD.

Сообщество и инструменты

Kijai официально присоединился к числу мейнтейнеров кода Comfy, и экспериментальная поддержка интеграции PiD в рабочие процессы Comfy в настоящее время находится в разработке.

Тестовые рабочие процессы и узлы сообщества появились на публичных форумах, что указывает на растущий интерес разработчиков и практические эксперименты с моделями, поддерживающими PiD.

Nvidia также предоставила 2K и 4K варианты весов, обученные отображать латенты 512 и 1024 в более высокие пиксельные выходы соответственно, упрощая пайплайны апскейла.


Похожие записи

Text-to-video tests with three generative models
How 'prompter' became central term in AI culture
Прокрутите вниз для загрузки следующего материала