Погонял локально редактор картинок текстом [ChronoEdit](https://huggingface.co/spaces/nvidia/ChronoEdit) от **Nvidia**.

2049.news · 12.11.2025, 05:30:23

Погонял локально редактор картинок текстом [ChronoEdit](https://huggingface.co/spaces/nvidia/ChronoEdit) от **Nvidia**. Под капотом используется Wan 2.1 для генерации промежуточных кадров, а конечное изображение представляет собой последний фрейм. Также модель умеет менять освещение, вытаскивать карты глубин/краёв/итд, превращать скетчи в рабочие наброски, и не только. Казалось бы видео подход должен сделать содержимое кадра более стабильным, а результат более предсказуемым. Но в итоге [Qwen Image Edit 2509](https://t.me/Psy_Eyes/3211) справляется с поставленными задачами намного лучше. Причём делая это даже с лайт лорой быстро генерящей в 4 шага, которая по идее должна проигрывать в качестве. Qwen с первого промта понимает, что от него хотят, а вот ChronoEdit даже по промтам с черрипиков постоянно промахивается. Что странно, ибо Wan-сан хорошо промты толкует. Генерит картинки ChronoEdit медленно, ибо жрёт как конь и ощущается отсутствие оптимизации. Модель есть в размерах 14B и 2B. Версия fp8 влезает в 20 ГБ VRAM, а fp16 хочет 34-38 ГБ VRAM (с офлоадом всё, что не влет в видюху пойдёт в оперативку). Занятно, что модель не оптимизирована влезть даже в 5090 с её 32 ГБ VRAM. Я пробовал 14B крупняк и на 4090 + 128 ГБ RAM. Время генерации очень сильно шкалит на одних и тех же настройках. То 25 сек/ит, то 4, то 9. И по ощущениям, чем больше ты генеришь, тем медленнее становится. Особенно это ощущается если подключить дистиллированную 8-шаговую ускоряющую лору. С ней часто ворк начинает генерить крайне долго и в итоге зависать. Особенно если её подрубить после генерации просто на базовой модели. А если сразу генерить с ускорялкой, то генка может в итоге пройти, но конечный результат всё равно не айс. Помимо шагов ещё можно управлять длительностью через указание количества кадров для просчёта (length). По умолчанию стоит 5 кадров и считаются они 4 сек/ит или 1:21 мин на картинку. В то время как 4 шаговый квен тебе возможно даст искомое за десяток секунд. Или как минимум им нащупаешь, что нужно и потом уже без лайт лоры сгенеришь на 20-50 шагах в качестве. Сменить одежду на персонаже с помощью ChronoEdit можно, и тут не такого зашакаливания как [Flux Kontext](https://t.me/Psy_Eyes/2920), но может быть сдвиг по цветам или падение разрешения. Особенно лучше не надевать ничего на лицо или голову, ибо шанс, что он их поменяет очень высок. Тут мне подумалось раз под капотом Wan, то можно подрубить[ лору с моим лицом](https://t.me/Psy_Eyes/2601), которую я натренировал, и исправить эту ситуацию. И если лицо действительно стало ближе к моему, то разрешение в месте вкомпаживания головы очень сильно отличается от остальной картинки, хотя на видосах по моей лоре всё ок. В общем пока Qwen впереди. Но у модели лицензия Apache-2, разрешающая коммерческое использование, так что возможно сообщество с этим что-то сделает. Kijai уже наваял [веса](https://huggingface.co/Kijai/WanVideo_comfy/tree/main/ChronoEdit), а Comfy добавили воркфлоу в шаблоны в главном меню. [Демо](https://huggingface.co/spaces/nvidia/ChronoEdit) [Сайт](https://research.nvidia.com/labs/toronto-ai/chronoedit/) [Хаггинг](https://huggingface.co/Kijai/WanVideo_comfy/tree/main/ChronoEdit) (Kijai) [Гитхаб](https://github.com/nv-tlabs/ChronoEdit)

Похожие записи

Kling releases Kling V 2.6 video model with audio
Сегодня вышла игра [Routine]( На её разработку ушло 13 лет, и я следил за ней с момента анонса в 2012 году.
Прокрутите вниз для загрузки следующего материала