Меня тут недавно близкие люди попросили сгенерировать с их лицами видео-поздравление друга с Днём Рождения. В рамках торжественного мероприятия на экране будут показываться видео-открытки, и нужно, чт

2049.news · 12.11.2025, 18:30:01

Меня тут недавно близкие люди попросили сгенерировать с их лицами видео-поздравление друга с Днём Рождения. В рамках торжественного мероприятия на экране будут показываться видео-открытки, и нужно, чтобы их поздравление выделялось из массы. На всё про всё 1-2 дня. Сразу запросил с них фотки тела и лица с разных сторон, плюс аудио с поздравительной речью. Я как раз хотел потестить [HuMo](https://huggingface.co/spaces/alexnasa/HuMo_local), в котором на основе фото и аудио можно сгенерить видео целевого человека сразу с липсинком. [Тренировать Wan как я делал с собой](https://t.me/Psy_Eyes/2601) мы не успели бы. Включил на компе Comfy, выбрал из шаблонов воркфлоу Humo, скачал у [Kijai веса](https://huggingface.co/Kijai/WanVideo_comfy/tree/main/HuMo) на 14B версию модели, и начал тестить. Сеттинг, в который их можно вписать — любой. Пробовали вампирский, Бэтмен и Женщина-кошка, итд. Решили остановиться на рыцарской тематике, и в конце скорректировались на королевскую знать. Если в кадре 2 человека, HuMo будет пытаться сделать так, чтобы оба персонажа говорили. Даже, если в промтах указано конкретно кто должен произносить реплику. Но это решаемо. На удивление fp8 веса даже по старым фоткам хорошо уловили лица. В дефолтном воркфлоу модель работает с лайт лорой в 6 шагов. На один шаг 720p видео 24 fps уходит ~1 минута или 6 минут на сгенерированное видео. 19 ГБ загружается в VRAM, остальные 31 ГБ идут в RAM. Веса fp16 вместе с более качественной картинкой почему-то и сильно меняют лицо. Не говоря уже о том, что на одно видео уходит значительно больше времени. В итоге я нагенерил и расшарил много разных вариантов. Близкие и поржали, ибо это весело, и задачку решили, получив нужный видос. Да, липсинк на русском не всегда точно попадает в губы и местами чувствуется "англоязычность" мимики + может присутствовать небольшой рассинхрон аудио с видео, который за секунду лечится в давинчи (а может и на уровне кода). Также для улучшения конечного лица на видео можно использовать дипфейк или [Wan](https://t.me/Psy_Eyes/3202), но это уже другие сроки и противоречило цели эксперимента получить нужный результат здесь и сейчас без тренировки. Так что будем за HuMo наблюдать. Они там должны скоро выпустить гайд с лучшими практиками по использованию и чекпоинт на стабильную генерацию длиннее 5 секунд. [Демо](https://huggingface.co/spaces/alexnasa/HuMo_local) (Хаггинг) [Гитхаб](https://github.com/Phantom-video/HuMo)

**Многие уже знают NanoBanana и хорошо умеют этой моделью пользоваться, но собрать все в одном месте иногда тяжело**

**Gemini 3 вышел **

Прокрутите вниз для загрузки следующего материала

Related posts