Bytedance выпускает многоговорящий аудиогенератор SeedAudio 1.0
Bytedance выпускает многоговорящий аудиогенератор SeedAudio 1.0
Bytedance представила SeedAudio 1.0, модель генерации аудио, способную воспроизводить речь, звуковые эффекты и музыку в одной сцене.
Возможности модели
Система может синтезировать нескольких говорящих в одном миксе и принимает до 3 аудиоссылок для руководства голосом, эмоциями и характером. Пользователи могут предоставить текстовый запрос, пример записи или изображение персонажа, чтобы сгенерировать голос, соответствующий предоставленным образцам.
Демонстрации и наблюдаемое качество
В опубликованном клипе был показан пример дубляжа, полученный на основе Seedance 2; автор сообщил об улучшенных результатах, но не опубликовал оригинал для прямого сравнения. В целом атмосферные звуки, такие как звук бутылки на столе, хорошо соответствуют визуалу и способствуют единству сцены.
Качество речи в целом выглядит естественным для нескольких персонажей, хотя у одной женской дикторши голос звучит роботизированно в её первой реплике и более естественно во второй, что указывает на некоторую нестабильность согласованности. Если временная стабильность и синхронизация губ будут доработаны и интегрированы, система сможет более прямо конкурировать с устоявшимися голосовыми платформами.
Доступность и ценообразование
SeedAudio 1.0 в настоящее время распространяется исключительно через Fal. Услуга предлагается по тарифу $0,075/min для выпущенного уровня.
Похожие записи

