Google представил Soundstorm, AI-модель для эффективной и неавторегрессивной генерации звука. По сравнению с авторегрессивной генерацией, которая лежит в основе модели AudioLM, SoundStorm может воспроизводить аудио такого же качества, но с улучшенными показателями голоса и звука. И при этом в два раза быстрее – SoundStorm генерирует 30 секунд звука за 0,5 секунды на оборудовании Google TPU-v4.
SoundStorm в паре с системой SPEAR-TTS (берется этап преобразования текста в семантику) может синтезировать высококачественные и естественные диалоги, позволяя контролировать озвучиваемый контент (через транскрипции), голос спикера (через короткие голосовые подсказки) и очередность спикеров (через аннотации в транскрипции ).
Диалог, созданный SoundStorm:
Напомним, работодатели стали указывать в IT-вакансиях навыки владения нейросетями. Эксперты отмечают, что для многих профессий нейросети становятся помощниками, благодаря которым можно снять с себя часть рутинных задач и повысить производительность труда.