Команда исследователей из компании Microsoft представила новый искусственный интеллект, умеющий точно имитировать человеческий голос после прослушивания примера всего три секунды. Инструмент под названием Vall-E обучен «полученным из готовой модели нейронного аудиокодека дискретным кодам» и прослушал 60000 часов речи (в 100 раз больше по сравнению с прежними системами) из более чем 7000 динамиков. Значительная часть речи была взята из бесплатных аудиокниг LibriVox.
реклама
Vall-E работает на технологии EnCodec, которую Meta представила не далее как в октябре. Технология анализирует голос человека, разбивая информацию на компоненты и использую свои навыки для синтеза голоса. После прослушивания образца три секунды Vall-E может воспроизвести тембр и эмоциональный тон говорящего.
«Результаты показывают, что Vall-E намного опережает современную систему TTS [этот ИИ воссоздаёт голоса, которые никогда не слышал] по естественности речи и сходству с говорящим», — сказано в исследовательской статье. «Также установлено, что VALL-E умеет передавать эмоции говорящего и акустическую среду».
В Microsoft считают, что Vall-E может применяться для преобразования текста в голос, редактирования речи и в системе создания звука, работая с другими генеративными ИИ вроде GPT-3.
Как всегда бывает с ИИ, его могут использовать для сомнительных целей. Например, чтобы выдавать себя за известных людей вроде политиков, наряду с использованием видео Deepfakes. Или мошенники могут выдавать себя за членов семьи жертв и выманивать секретную информацию. Исследователи говорят, что такие риски можно уменьшить. «Можно создать модель обнаружения и понимать, был ли аудиоклип синтезирован при помощи Vall-E», сообщает Techspot.