Компания Microsoft официально представила VALL-E — модель искусственного интеллекта, которая умеет преобразовывать текст в речь, точно имитируя голос человека. В качестве образца система может использовать запись продолжительностью всего в три секунды, а эмоциональный окрас оригинальной речи перенесётся и в смоделированную.
Редмондцы называют VALL-E «языковой моделью нейронного кодека». В основу разработки данной технологии была положена технология EnCodec. Авторы также подчёркивают, что их система анализирует, как именно звучит человек, разбивая эту информацию на отдельные «токены» и используя обучающие данные для сопоставления полученной информации о том, как этот голос будет звучать, если ИИ произнесёт другие фразы. В других же методах преобразования текста в голос, как правило, идёт синтезирование речи с помощью манипуляции формами сигналов.
Модель искусственного интеллекта VALL-E обучали на базе библиотеки LibriLight, содержащей 60 тысяч часов англоязычной речи более чем от 7 тысяч человек. На отдельном сайте есть множество примеров работы ИИ, который может протестировать любой желающий.