Новый ИИ от Microsoft может точно имитировать человеческий голос после анализа 3-секундного образца

Блоги

10 янв, 16:59 Блогер За пост начислено вознаграждение

Сферы применения этого могут быть полезными и не очень

рекомендации

10 видов <b>4070 Ti</b> в Ситилинке - все до 100 тр

3060 Gigabyte Gaming за 30 тр с началом

3080 за 72 тр - цены снова пошли вниз

<b>13900K</b> в Регарде по СТАРОМУ курсу 62

3070 Gigabyte Gaming за 50 тр с началом

MSI 3050 за 27 тр в Ситилинке

Команда исследователей из компании Microsoft представила новый искусственный интеллект, умеющий точно имитировать человеческий голос после прослушивания примера всего три секунды. Инструмент под названием Vall-E обучен «полученным из готовой модели нейронного аудиокодека дискретным кодам» и прослушал 60000 часов речи (в 100 раз больше по сравнению с прежними системами) из более чем 7000 динамиков. Значительная часть речи была взята из бесплатных аудиокниг LibriVox.

Vall-E работает на технологии EnCodec, которую Meta представила не далее как в октябре. Технология анализирует голос человека, разбивая информацию на компоненты и использую свои навыки для синтеза голоса. После прослушивания образца три секунды Vall-E может воспроизвести тембр и эмоциональный тон говорящего.

«Результаты показывают, что Vall-E намного опережает современную систему TTS [этот ИИ воссоздаёт голоса, которые никогда не слышал] по естественности речи и сходству с говорящим», — сказано в исследовательской статье. «Также установлено, что VALL-E умеет передавать эмоции говорящего и акустическую среду».

В Microsoft считают, что Vall-E может применяться для преобразования текста в голос, редактирования речи и в системе создания звука, работая с другими генеративными ИИ вроде GPT-3.

рекомендации

-20% на RTX 4070 Ti - скидки начались

3060 дешевле 30тр в Ситилинке

3070 дешевле 50 тр в Ситилинке

13700K дешевле 40 тр в Регарде

4080 почти за 100тр - дешевле чем по курсу 60

-7% на ASUS 3050 - дешевле 30 тр

RTX 4090 за 140 тр в Регарде

13600K дешевле 30 тр в Регарде

RTX 3070 Ti за 56 тр в Ситилинке

RTX 4080 за 100 тр в Ситилинке

3070 Gigabyte Gaming за 50 тр с началом

3060 Ti Gigabyte Gaming за 43 тр

Компьютеры от 10 тр в Ситилинке

-7% на 4080 Gigabyte Gaming

Как всегда бывает с ИИ, его могут использовать для сомнительных целей. Например, чтобы выдавать себя за известных людей вроде политиков, наряду с использованием видео Deepfakes. Или мошенники могут выдавать себя за членов семьи жертв и выманивать секретную информацию. Исследователи говорят, что такие риски можно уменьшить. «Можно создать модель обнаружения и понимать, был ли аудиоклип синтезирован при помощи Vall-E», сообщает Techspot.

Этот материал написан посетителем сайта, и за него начислено вознаграждение.