Нов изкуствен интелект на Microsoft преобразува текст в жива реч за 3 секунди
Технолозите на Microsoft разкриха една от най-новите си разработки. Това е модел с изкуствен интелект (AI), наречен VALL-E, който е предназначен да преобразува текст в жива реч. Това не е първият модел от този вид, но ако алгоритъмът Lyrebird 2017, разработен в университета в Монреал, се нуждаеше от цяла минута запис за анализ, то моделът VALL-E се нуждае само от три секунди. След това започва да имитира речта на конкретен човек, включително акустична окраска и емоционалност на тона.
VALL-E е програмиран на 60 000 часа записи на реч на английски, предимно аудиокниги, четени от различни хора. Това даде своя резултат, моделът възпроизвежда изречения, които звучат напълно естествено.
Единственият недостатък на модела е, че прекъсва звука, когато в изреченията се появят неясни места от гледна точка на синтаксиса или пунктуацията. Моделът VALL-E също е много добър в пресъздаването на аудиосредата на оригиналния образец. Ако този образец, например, е записана от телефон, тогава цялата следваща синтезирана реч ще бъде "като от телефон". Също така моделът е в състояние да възпроизвежда тънкостите на речта, подобни образци, записани от американец или британец, дават напълно различни резултати.
Също така, моделът VALL-E е в състояние да придаде на речта емоционален характер. Може да предостави няколко примера на реч, отбелязани като ядосана, сънлива, изненадана, отвратена и т.н. Колкото повече такива образци се предоставят, толкова по-емоционална и естествена става синтезираната реч.
Последствията от подобни технологии са доста ясни. Положителната страна е, че можете да получите списък за пазаруване, озвучен от известен актьор, докато сте в супермаркета, или телефонът ви ще рецитира аудиокнига с глас, който отговаря на нейното съдържание, или дори с няколко гласа.
Но от лошата страна нещата изглеждат по-зле. Представете си измамник, който получава мостра от вашия глас и след това се обажда на близките ви роднини. Освен това с помощта на тази технология е възможно да се заобиколят системите за гласова идентификация, а фалшифициран запис на речта на всеки известен политик може да причини съкрушителен крах на кариерата му. И в заключение, трябва да се отбележи, че всички ние наскоро видяхме, че системите за изкуствен интелект като DALL-E, ChatGPT и други deepfake- технологии започват да се преместват от лабораториите в реалния свят. И тези промени, както обикновено, носят в същото време много нови рискове.
Ключови думи
ОЩЕ ОТ КАТЕГОРИЯТА
|
|
„Лукойл“ е получила оферта за закупуване на международните ѝ активи
Бизнес |КНСБ заплашва с протести, ако в Бюджет 2026 минималната работна заплата остане 605 евро
Политика |Петролният гигант Shell стартира ново обратно изкупуване на акции за 3,5 милиарда долара
Енергетика |Депутатите избраха Костадин Ангелов за заместник-председател на парламента
Политика |Големите победители: Кои са финалистите в "Мениджър на годината 2025"?
Мениджър на годината 2025 |Големите победители: Кои са финалистите в "Мениджър на годината 2025"?
Мениджър на годината 2025 |Нов революционен метод може да доведе до по-ранно откриване на болестта на Алцхаймер
Наука и Здраве |Тръмп намали митата върху вноса от Китай до 47% след „невероятната“ среща със Си
Икономика |Какво предлага Бюджет 2026 и защо не се хареса на никого?
Икономика |Гърция започва доставки на газ за Украйна през България, Румъния и Молдова
Енергетика |Скенери хвърлят светлина върху промените в мозъка, когато се унасяме от умора
Любопитно |Времето: Слънчево, но със сутрешни мъгли
България |На днешната дата, 30 октомври. Рождениците днес
На днешната дата |ADVERTORIAL
Кредитните карти на Fibank вече предлагат разсрочване на вноски без оскъпяване
Интер Експо Център представя изцяло обновен конгресен етаж и модернизирани изложбени зали – ново ниво в организацията на събития у нас
Коментари
Няма въведени кометари.