MelNet od Facebooku používa spektorgram na klonovanie hlasu

Umelá inteligencia od sociálnej siete na vás vie prehovoriť hlasom Billa Gatesa.

Vývojárske oddelenie Facebooku, ktorého zameraním je umelá inteligencia, spravilo poriadny krok vpred. V klonovaní hlasu použili miesto tradičných postupov spektrogram a výsledok je doslova úchvatný.

ZDROJ | pixabay.com

Na odkaze si môžete vypočuť zopár fráz, ktoré pôsobia akoby ich povedal Bill Gates, zakladateľ spoločnosti Microsoft. V skutočnosti však frázy vytvoril systém strojového učenia s názvom MelNet, vyvinutý inžiniermi z Facebooku.  Tí vo svojom programe použili viacero významných osobností, ktorých hlas veľmi dôverne naklonovala umelá inteligencia.

Výber osobností nebol náhodný. Vývojári mali k dispozícii 452 hodín prednášok z konferencie TED a množstvo audio kníh. Pre tieto zdroje sa rozhodli pretože, práve tu ľudia rozprávajú veľmi zrozumiteľne a jasne, čo uľahčilo stroju rozpoznať a naučiť sa hlasy.

Ako dokáže MelNet reprodukovať hlas známych osobností si môžete vypočuť na tejto stránke. 

MelNet však nie je revolučný a ani výsledkom zásadne nepredbehol konkurenciu. Klonovanie hlasu za posledné roky významne kvalitatívne narástlo. Zásadným bol rok 2016, kedy boli predstavené SampleRNN a WaveNet. Na ich základe je postavený aj program premeny textu na zvuk, rep. hlas, ktorý vyvinula dcérska spoločnosť Google DeepMind. Na ich riešení teraz beží Google Asistent.

Tieto riešenia sú postavené na spracovaní obrovského množstva dát, ktoré sa využíva na analyzovanie nuansí v ľudskom hlase. Za základné dáta je tu braná zvuková krivka. Tu prichádza zásadný rozdiel v prístupe od Facebooku. Ich zdrojom informácií je bohatší spektrogram.

ZDROJ | theverge.com

Inžinieri z Facebooku poznamenali, že zatiaľ čo WaveNet ponúka výstup s vysokou vernosťou, MelNet vyniká v zachytávaní subtilných konzistencií obsiahnutých v hlase hovoriaceho, na ktoré je ľudské ucho veľmi presne naladené.

Tieto dáta sa podarilo získať nakoľko spektogram je rádovo kompaktnejší, než zvukové vlny. Vysoká hustota umožňuje algoritmom produkovať viac konzistentné hlasy.

Pozrite siUmelá inteligencia prichádza na pomoc novinárom vo Forbes

Rozhodne však nejde o dokonalé riešenie klonovania hlasu. Riešenie nedokáže replikovať to, ako sa ľudský hlas mení v priebehu časového obdobia. Napríklad, nedokáže meniť intonáciu hlasu alebo jeho dramatičnosť ani len počas prečítania stránky textu. Odhliadnuc od týchto nedostatkov, výsledky sú vskutku pôsobivé. O to viac, že MelNet dokáže generovať hudbu.

Zdrojtheverge.com

Komentáre k článku