ISTRAŽIVAČKI PROJEKAT: Microsoft navodno ima umjetnu inteligenciju koja zvuči kao stvarni ljudi
Uratci umjetne inteligencije postaju sve realističniji. Tvrtke poput OpenAI-ja izrađuju alate koji mogu replicirati slike, audio i video zapise na načine koje je sve teže prepoznati kao takve.
U Microsoftu su, navodno, razvili alat koji je toliko dobar u tome da su odlučili ne pustiti ga u javnost još neko vrijeme.Riječ je o novoj inačici njihovog jezičnog modela neuronskih kodeka Vall-E 2, koju su opisali na službenom blogu.
Kako je navedeno, Vall-E 2 postiže 'ljudski paritet', što bi trebalo značiti kako odgovori koje daje zvuče kao da su ih dali pravi ljudi. Čini se kako novi model nema problem s beskonačnom petljom koji je original imao prilikom obrade ponavljajućih tokena.
Vall-E 2 uzima u obzir tokene koji se ponavljaju i stoga može dekodirati uzorak koji ih sadrži. Osim toga, skraćuje duljinu zadane sekvence grupiranjem kodeka kodeka.
To bi, tvrde u Microsoftu, trebalo ubrzati interferencije i preskočiti probleme koji proizlaze iz modeliranja dugih sekvenci.
Zbog toga postiže ljudski paritet u kategorijama kao što su robustnost govora, prirodnost i sličnost.
"VALL-E 2 može generirati tačan, prirodan govor u tačnom glasu izvornog govornika, usporediv s ljudskom izvedbom", ustvrdili su. Microsoft nudi primjere kako Vall-E 2 može uzeti uzorak snimke glasa i replicirati ga kada dobije novi upit.
Tvrtka je također pružila primjere modela koji dovršava rečenicu nakon što su mu dani segmenti uzorka snimke, u dijelovima od tri, pet i 10 sekundi.
Ovo pokazuje kako je model sposoban uzeti vrlo kratak primjer glasa i replicirati ga s tekstom koji se ne pojavljuje u izvornoj snimci uzorka.
(Tportal)