INTELIGENȚA ARTIFICIALĂ SINCRONIZEAZĂ SUNETELE CU BUZELE OAMENILOR

Alex

4 ani ago

O inteligență artificială poate ajusta înregistrările video, în timp real, pentru a sincroniza buzele oamenilor cu orice sunet.

Prajwal Renukanand și colegii săi, din cadrul Institutului Internațional de Tehnologia Informației din India, au dezvoltat un algoritm care poate modifica rapid înregistrările video ale unei persoane care vorbește sau cântă.

Cercetătorii consideră că IA ar putea fi folosită pentru a modifica videoclipurile, astfel încât acestea să se potrivească cu sunetul a diferite limbi, un exemplu fiind filmele dublate.

Echipa a dezvoltat algoritmul de sincronizare a clipurilor video scurte, detectând formele buzelor oamenilor în timp ce vorbeau.

Algoritmul este o rețea contradictorie generativă (GAN), formată din IA concurente. Pentru o anumită înregistrare sonoră și o filmare a unei persoane care vorbește, o IA (generatorul) a fost programată să ajusteze forma buzelor persoanei pentru a se sincroniza cu sunetul.

Alte două IA (discriminatorii), au trebuit să distingă dacă filmările au fost reale sau false. Un discriminator s-a concentrat asupra formelor gurii, detectând dacă erau realiste iar ,dacă exista o nepotrivire între sunet și mișcările buzelor, atenționa GAN. Al doilea discriminator a verificat calitatea vizuală, observând orice erori sau forme vizuale nenaturale, din jurul gurii.

Generatorul a fost îmbunătățit, în producerea imaginilor realiste, pe parcursul mai multor ajustări, până când, în cele din urmă, discriminatorii nu au mai putut face diferența dintre real și fals.

„Pentru sincronizarea buzelor, a unui videoclip cu o durată de un minut, necesită aproximativ două minute”, spune Renukanand. O mare parte din timpului necesar acestui proces este folosit de către algoritmul pentru detectarea feței unei persoane în videoclip, însă algoritmul pentru sincronizarea buzelor are loc în timp real.

„Deoarece algoritmul a fost destinat fețelor umane, acesta este mai eficient în cazul înregistrărilor video cu oameni reali decât în cel al personajelor generate de computer (CGI)”, spune Renukanand. De asemenea, funcționează mai bine dacă sunetul furnizat este vocea unei persoane reale, și nu a unul generat de computer.

Cercetătorii speră să utilizeze algoritmul pentru a modifica conținutul video, dublat în diferite limbi și, în viitor, pentru a spori ușurința sincronizării imaginilor generate de calculator (CGI) cu sunetul vocii actorilor.