Datorită unei noi tehnici asistată de IA, obiectele nedorite pot fi eliminate din videoclipuri, iar câmpul vizual al camerei poate fi extins în totalitate.
Studiourile de film de la Hollywood investesc timp și sume bani semnificative pentru editarea obiectelor nedorite din filmările video. Învățarea automată (Machine Learning) are potențialul de a face același lucru, la o fracțiune din cost, dar rareori a fost utilizată pentru a vizualiza ceea ce se află în spatele obiectelor sau în afara cadrului filmului.
Pentru a explora posibilitățile, Jia-Bin Huang, din cadrul Universității Tehnologice Virginia, și colaboratorii săi, din cadrul Facebook, au folosit software-ul de învățare profundă (Deep Learning), așa numita rețea neuronală convoluțională, pentru a manipula înregistrările video. Au analizat două cadre, din diferite puncte de timp ale videoclipului, iar apoi, prin selectarea pixelilor unui anumit obiect în mișcare, prezent în ambele cadre, rețeaua neuronală a putut calcula mișcarea relativă a pixelilor pe parcursul videoclipului.
Rețeaua neuronală convoluțională identifică mișcarea pixelilor, pentru a calcula unde se află obiectul în cadrele în care vizualizarea acestuia este obstrucționată. Ulterior, procesul se repetă, astfel încât să fie detectată orice modificare a mișcării unui obiect din videoclip.
„Algoritmul nostru de flux vă indică unde se va deplasa un pixel, din cadrul unu în cadrul doi”, spune Huang. IA este capabilă să elimine cu precizie obiecte și să le înlocuiască cu fundalul videoclipului. De asemenea, poate extinde fotografiile, calculând poziția obiectelor, chiar dacă sunt în afara cadrului filmului.
„Acestea sunt progrese remarcabil. Editarea video, bazată pe IA, deține un potențial extraordinar de a reduce munca manuală și de a dezvălui conținutul ascuns anterior, atât în scopuri științifice, cât și de divertisment”, a declarat Serge Belongie din cadrul Universității Cornell din New York.
Belongie crede că tehnica va necesita ajustări pentru a finaliza munca din laborator, ulterior având aplicații practice în lumea reală, dar autorii au „dezvăluit etapele necesare pentru a atinge obiectivul”.
Huang spune că există unele limitări în sistemul său. Algoritmul nu funcționează bine atunci când analizează corpuri organice sau obiecte, cum ar fi focul sau apa. De asemenea, nealterarea calității fețelor umane s-ar dovedi problematică, deoarece sistemul nu are o înțelegere semantică a ceea ce modifică. „Ar trebui să înțelegeți că fețele umane au doi ochi și sunt aproximativ simetrice. În acest moment, algoritmul nostru nu înțelege acest lucru”, a declarat Huang.