Acasă IA și VR ÎNLOCUIREA TESTULUI TURING

ÎNLOCUIREA TESTULUI TURING

80
0
(c) Cosminxp Cosmin/Getty Images

Peste 400 de cercetători din domeniul inteligenței artificiale (IA), inclusiv câțiva din cadrul companiei Google, au propus o actualizare a celebrului Test Turing pentru a permite evaluarea capacității tehnologiei IA.

În ultimii ani, modelele de limbaj IA au devenit surprinzător, și adesea șocant de bune în ceea ce privește conversația cu oamenii datorită unei dimensiuni din ce în ce mai mari: mai multă putere de calcul și seturi vaste de date de antrenament. Cercetătorii se așteaptă ca scara acestor modele să continue să crească și ca sistemele să capete noi abilități în următorii ani.

Pentru a evalua tehnologia actuală și a se pregăti pentru modelele și mai capabile din viitor, un grup de 442 de colaboratori din 132 de instituții a petrecut doi ani creând un înlocuitor pentru Testul Turing, cu ajutorul căruia sunt evaluate abilitățile ezoterice ale acestor sisteme. Benchmark-ul Beyond the Imitation Game (BIG-bench) constă din 204 sarcini diverse, care acoperă o gamă largă de subiecte, inclusiv lingvistică, matematică și jocuri de șah. Acestea sunt concepute pentru a nu fi pe deplin rezolvabile de modelele actuale de ultimă generație.

Cercetătorii au declarat în cadrul lucrării lor de introducere a BIG-bench faptul că instrumentul va fi esențial pentru a informa cercetările viitoare și pentru a identifica și planifica orice noi abilități perturbatoare sau efecte potențial dăunătoare ale sistemelor IA emergente.

Experții umani au efectuat aceleași 204 sarcini cu scopul de a stabili un scor mediu și de vârf pentru fiecare dintre ele. Cercetătorii au descoperit că, deși rezultatele obținute de modelele de inteligență artificială s-au îmbunătățit pe măsură ce acestea au dispus de mai multă putere de calcul, inteligența artificială s-a descurcat în continuare mediocru la majoritatea sarcinilor în comparație cu oamenii.

De asemenea, ei au descoperit faptul că scara modelelor IA nu a adus nicio îmbunătățire în anumite sarcini, precum raționamentul logic cu privire la bucăți lungi de text introdus. Acest lucru ar putea oferi indicii cu privire la domeniile în care sistemele pe bază de inteligență artificială nu vor putea opera singure. De fapt, cercetarea sugerează că scara poate aduce chiar probleme, deoarece, în unele cazuri, testele care măsoară părtinirile sociale au înapoiat scoruri mai mici pentru modele mai complexe.

Lucrarea examinează scorul modelelor de scară diferită bazate pe IA GPT a OpenAI, dar nu compară alte modele, precum modelul LaMDA dezvoltat de către Google, care nu sunt lansate public.

Adrian Hilton din cadrul Universității din Surrey, Marea Britanie, a declarat faptul că deși testul Turing nu este neapărat depășit, acesta nici nu este un test suficient de valid sau suficient de larg pentru tehnologia IA modernă. De asemenea, Hilton este sceptic că noul etalon ar putea măsura de fapt inteligența adevărată a sistemelor.

„Deși cred că acesta este un test valid, nu cred că a deduce din asta faptul că mașina este inteligentă sau sensibilă este exact același lucru. Stabilirea unui set de benchmark-uri este o modalitate de a compara un algoritm de învățare automată cu altul, o inteligență artificială cu alta. Dar nu cred că asta răspunde neapărat la întrebarea despre inteligență. Cu ajutorul tehnicilor de învățare automată putem să compunem piese muzicale sau chiar să scriem sau să răspundem la întrebări într-un mod destul de convingător și destul de uman. Dar asta este cu adevărat inteligență? Eu aș spune că nu este”, a adăugat acesta.

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.