TehnoȘtiri

TEHNICA DE ÎNVĂȚARE UTILIZATĂ PRIN INTERMEDIUL INTELIGENȚEI ARTIFICIALE

Progresul cercetării inteligenței artificiale este datorat, adesea, tehnicilor similare inspirate de modul în care funcționează creierul uman. Acum însă, tehnica AI poate demonstra procesul de stocare a informației de către creier.

Will Dabney și colegii săi, din compania tehnologică DeepMind, din Londra, au descoperit o tehnică recentă în contextul învățării automate, numită ,,învățarea de consolidare distribuțională”. Aceasta oferă o nouă explicație a modului în care funcționează căile de recompensare în creier. Aceste căi guvernează răspunsul nostru la evenimente plăcute și sunt mediate de neuroni, care eliberează dopamină, o substanță chimică produsă de creier.

,,Dopamina din creier este un tip de semnal al fericirii”, spune Dabney. „Când lucrurile se dovedesc a fi mai bune decât era de așteptat, este eliberată o cantitate mai mare de dopamină”, adaugă el.

Înainte s-a crezut că acești neuroni, responsabili de provocarea dopaminei, au manifestat același răspuns. „Un fel de cor, dar unde toată lumea cântă exact aceeași notă”, spune Dabney.

Dar echipa de cercetători a descoperit că neuronii dopaminei individuale par să difere – fiecare este adaptat la un nivel diferit de optimism sau pesimism.

„Toți sfârșesc prin a emite diferite niveluri de fericire”, spune Dabney. „Mai degrabă ca un cor, cântând note diferite, armonizând împreună”, continuă el.

Această constatare a fost inspirată de procesul cunoscut sub denumirea de ,,învățare de consolidare distribuțională”, fiind una dintre tehnicile pe care AI le-a folosit pentru a administra jocuri precum Go și Starcraft II.

Prin simplificare, ,,învățarea de consolidare” se referă la faptul că o recompensă rigidizează comportamentul care a dus la dobândirea ei. Acest fapt necesită o înțelegere a modului în care o acțiune curentă duce la o recompensă viitoare. De exemplu, un câine poate învăța comanda „șezi” pentru că este răsplătit cu hrană, atunci când face acest lucru.

Anterior, modelele de ,,învățare de consolidare”, atât în ​​AI, cât și în domeniul neuroștiințelor s-au concentrat pe învățare, pentru a prezice o recompensă viitoare „medie”, spune Dabney. „Dar acest lucru nu reflectă realitatea, așa cum o experimentăm”, adaugă el.

„Atunci când cineva joacă la loterie, de exemplu, se așteaptă să câștige sau se așteaptă să piardă, dar nu se așteaptă, în niciun caz, la jumătate de câștig”, spune el.

Când viitorul este incert, rezultatele posibile pot fi reprezentate, în schimb, ca o distribuție a probabilităților: unele sunt pozitive, altele negative. AI-urile care folosesc algoritmi de învățare a consolidării distribuționale sunt capabile să prezică spectrul complet de recompense posibile.

Echipa de cercetători a înregistrat răspunsuri de la neuronii individuali ai dopaminei, la șoareci, printr-o distribuție, pentru a testa funcționalitatea căilor de recompensare ale acestora, în creier. Șoarecii au fost antrenați pentru a îndeplini o sarcină și li s-au dat recompense de dimensiuni variate și imprevizibile.

Cercetătorii au descoperit diferite celule de dopamină, corespunzătoare diferitelor niveluri de surprindere fiabile.

„Asocierea recompenselor la anumiți stimuli sau acțiuni este de o importanță critică pentru supraviețuire”, spune Raul Vicente, de la Universitatea din Tartu, Estonia. „Creierul nu își permite să arunce nicio informație valoroasă despre recompense”, adaugă el.

„La scară largă, studiul este în conformitate cu premisa că, pentru a opera eficient, creierul trebuie să reprezinte nu numai valoarea medie a unei variabile, ci cât de des o variabilă ia valori diferite”, spune Vicente. „Este un exemplu agreabil, a modului în care, algoritmii de calcul ne pot ghida în ceea ce trebuie să căutăm, spre răspunsurile neuronale”, continuă el.

Cu toate acestea, adaugă Vicente, este nevoie de mai multe cercetări pentru a demonstra dacă rezultatele se aplică altor specii sau anumitor regiuni ale creierului.