Un sistem de inteligență artificială (IA), care poate memora succesele anterioare pentru a crea noi strategii, a obținut scoruri record în cadrul unora dintre cele mai dificile jocuri video de pe consolele clasice Atari.
Multe sisteme de IA folosesc învățarea cu întărire, în care un algoritm primește feedback pozitiv sau negativ cu privire la progresul său după fiecare pas pe care îl face, încurajându-l către o anumită soluție. Această tehnică a fost utilizată de compania DeepMind pentru a antrena sistemul AlphaGo, care a învins, în anul 2016, campionul mondial la jocul Go.
Adrien Ecoffet și colegii acestuia din cadrul Uber AI Labs și OpenAI au emis ipoteza că astfel de algoritmi se îndreaptă, adesea, spre căi promițătoare, dar câteodată, aceștia pot viza o altă zonă în căutarea altei rezolvări, omițând soluții mai bune.
Pentru a rezolva această problemă, echipa a creat un algoritm care își amintește toate abordările pe care le-a încercat în trecut și continuă să revină la momentele în care acesta a avut un scor mare ca punct de plecare din care să exploreze mai departe.
Pe măsură ce joacă, software-ul stochează capturile de ecran dintr-un joc pentru a memora strategiile, grupând imagini cu aspect similar pentru a identifica punctele din joc la care ar trebui să revină. Scopul algoritmului este de a-și maximiza scorul. Acesta își actualizează înregistrarea punctului de plecare, atunci când acel punct este folosit pentru a atinge un nou scor record, efectuând o nouă captură de ecran din zona respectivă a jocului.
În mod normal, jocurile Atari nu permit jucătorilor să revadă momente anterioare, dar cercetătorii au folosit un emulator, adică un software care imita sistemul Atari, care prezenta capacitatea de a salva statistici și de a le reîncărca în orice moment. Astfel, algoritmul ar putea începe din orice punct fără a fi nevoie să revină mereu la început.
Echipa de cercetători a setat algoritmul pentru a juca o colecție de 55 de jocuri Atari, care a devenit un etalon pentru algoritmii cu învățare cu întărire. În jocurile respective, acesta a depășit algoritmii de ultimă generație în 85,5% din cazuri.
În cadrul unui joc deosebit de complex, Răzbunarea lui Montezuma, algoritmul a doborât recordul anterior, stabilit de un alt algoritm de învățare cu întărire. De asemenea, acesta a doborât și recordul mondial stabilit de jucătorii umani.
Odată ce algoritmul a atins un scor suficient de ridicat, cercetătorii au folosit această metodă pentru a antrena o rețea neuronală cu scopul de a replica strategia și de a juca jocul în același mod, eliminând necesitatea reîncărcării statisticilor salvate prin intermediul emulatorului. Această abordare alternativă s-a dovedit a fi mai intensă din punct de vedere al puterii de calcul, deoarece rețeaua neuronală a algoritmului a creat miliarde de capturi de ecran în timp ce rezolva fiecare joc.
Peter Bentley, din cadrul Colegiului Universitar din Londra, a declarat faptul că abordarea echipei de a combina învățarea cu întărire cu o arhivă de amintiri ar putea fi folosită pentru a aborda probleme mai complexe. „Aceasta este o nouă combinație de tehnici care pare să ofere o îmbunătățire reală”, a adăugat acesta.