TehnoȘtiri

CREAREA UNUI SISTEM IA UTILIZAT PENTRU IMITAREA LIMBAJULUI UMAN

Supercomputerul Selene al Nvidia. (c) Nvidia

Companiile Microsoft și Nvidia au creat un sistem de inteligență artificială (IA) care poate imita limbajul uman mai convingător decât oricând. Totuși, costul și timpul dedicat pentru crearea unei rețele neuronale de acest gen ar putea fi prea mari pentru scalarea în continuare a proiectului.

Modelul de generare a limbajului natural, Megatron-Turing (MT-NLG), are 530 miliarde de parametri, adică de trei ori mai mulți decât modelul inovator GPT-3, dezvoltat de către firma OpenAI și care era considerat cel mai avansat sistem de acest gen. Acest progres a necesitat utilizarea unui supercomputer, pentru o perioadă de o lună și aproape 4.500 de plăci grafice de înaltă putere, care sunt utilizate în mod obișnuit pentru a rula rețele neuronale high-end.

Sistemul GPT-3, care a fost lansat în anul 2020 de către organizația OpenAI, i-a surprins pe cercetători cu capacitatea sa de a genera fluxuri fluente de text. Acesta folosea 175 de miliarde de parametri și accesa cantități mari de informații sub formă de text, accesibil publicului pentru a învăța tiparele de limbaj. De la acel moment, compania Microsoft a achiziționat o licență exclusivă pentru utilizarea sistemului GPT-3.

Echipa a supus sistemul MT-NLG la o serie de sarcini lingvistice, precum prezicerea cuvântului care a urmat o secțiune de text și extragerea informațiilor logice din text și a constatat faptul că acesta are o capacitate mai mare de a completa propozițiile cu precizie și de a imita un raționament uzual decât sistemul precedent. În urma rulării unui test benchmark, în cadrul căruia un model prezice ultimul cuvânt al propozițiilor, sistemul GPT-3 a obținut o precizie de până la 86,4%, în timp ce noul model a ajuns la o precizie de 87,2%.

Totuși, această capacitate îmbunătățită nu este ieftină. Bryan Catanzaro, din cadrul companiei Nvidia, a declarat faptul că „instruirea unui astfel de sistem costă milioane de dolari”, deoarece resursele de calcul necesare pentru a-l instrui cresc rapid, pe măsură ce acesta este scalat.

MT-NLG a fost instruit folosind supercomputerul Selene al companiei Nvidia, care este format din 560 de servere puternice, fiecare echipat cu opt unități de procesare grafică (GPU) A100 80GB Tensor Core. În prezent, fiecare dintre cele 4480 de plăci grafice, care sunt concepute pentru a rula jocuri pe computer, dar care sunt și extrem de capabile să analizeze cantități mari de date în timpul antrenării modelelor IA, costă mii de lire sterline. Deși echipa de cercetare nu a utilizat supercalculatorul la capacitate maximă, instruirea modelului a durat mai mult de o lună.

Chiar și rularea modelului, după ce acesta a fost instruit, necesită 40 de astfel de procesoare grafice, iar procesarea fiecărei interogări durează între una și două secunde. Această scalare constantă înseamnă că cercetarea în domeniul IA este în prezent, într-o anumită măsură, o problemă inginerească ce ține de împărțirea eficientă a sarcinii și de distribuirea acesteia pe un număr mare de sisteme hardware.