ALGORITMUL CARE POATE TRADUCE ÎNTRE 204 LIMBI

Alex

2 ani ago

Cercetătorii din cadrul Meta au creat un algoritm pe bază de inteligență artificială care poate traduce 204 de limbi scrise și l-au lansat sub o licență de tip open source, astfel încât oricine să poată folosi sau îmbunătăți software-ul. Reprezentanții companiei susțin faptul că algoritmul acceptă mai multe limbi și oferă traduceri de calitate superioară față de celelalte software-uri.

Modelul, denumit No Language Left Behind, acceptă mult mai multe limbi bazate pe text decât Google Translate, care, în prezent, funcționează pentru 133 de limbi, și Microsoft Translator, care are o librărie de 110 limbi. Algoritmul poate traduce limbi precum Acehnese, care este vorbită de 4,7 milioane de oameni, și friulană, care este vorbită de doar 600.000 de oameni.

În ciuda numelui său, No Language Left Behind acoperă doar o mică parte din cele aproape 7000 de limbi care există la nivel global și se situează sub platforma Wikipedia, care are articole în 327 de limbi.

Angela Fan din cadrul Meta a declarat faptul că firma va continua să adauge alte limbi. „Multe dintre aceste limbi nu sunt vorbite de mulți oameni și majoritatea nu au formă scrisă. Așadar, deși există câteva mii de limbi în lume, estimăm că doar câteva sute prezintă sisteme de scriere standard. Noi am decis să ne concentrăm pe acestea mai întâi. Acesta este doar punctul de plecare”, a adăugat ea.

No Language Left Behind a fost dezvoltat folosind noul supercomputer specializat pe inteligență artificială al companiei Meta, denumit AI Research SuperCluster (RSC). Deși mașina este operațională, aceasta este încă în curs de dezvoltare. Atunci când va fi finalizat, supercalculatorul va consta din 16.000 de procesoare. Reprezentanții companiei Meta au declarat că, în acel moment, sistemul va fi cel mai rapid supercomputer optimizat pentru inteligență artificială din lume și va înregistra performanțe la aproape 5 exaflopi (ceea ce înseamnă că acesta poate efectua 5 miliarde de miliarde de operațiuni pe secundă).

Fan a declarat faptul că, deși modelul AI poate rula pe hardware mai puțin sofisticat, puterea supercomputerului a fost vitală pentru antrenarea și testarea rapidă a iterațiilor modelului. Din cauza faptului că modelul final necesită o putere de calcul mai mare decât au majoritatea desktop-urilor oamenilor, Meta a lansat și un model mai mic, mai puțin capabil, care este mult mai puțin solicitant pentru computere.

Modelul complet al algoritmului No Language Left Behind constă din 54 de miliarde de parametri sau depozite individuale de date utilizate pentru calcularea rezultatelor, ceea ce înseamnă că acesta este mult mai mic decât modelele IA pentru limbaj natural, precum modelul Megatron-Turing Natural Language Generation (MT-NLG), care are de aproape 10 ori mai mulți parametri.

Din cauza faptului că o comparare calitativă a textului tradus de modelele IA poate fi dificilă, programatorii din cadrul firmei Meta au creat și o actualizare a standardului de traducere existent, denumită FLORES-200, care evaluează rezultatul traducerii a peste 40.000 de secțiuni standardizate de text. Reprezentanții companiei susțin faptul că No Language Left Behind este cu 44% mai eficient decât modelul echivalent de cercetare DeltaLM al companiei Microsoft și puțin mai bun decât Google Translate.