Influența calculului fracționar în modelele secvențiale cu număr mic de neuroni
Ștefan-Răzvan ANTON, Sandra-Ioana JIDOVEANU, Antonela TOMA
Cele mai recente progrese în studiul rețelelor neuronale artificiale s-au concentrat pe creșterea numărului de neuroni și a conexiunilor dintre aceștia, crescând astfel direct numărul de parametri antrenabili. Alte metode de progres se concentrează pe crearea unor modele din ce în ce mai complexe și mai complicate, care sunt reglate pentru fiecare aplicație în parte: rețele neuronale artificiale (RNA) pentru interpretarea limbajului, rețele neuronale de convoluție (CNN) pentru clasificarea imaginilor și rețele neuronale recurente (RNN) pentru prognozarea seriilor temporale. Deși avantajele creșterii numărului de parametri antrenabili sau ale dezvoltării unor modele din ce în ce mai complexe au fost, fără îndoială, dovedite, cum rămâne cu aplicațiile care nu pot suporta rularea unor astfel de modele? De exemplu, aparatele electrocasnice inteligente, termostatele, sistemele de securitate sau orice sistem încorporat de mică putere. Motivați de nevoia de acuratețe în cazul RNA-urilor foarte mici, studiem efectele aplicării calculului fracționar pentru a modifica geometria celor mai utilizate funcții de activare care definesc ieșirea unui neuron artificial pe baza intrărilor sale.
Principalul nostru obiectiv pentru această cercetare este de a testa influența, pozitivă sau negativă, a diferitelor valori ale parametrului q în rețelele neuronale cu număr extrem de mic de neuroni.
Ne așteptăm ca atunci când numărul de parametri antrenabili este mic, influența derivatei fracționare să fie mare, iar pe măsură ce numărul de parametri antrenabili crește, ne așteptăm ca efectul derivatei fracționare să scadă.
Astfel, pentru a evalua beneficiile utilizării diferitelor derivate de ordin fracționar în funcțiile de activare ale modelelor secvențiale cu un număr extrem de mic de neuroni, propunem următoarele trei cazuri:
Primul caz: Doi neuroni de intrare, cu un neuron de ieșire pentru un total de șapte parametri antrenabili.
Al doilea caz: Patru neuroni de intrare, cu un neuron de ieșire pentru un total de 13 parametri antrenabili.
Al treilea caz: Patru neuroni de intrare, un strat ascuns cu patru neuroni și un neuron de ieșire pentru un total de 33 de parametri care pot fi antrenați.
În primul caz, efectul derivatei fracționate este cel mai vizibil atunci când analizăm modelul care utilizează ca funcție de activare tangenta hiperbolică fracționată cu q=0,75 și îl comparăm cu modelul cu q=1, care este utilizat în mod normal. Aceeași îmbunătățire poate fi observată și în cazul în care analizăm modelul care utilizează ca funcție de activare funcția fracționară softplus cu q= 1,75.
În cel de-al doilea caz există încă o îmbunătățire a acurateței, dar nu la fel de semnificativă ca în primul caz. Acest efect este cel mai vizibil atunci când analizăm modelul care utilizează ca funcție de activare tangenta hiperbolică fracționară cu q=1,5 și îl comparăm cu modelul cu q=1, care este utilizat în mod normal. În mod surprinzător, obținem o predicție aproape perfectă cu același număr de parametri de formare doar prin schimbarea ordinului derivatei utilizate în funcția de activare. O îmbunătățire poate fi observată, de asemenea, dacă ne uităm la modelul care utilizează ca funcție de activare funcția fracționară softplus cu q= 0,75, dar predicția nu este nici pe departe la fel de precisă ca cea care utilizează tangenta hiperbolică fracționară ca funcție de activare.
În cel de-al treilea caz nu se observă niciun efect notabil, nici atunci când se utilizează ca funcție de activare tangenta hiperbolică fracționară sau softplus fracționară. În ambele cazuri, cea mai precisă predicție este dată de modelul cu q=1, adică derivata de ordinul întâi care este utilizată în mod normal. Prin utilizarea unor valori q în afara celor utilizate în mod normal se pierde acuratețe, cel mai evident exemplu fiind cel care are funcția de activare tangentă hiperbolică fracționară cu q=1,75, care se blochează în mod constant la un minim local, oferind astfel predicții care seamănă cu o ieșire aleatorie. Acest comportament este din ce în ce mai evident pe măsură ce crește numărul de parametri antrenabili.
Așteptarea noastră inițială conform căreia influența derivatei fracționare scade atunci când crește numărul de neuroni, care este strâns legat de numărul de parametri antrenabili, s-a dovedit a fi adevărată. Atunci când ajungem la 33 de parametri antrenabili, influența majorității valorilor derivatei fracționare este practic inexistentă, cea mai precisă predicție fiind dată de varianta clasică a ambelor funcții de activare.
În ceea ce privește cercetările viitoare, ne propunem să studiem fezabilitatea implementării unor astfel de modele secvențiale cu număr redus de neuroni în diferite aplicații din viața reală pentru soluții urbane inteligente care aduc multiple beneficii pentru mediu, cum ar fi consumul eficient de energie, reducerea poluării, gestionarea apei și a deșeurilor, care pot funcționa local, fără a fi conectate la cloud, fiind astfel expuse la atacuri cibernetice.
În concluzie, profitând de calculul fracționar, am reușit să modificăm geometria funcțiilor softplus și tangentă hiperbolică pentru a se potrivi mai bine aplicației rețelelor secvențiale cu număr redus de neuroni. Acest lucru sporește acuratețea predicțiilor pe un set de date sintetice atunci când se iau în considerare rețele cu mai puțin de 33 de parametri antrenabili.