14 septembrie 2016

Teorie si practica cu ING

defectiune ING test incendiu

Sambata le-au cazut toate serviciile celor de la ING Romania. Explicatia lor a fost ca un test de incendiu in Datacenter a dat totul peste cap. Pe scurt a fost eliberat un gaz (inergen) la o presiune foarte mare, s-a produs un zgomot necontrolat iar vibratiile cauzate de acel zgomot a distrus hard-diskurile. Aceasta este explicatia oficiala furnizata de banca ING. Pe scurt, oamenii au retinut ca nu a mers ING-ul.

A existat un backup?

Da, ING-ul, ca oricare banca ce se respecta probabil ca are un Disaster Recovery Center (un DataCenter de backup). Dar aici se tine de obicei doar core-bankingul, sistemul central al bancii ce stocheaza si proceseaza informatii despre clienti, conturi, tranzactii, etc. Cu alte cuvinte, aici se proceseaza banii. Restul sistemelor, gen ATM-uri, POS-uri, carduri, online banking sunt doar servicii conexe ce acceseaza intr-un mediu securizat acel core-banking. Cand s-a intamplat nenorocirea, cel mai probabil core-bankingul principal a fost substituit imediat de cel de rezerva (DR - disaster recovery). Dar sistemele auxiliare (ATM, POS, online banking, etc) n-au mai fost inlocuite cu nimic. Cu alte cuvinte banii clientiilor au fost securizati insa nu mai puteau fi accesati in nici un fel.

Chiar si sistemele auxiliare mai multe backupuri, dar se aflau probabil tot in DataCenterul afectat. Chiar si asa, o restaurare completa a sistemelor nu se face complet in mod automat si nu de catre oricine. Adica trebuie sa chemi de acasa toti specialistii pentru fiecare sistem informatic in parte. Ori sambata, la pranz, e greu sa chemi oamenii la serviciu.

Ce au facut angajatii ING?

Cei care simulau incendiul cu siguranta nu erau de la IT. Probabil ca aveau cativa oameni de la tehnic (ceva administratori de sistem), cei ce supravegheaza sistemele, dar acestia actioneaza conform indicatiilor primite de la dezvoltatorii sistemelor, conform unor indicatii clare si precise. Dar banuiesc ca n-au primit si indicatii de incendiu, ce ar fi de facut daca cedeaza simultan majoritatea hard-diskurilor.

Un lucru sa fie clar: intr-o asemenea situatie niciun admin nu face nimic fara aprobarea conducerii. Deciziile se iau mai sus, in functie de evaluarea situatiei si gravitatea problemei.


Cel mai probabil, dupa aparitia defectiunilor in Datacenter, s-au executat urmatorii pasi:
  • Au aparut alertele, cineva de la IT s-a sesizat ca exista o defectiune majora. Trebuie cautata o explicatie.
  • Inainte de a face ceva trebuie verificata cauza problemei. Poate este o defectiune minora si poate fi reparata in Datacenter.
  • Cineva de la inspectia muncii/securitate a verificat camera unde a fost eliberat gazul. Nimeni nu intra acolo daca exista pericol de moarte.
  • Cei de la tehnic au primit accesul de a verifica echipamentele/serverele. Au constatat defectiunile (majore) si au raportat conducerii.
  • Au fost contactati toti specialistii (care se aflau acasa sambata la pranz), s-a evaluat situatia si apoi s-au agreat metodele de corectie (poate unele sisteme au trecut automat pe servere de rezerva, dar la altele trebuie interventie manuala, schimbat hard-diskuri, eventual cumparat altele noi daca n-ai suficiente pe stoc, etc). 
  • Intre timp angajatii au fost chemati la birou.
  • S-a inceput corectia: restaurari/backupuri de baze de date, activarea manuala unor servere de rezerva (pe langa cele automatizate), schimbarea fizica a unor componente defecte, etc. 
  • Toate corectiile software si hardware trebuie facute intr-un mod securizat, fara a periclita siguranta banilor. Cu alte cuvinte te apuci sa repari dar urmezi niste proceduri si norme de siguranta: nivele de acces, ip-uri restrictionate sau permise, expunerea informatiilor din bazele de date, etc. 
  • In plus, inainte de a pune pe picioare un sistem informatic, trebuie sa faci un minim de teste de performanta, siguranta si non-regresie. Adica nu dai drumul la un sistem informatic de backup daca are mici probleme sau vulnerabilitati care pot duce la pierderea banilor de catre clienti sau fraude informatice. Hackerii abia asteptau sa intre pe fir!

A durat prea mult defectiunea?

Important: cand te apuci sa faci o corectie o faci ca la carte, mai bine intarzii mai mult timp si esti sigur de acea corectie decat sa o faci in graba si sa strici ulterior altceva. 

Eu sunt convins ca sistemele afectate ale ING puteau fi pornite mult mai repede, dar existau multe riscuri. Asa ca s-a preferat metoda sigurantei: mai degraba sa fie in siguranta banii clientilor si sa fie afectat renumele bancii "ING", decat sa piarda ulterior banii/tranzactile clientilor si sa riste mii de procese in instanta sau amenzi usturatoare din partea statului sau al BNR-ului. 

Cine a gresit?

Greseala este a celor care au planificat acest test de incendiu la ING. Insa banca trebuie sa-si asume pierderile iar clientii sa-si ceara drepturile. Doar "suntem cetateni europeni, avem drepturi!" - parca asa zicea o reclama candva.

Se poate repeta scenariul/defectiunea?

Da, defectiunea ING se poate repeta, atat la ei cat si la oricare alta banca din Romania. 

Cu alte cuvinte, se justifica o investitie de zeci de milioane de euro intr-un DataCenter de rezerva intr-o alta locatie decat cel principal, complet sincronizat si bine pus la punct in privinta tuturor sistemelor informatice (core-banking, ATM, POS, internet banking, etc), sau iti asumi o downtime major (chiar si de 24 de ore) in care pierzi cateva zeci de mii de euro prin despagubirea clientilor afectati de indisponibilitatea serviciilor?!

Oamenii au impresia ca in caz de dezastru se bate din palme si intra in functiune un sistem de backup. Ei bine, sistemele bancare sunt foarte complexe si foarte costisitoare. Pe langa faptul ca un DataCenter consta de te rupe din punct de vedere hardware, mai sunt si aplicatiile software destul de scumpe iar licentele se cumpara uneori si pe numarul de procesoare ale serverului. Ori se justifica asemenea investitii de zeci de milioane de euro intr-un DataCenter de rezerva "complet echipat", in conditiile in care s-ar putea sa n-ai niciodata nevoie de el? Si eventual sa-l inlocuiesti peste 10-15 ani pentru ca e depasit tehnologic?

Cati dintre voi aveti o masina (autoturism) de backup in caz ca se strica cea principala? Sau cati dintre voi si-au cumparat o locuinta de backup in caz ca prima locuinta e distrusa de un incendiu? Se merita o asemenea investitie? 

Niciun comentariu:

Trimiteți un comentariu

Pentru a comenta puteti alege optiunea: Nume/AdresaURL