Cat de pregatit e magazinul tau online (3)
In continuarea seriei (1 — HA, 2 — Observability), avem: Reliability.
Ce este?
Abilitatea sistemelor de a functiona, chiar daca una sau mai multe componente nu sunt disponibile sau sufera (outage).
Si avem cateva exemple:
- pica conexiunea cu ERP-ul, pot sa trimit ulterior datele nesincronizate? (am vreun mecanism de queue, am un dead letter queue?)
- am o eroare la plasarea comenzii, cauzata de vreun modul 3rd party netestat suficient… Pot recupera / vedea datele clientilor sau pot sa plasez din nou comenzile?
- am o problema la partea de payment gateway si nu am procesat cum trebuie niste confirmari de capture; pot reface
Evident fiecare situatie are un drawback, dar sunt companii si sisteme care sunt gandite si ofera mecanisme prin care in cazul in care se intampla situatii de genul asta, pot face automat un “fix” si sunt sisteme in care daca una din componente crapa, crapa totul.
De ce e important?
In momentul asta un business foloseste mai multi furnizori de software, mai multe solutii pe care le integreaza. Fiecare vine cu SLA-ul lui, e mai reliable sau mai putin reliable. E important ca orice incident (si exista o probabilitate buna ca lucrurile sa nu mearga intotdeauna cum trebuie, vezi exemplul companiilor care tin N resurse doar pentru mentenanta, doar pentru a gestiona situatiile astea)
Cat cheltui
O data e de luat in calcul impactul asupra business-ului. In unele situatii nu imi permit sa nu rezolv situatia (pentru ca trebuie sa am datele pentru contabilitate de exemplu). Ca urmare, pot evalua costul efortului de a rezolva problemele care apar
A 2-a oara, costul resurselor IT pe care le aloc pentru gestionarea problemelor care apar. Pot sa masur 1–2–3 luni de zile, vad ce procent e “mentenanta” si pot sa estimez care ar fi un cost mediu. Cumva din acest calcul sunt excluse situatiile dezastruoase, care totusi pot aparea (chiar daca au o probabilitate foarte mica).
Exista business-uri mai risk adverse, altele care vor sa aiba un plan si sa stie la ce se expun.
Unde ma aflu?
- mentenanta manuala, resurse IT dedicate pentru a gestiona situatiile care apar; in mare, nu am mecanisme care sa imi permita sa gestionez astfel de situatii, cel mult am in loguri informatia ca s-a intamplat o problema
- Am instrumente care sa imi permita sa vad cand apar astfel de situatii, sunt necesare resurse IT pentru a gestiona situat
- Useri non-tehnici pot vedea cand se intampla astfel de situatii si au instrumentele necesare pentru a rezolva situatiile aparute