Kun mahdottomasta tuli mahdollista – ja kuinka siitä selvittiin?

”Ei tällaista voi tapahtua.” ”Tällaista ei ole tapahtunut ikinä ennen.” ”En ole 30-vuotisen IT-urani aikana kuullut tällaisesta, saati että olisin ollut mukana.”

Saarni Nepton Oy:n datakeskuksessa alkoi torstaina 20. lokakuuta 2022 tapahtumaketju, jonka ei pitänyt olla mahdollinen. Keskuksen yhteen osaan kohdistunut normaali, rutiininomainen, turvallinen, kymmenen minuutin huoltotoimenpide aiheutti useamman vuorokauden katkon palveluumme.

Asiakkainamme on paljon esimerkiksi julkishallinnon, terveysalan ja finanssialan organisaatioita. Olemme pyrkineet laajasti tunnistamaan erilaisia uhkia ja virhetilanteita, jotta voimme varautua näihin mahdollisimman kattavasti.

Käytössämme on kolme rinnakkaista toisistaan riippumatonta varmistus- ja palautumisjärjestelmää. Ensimmäinen tallentaa tiedot tunnin välein, toinen ja kolmas kerran vuorokaudessa. Isossa ongelmatilanteessa voimme palauttaa tiedot aikaisemmasta varmuuskopiosta.

Harjoittelemme säännöllisesti erilaisia poikkeustilanteita, lähtien pahimmasta mahdollisesta skenaariosta, jossa syystä tai toisesta ”konesali räjähtää.” Lokakuinen tapahtuma oli vaikutuksiltaan lähes tuota luokkaa, osin jopa pahempi. Tapahtumaketju lähti käyntiin datakeskuksen yksittäisen ei-kriittisen osan vaihdosta.

Olemme valinneet tallennusratkaisun ja sen toimittajan alan parhaimmiston joukosta. Erittäin vikasietoisen ratkaisumme tuli mahdollistaa tiedon virheettömyys ja 99.999-prosenttinen tiedon saatavuusaste kaikissa tilanteissa.

Kuinka sitten mahdottomasta tuli mahdollista? Kuinka asiat voivat mennä tällä tavalla pieleen, kun varautumisen taso on hyvä ja palautumista erilaisista häiriötilanteista on säännöllisesti harjoiteltu? Olemme analysoineet tapahtunutta kansainvälisten asiantuntijoiden kanssa.

Analyysimme mukaan mahdoton voi muuttua mahdolliseksi, jos helpon rutiiniprosessin kaikki vaiheet menevät kohtalokkaalla tavalla pieleen. Tapahtumaketjumme selvittämistä on verrattu lentoturmatutkintaan, jossa mikään yksittäinen tapahtuma itsessään ei aiheuta onnettomuutta, vaan onnettomuus tapahtuu, kun riittävä määrä epätodennäköisiä asioita toteutuu yhtäaikaisesti. Käyttökatko ei olisi tapahtunut, mikäli mikä tahansa yksittäinen tapahtuma olisi ollut toisin. Meidän tilanteessamme epätodennäköisten tapahtumien ketju oli seuraava:

1. Tallennusratkaisussa ilmenee äärimmäisen epätodennäköinen komponenttivika.

2. Äärimmäisen epätodennäköinen komponenttivika aiheuttaa sellaisia toimintahäiriöitä, joihin tallennusratkaisun valmistaja ei ole valmistautunut.

3. Tiedot sijaitsevat useammassa tallennusyksikössä, joita voisimme kutsua aivolohkoiksi. Huoltoteknikko valitsi väärän aivolohkon operoitavakseen.

4. Isolla ja pienellä kirjaimella on eroa! Aivolohkon alasajoa koskeva kriittinen komento olisi vaatinut pienen b:n ison B:n asemesta. Tapahtumien aikaan valmistajan ohje oli epäselvä, minkä seurauksena huoltoteknikko kirjoitti ”väärän komennon”.

5. Tallennusratkaisussa on ohjelmistovirhe, joka päästää läpi ”väärän komennon”. Tämän seurauksena ratkaisu suorittaa komennon väärässä aivolohkossa. Kokonaan väärä aivolohko ajetaan vahingossa alas.

6. Valmistajan parhaiden käytäntöjen mukaisesti aivojen “välimuisti” olisi pitänyt kytkeä pois päältä huoltotoimenpiteen ajaksi. Näin ei kuitenkaan tehty.

Neljän vuorokauden piina

Käyttökatkon syy oli tuntikausia hämärän peitossa. Torstaina illalla muodostimme tallennusratkaisun toimittajan antamien tietojen perusteella analyysin. Analyysin lopputulos oli tyrmäävä: ”Kaikkien ulkoisten sekä sisäisten järjestelmien tieto on menetetty ja ensisijaiset varmuuskopiot ovat korruptoituneet.”

Tilanne oli äärimmäisen hankala. Palvelumme olivat alhaalla, emmekä voineet vielä luotettavasti arvioida ajankohtaa, jolloin ne olisivat käytössä. Asiantuntijat eri puolilla maailmaa tekivät töitä kellon ympäri löytääkseen tavan korjata tämä täysin poikkeuksellinen tilanne.

Oma henkilöstömme työskenteli tauotta tallennusratkaisun toimittajan sekä asiakkaidemme kanssa seuraavien neljän päivän ajan. Ehkä joskus voimme muistella vähemmän vakavana menneitä tapahtumia. Esimerkiksi kuinka IT-asiantuntijamme työskenteli konesalissa kolmessa eri vuorossa olevien huoltoteknikoiden kanssa, ja nukkui muutaman tunnin GLO-hotellissa ennen palaamistaan konesaliin. Tai kuinka osallistuimme 88 tuntia kestävään Zoom-kokoukseen tallennusratkaisun toimittajan mission critical –tuen kanssa ymmärtääksemme tapahtunutta ja mahdollistaaksemme palveluidemme palautumisen.


Toivon kipinä

Tallennusratkaisun toimittaja aloitti torstai-iltana korjausprosessin, jossa tuhoutunut tieto voitaisiin vielä pelastaa tallennusratkaisusta tai ensisijaisista varmistuksista. Olimme toiveikkaita siitä, että saisimme palautettua vikaantumishetkellä palveluissamme olleet tiedot, tai korkeintaan joutua palauttamaan 23 minuuttia aikaisemman ajanhetken tiedot.

Tallennusratkaisun toimittaja pyysi, että he voisivat suorittaa tiedon palautuksen loppuun. Saisimme heiltä tiedon, mahdollisesti hetkenä millä hyvänsä, että palautus on onnistunut ja palvelut voidaan käynnistää.  Vaihtoehtona meillä oli palauttaa palvelut toissijaisista varmistuksista, jolloin asiakkaamme menettäisivät palveluunsa tekemät muutokset lähes vuorokauden ajalta. Toivoimme parasta.

Toivon kipinä hiipui perjantaina, kun tiedon korjauksen ajot yllättäen keskeytyivät ja toimittaja pyysi lupaa tehdä ajot uudelleen. Päätimme antaa toimittajalle heidän pyytämänsä luvan. Teimme samalla päätöksen, että palveluidemme tulee olla asiakkaiden käytössä viimeistään maanantaina. Toimittaja ei onnistunut tiedon tai ensisijaisten varmistusten korjauksessa usean päivän yrittämisestä huolimatta, joten aikaisemman päätöksemme mukaisesti palautimme palvelut toissijaisista varmistuksista.

Hankalaa tilanteessa oli se, että ajankohtaista tilannetietoa tallennusratkaisun toimittajan tiimiltä ei juurikaan tihkunut. Mikäli toimittaja olisi selkeämmin kertonut tilanteen, korruptoituneen datan määrän ja korjauksen epätodennäköisyyden, olisimme aloittaneet palautuksen toissijaisista varmistuksista jo aiemmin.

Me tehtiin se!

Palautumisen prosessimme ja työvälineemme toimivat juuri kuten olimme suunnitelleet. Saimme ulkoiset palvelumme toimimaan maanantaina 24.10. aamupäivällä. Laadimme asiakkaillemme ja kumppaneillemme viikonlopun aikana ohjeet, kuinka heidän tulee toimia tietojen syötön ja automatisoitujen integraatioiden suhteen.

Henkilöstömme panos tuon epätodellisen viikonlopun aikana sekä sen jälkeen on ollut aivan huikeaa. Sekä IT-asiantuntijamme, tuotekehityksemme että asiakaspalvelun ammattilaisemme ottivat tilanteen haltuun saman tien ja ryhtyivät töihin työtunteja ja vuorokauden aikaa miettimättä. Iso kiitos kuuluu heille.

Tarinan opetus

Näköjään, jos kaikki menee pieleen, mahdoton voi muuttua mahdolliseksi.

Toivon, että kukaan ei koskaan enää joudu 88 tuntia kestävän Zoom-kokouksen vangiksi. Kannustan kaikkia toimijoita valmistautumaan odottamattomaan. Valmistautumaan sellaiseen tilanteeseen, jossa tehtäviin päätöksiin liittyy suurta epävarmuutta. Miettimään ennalta, milloin ja kuinka pitkäksi aikaa tartutaan toivon kipinään, ja milloin tulee hyväksyä pahin lopputulos ja toimia sen mukaan.

Käymme perinpohjaisen keskustelun tallennusratkaisun toimittajan kanssa heidän ohjeistuksestaan, parhaista käytännöistään ja liiketoimintaratkaisuja tukevan viestinnän merkityksestä. Seuraavaksi uudistamme koko varmistus- ja palautusjärjestelmämme ja tutkimme mahdollisuutta tehdä palautuspisteitä erityisen tiheästi.

Opimme sen, että häiriötilanteista toipuminen ei voi olla vain tekninen harjoitus. Kehitimme malleja, kuinka sisäistä ja ulkoista viestintää tehdään näin laajassa odottamattomassa häiriötilanteessa. Opimme sen, että viestintä tulee olla laajemmin osana toipumissuunnitelmaa. Erityisesti opimme sen, että asiakkaat ymmärtävät tällaisten tilanteiden poikkeuksellisuuden, kun ongelmista kerrotaan avoimesti.

Jukka Kivistö
Toimitusjohtaja
Saarni Nepton Oy

Lisää lukemista

Etsimme Key Partner Manageria

Haluatko mukaan suomalaiseen kasvuyritykseen, jonka edistykselliset SaaS-ratkaisut tehostavat jo 750 asiakasyrityksen henkilöstöhallintoa? Palveluihimme kuuluvat Työajanseuranta, HR-ratkaisu, työvuorosuunnittelu sekä palkat. Näistä …

Näin varmistat riittävän tietosuojan ja tietoturvan

Tietoturva ja tietosuoja ovat nykyään kaiken toiminnan keskiössä. Yritysten ja organisaatioiden vastuulla on huolehtia siitä, että heidän käyttämänsä ratkaisut ovat …

Kun mahdottomasta tuli mahdollista – ja kuinka siitä selvittiin?

”Ei tällaista voi tapahtua.” ”Tällaista ei ole tapahtunut ikinä ennen.” ”En ole 30-vuotisen IT-urani aikana kuullut tällaisesta, saati että olisin …

We’re looking for talented software developers

We’re looking for .NET and PHP DEVELOPERS. for Nepton! Are you an experienced developer? Could we be the perfect match?