‘Topprestatie in lastige omstandigheden’, twitterde Koen van der Drift, de interim-directeur van ICTS, donderdag toen we meldden dat alle UT-studenten en –medewerkers weer konden mailen. Woensdag waren de tweets van UT’ers een stuk minder positief, zeker niet toen de ICT-dienst vreesde dat sommigen pas dit weekend weer toegang tot hun e-mail zouden krijgen. Dat viel uiteindelijk mee, maar toch zat een kwart van de gebruikers, zo’n 3000 man, een hele dag zonder mail. Wat ging er eigenlijk mis? Een schets van wat er woensdag, volgens ICTS, gebeurde.
Hoe de UT-mailomgeving is ingericht
Om te beantwoorden wat er misging, is het handig eerst inzicht te hebben in hoe de UT-mail wordt opgeslagen. ICTS gebruikt daarvoor zes servers met twintig Microsoft Exchange-databases waarover de verschillende mailboxen, random zijn verdeeld. De UT is veel te groot om alle mail in een database op te slaan. Van elke database zijn vier kopieën aanwezig. Drie zijn altijd gelijk aan elkaar en de vierde loopt twee weken achter op de rest. Dat heeft te maken met het back-upschema. Van elke database kan slechts een kopie tegelijk actief zijn.
Op elke ICTS-server draait minimaal een kopie van elke database. Als er problemen zijn met een server of database probeert Exchange altijd een kopie te activeren, in principe een van de drie bijgewerkte versies. In sommige – volgens ICTS uitzonderlijke – gevallen schakelt Exchange toch over op de vierde kopie die achterloopt. Groot nadeel daarvan is dat de achterstand van veertien dagen eerst moet worden bijgewerkt voor de database in gebruik kan worden genomen. Dit kan tot zestien uur per database in beslag nemen.
Hoe het misging
Woensdag rond half vijf in de ochtend konden alle mailboxservers niet meer bereikt worden. Vier minuten later was dit probleem voor vijftien van de twintig database verholpen. Driekwart van de UT’ers kon toen alweer mailen. De kans is groot dat niemand van die groep heeft gemerkt dat ze ’s nachts gedurende vier minuten niet bereikbaar waren.
Bij vijf databases lukte het Exchange echter niet over te schakelen op een bijgewerkte kopie en dus probeerde het systeem de vierde kopie online te brengen. Vandaar dat werd gevreesd dat sommige gebruikers zestig uur geen mail konden ontvangen (immers zestien uur per database). ICTS wilde dit proces onderbreken om tijd te winnen en vroeg daarom advies bij Microsoft Nederland. Die durfde het niet aan verwees de UT door naar Microsoft Amerika. Uiteindelijk bleek hun hulp niet meer nodig.
Hoe het sneller opgelost werd dan gedacht
Woensdagavond rond 21 uur (ongeveer zestien uur na de mailuitval) had Exchange de vierde kopie van de eerste database bijgewerkt. Die mensen konden toen weer mailen. Normaal gesproken zou Exchange verder gaan met de tweede van de vijf gecrashte databases, maar door een onbekende oorzaak liep daar het proces vast. Een geluk bij een ongeluk, want hierdoor kon ICTS op een veilige manier de server die de problemen had veroorzaakt uitschakelen. Toen die server eenmaal uit was lukte het Exchange wel om van de vier overige databases de bijgewerkte kopieën te activeren. Na een korte check stonden ook die online. Iedereen kon weer mailen.
Hoe in de toekomst dit wordt voorkomen
De uitgeschakelde server is daarna weer opgestart om te zorgen dat van elke database weer vier kopieën bestaan. Donderdagnacht om 2 uur waren alle kopieën bijgewerkt op één database na. Daarvan is nu geen back-upversie van twee weken. Dat wordt de komende twee weken hersteld. Tijdens het herstelproces ontdekte ICTS bovendien een manier om te zorgen Exchange niet meer automatisch de vierde kopie online gaat brengen. Dat is direct aangepast en daardoor zal volgens ICTS lange wachttijd in de toekomst worden voorkomen.