Oui une histoire de fou ...
Mardi 11/3 je suis à Gand pour l'event Microsoft Server 2008 Launch (pas mal d'ailleurs), vers 14h51, un disque tombe en panne dans notre SAN sur l'array principal (un énorme volume RAID 5 de 28 disques en cours de migration vers des plus petits). Personne ne s'en rend compte, apparemment l'envent analyzer est tombé en rade
Jusque là rien de bien grave on est en RAID 5, une panne d'un disque n'a jamais tué personne !
Plus tard dans le nuit, 23h49, un deuxième disque de ce même array crash. Mail d'alerte de l'Enterprise Manager sur nos BlackBerry, la base Oracle n'est plus accessible. A cette heure là, personne ne voit le mail.
Le lendemain vers 6h58, un troisième disque plante toujours dans le même array!
8h20, appel d'un collègue : Plus de mail et plus d'accès au billing system. le SAN est rouge, trois disques sont morts !!!!!!
J'arrive au boulot tant bien que mal (c'était le jours de l'entretien de la voiture) et je constate l'ampleur des dégâts :
- Exchange : tous les stores sont tombés (BE, UK, CH, et un autres store énorme qui nous est sous traité pour une société soeur réppartie un peu partout en Afrique)
- Oracle : tout planté : 300 Gb de données corrompue.
- File server : la partition dédiée à l'IT est inaccessible
Je remplace immédiatement par des disques de spare, je réactive les volumes et je laisse le rebuild se faire.
Une fois les volumes accessible, on est partit avec chkdsk ... sur 300 Gb je vous dis pas la durée.
Résultat :
- Exchange, les transactions logs sont ok mais j'ai 3 stores de corrompu dont le plus gros.
- File : drive IT toujours illisible et carrément perdu par le système
- Oracle : 40% des datafiles de 4 Gb sont à 0 Kb !
On sort l'artillerie lourde et on commence à restaurer.
- File : Pas de soucis, le drive IT est sur pied en 3 minutes (merci le LTO2).
- Exchange : on passe la nuit avec ESEUTIL -p mais on y arrive tant bien que mal.
- Oracle : impossible de restaurer le control file !!!!!! (sans lui pas de base).
Après 6 jours avec le support HP (Data Protector) en Inde, 3 jours avec le support Oracle, 3 nuits totalement blanche et 6l de coke, on a restauré 480 Gb depuis nos bandes (Data File et Archive Logs) et un control file +/- viable ...
Par contre, on a jamais réussi à retrouver le control file valable qui a pourtant été sauvegardé.
Au moment où j'écris ces lignes, on est pas encore 100% sauvé car la base joue les logs en ce moment et ce depuis 15h30 ... 160 logs file de 350 Mb chacun ... c'est loooonnnngg.
D'après HP : "on a pas eu de chance" ... des commentaires comme ça je m'en passe bien surtout après tout ce stress ...
Moralité : on est jamais à l'abri de _RIEN_
Sur ce, bonsoir