Gitlab si smazal produkční databázi

Někdo ve firmě Gitlab (padáka prý nedostane) udělal rm -rf na produkční databázi, tzn. smazal všechna data z ní…to se stát mě, tak to si pomalu hodím. Zálohu měli 6 hodin starou a tu dělali ručně kvůli nějakému útoku, který aktuálně řešili a který jim zatížil systém. Kdyby ji předtím ručně neudělali, tak jsou v řiti úplně, protože jim automatické zálohy nefungovaly správně, fail jak prase. A to těch automatických záloh dělali více různými metodami, ani jedna z nich neprodukovala korektní data. Mazec!

Pozitivní je přístup, kterým to firma řešila. Pravidelné informování o stavu (v dokumentu na google docs a na twitteru), v jakém se nálézá oprava a obnovat dat. Videostream (!), ve kterém několik lidí systém opravovalo a reagovalo na lidi v chatu.

Co si z toho vzít? Že na kritická data je ideální používat online mirror databáze, kdy se budou data replikovat a v případě podobného průseru nebude po obnově tak velká časová díra. Pokud toto není možné, tak dělat nějaké dumpy databáze co nejčastěji to bude možné. Aspoň co hodinu? Pokud je db velká nebo chceme šetřit výkon, tak alespoň kritické tabulky (u eshopu asi hlavně objednávky, stavy zboží skladu).

Ale hlavně, kontrolovat pravidelně, jestli zálohy fungují  v pořádku! Protože bez toho vám to bude na dvě věci…viz gitlab ;) Výpadek téměř celý den a záloha stará 6 hodin.