Le vendredi 19 juillet 2024, l’informatique mondiale a vacillé. Dans le courant de la matinée, des millions d’ordinateurs Windows se sont mis à afficher le célèbre écran bleu de la mort. Selon Microsoft, plus de huit millions de machines sont devenues inaccessibles, paralysant des opérateurs, des chaînes TV, des compagnies aériennes et des hôpitaux dans le monde entier.
Il s’est vite avéré qu’une mise à jour déployée par CrowdStrike, un géant de la cybersécurité qui collabore avec Microsoft, était à l’origine du chaos. Apparemment, la firme a poussé une mise à jour de Falcon, son antivirus incorporé à Windows, sans réaliser le moindre test. CrowdStrike affirme que son système de test basé sur le cloud a été victime d’un bug. Celui-ci a abouti au déploiement d’une « mise à jour problématique ». Bien que CrowdStrike a annulé le déploiement du patch moins de deux heures après le bug, des millions d’ordinateurs avaient déjà téléchargé et installé la mise à jour.
À lire aussi : Pour se faire pardonner sa panne monumentale, CrowdStrike a envoyé des cartes cadeau de 10 $ (pas valides)
La panne la plus grave de l’Histoire ?
Le jour de son déploiement, la mise à jour défectueuse de CrowdStrike a provoqué un véritable séisme dans certains secteurs d’activité. Les compagnies aériennes ont été obligées d’annuler des milliers de vols au cours du week-end. Aux États-Unis, plus de 3 000 avions n’ont pas pu décoller. L’impact monstrueux de la panne est en partie dû à l’omniprésence de Windows sur les ordinateurs, surtout sur les machines du monde professionnel. En effet, le système d’exploitation de Microsoft est installé sur un peu moins de 70 % des ordinateurs dans le monde, révèle Statista.
Dans une réaction adressée à 01Net, Guido Grillenmeier, technologue en chef de Semperis, souligne que l’impact de la panne est similaire à celui d’une « attaque de la chaîne d’approvisionnement bien planifiée ». L’expert compare les conséquences du désastre CrowdStrike à des attaques célèbres, comme celles de SolarWinds, Kaseya et NotPetya. Selon lui, « l’impact sur les victimes est identique ».
Un constat qui n’est pas partagé par Benoit Grunemwald, directeur des affaires publiques d’ESET France, dans le cadre d’une interview accordée à 01Net. Pour l’expert en cybersécurité, les conséquences de la panne n’ont pas commune mesure avec celles d’une cyberattaque.
« En surface, c’est similaire oui, mais la remédiation est quand même très rapide. Si par exemple, tu as un ransomware qui te chiffre 10 000 machines ou 100 000 machines, tu ne repars pas en deux jours en faisant un retour en arrière », relate notre interlocuteur.
Une catastrophe financière
Sans surprise, l’incident a fait perdre une fortune aux entreprises affectées. D’après les estimations réalisées par Parametric, un important cabinet d’assurances, la panne de Windows aurait coûté jusqu’à 5,4 milliards de dollars de revenus et de bénéfices bruts aux entreprises du classement Fortune 500. De plus, les polices d’assurance spécialisées dans la cybersécurité ne couvrent que 10 % à 20 % des pertes engendrées par ce type de panne.
Ce sont surtout les entreprises des secteurs de la santé, les banques et les compagnies aériennes qui ont le plus souffert de la panne de CrowdStrike. Selon les estimations de Parametric, les géants de la santé ont perdu près de deux milliards de dollars à cause de la mise à jour défectueuse de l’antivirus. Le secteur bancaire a quant à lui perdu plus d’un milliard de dollars, contre 860 millions de dollars de pertes pour les six compagnies aériennes du Fortune 500.
Des semaines avant une reprise complète ?
En outre, la panne CrowdStrike se distingue surtout par un temps de résolution particulièrement long. Il ne suffit pas de déployer un correctif à l’antivirus Falcon pour que tout rentre dans l’ordre. Pour résoudre la panne, les administrateurs informatiques doivent passer manuellement sur chacune des machines affectées. Comme l’explique Andras Cser, vice-président et analyste principal de Forrester, « la résolution de ce problème nécessite des efforts considérables ». Même avec l’outil de récupération mis à disposition par Microsoft, la tâche est incroyablement fastidieuse.
« En raison de la manière dont la mise à jour a été déployée, les options de récupération pour les machines affectées sont manuelles et donc limitées : les administrateurs doivent attacher un clavier physique à chaque système affecté, démarrer en mode sans échec, supprimer la mise à jour CrowdStrike compromise, puis redémarrer », explique Andras Cser.
L’incident oblige les entreprises affectées à y allouer d’importantes ressources humaines. C’est d’autant plus problématique dans un contexte de pénurie de main d’œuvre qualifiée dans le domaine de l’informatique et de la cybersécurité. C’est l’avis exprimé par la Chambre des représentants des États-Unis dans la lettre de convocation adressée à George Kurtz, PDG de Crowdstrike. Lors de notre entretien, Benoît Grunemwald a également pointé du doigt la pénurie de main d’œuvre qui touche tout le secteur de l’informatique :
« Je pense que la pénurie de main d’œuvre, de toute façon, dans le milieu de la cyber, on la constate depuis un moment, donc ça ne me semble pas trompeur que de dire que cette pénurie de main d’œuvre se ressent particulièrement dans cette période de vacances ».
Le timing du bug a d’ailleurs joué un rôle dans l’ampleur du désastre. Elle s’est déroulée en plein milieu des vacances d’été, et juste avant le week-end. Comme le rappelle Allie Mellen, analyste principal chez Forrester, cette « perturbation s’est produite vendredi soir dans certaines régions, juste au moment où les gens rentraient chez eux pour le week-end ». De facto, il n’y avait pas forcément de personnel disponible pour réagir efficacement.
Les précédentes pannes qui ont marqué l’informatique
Pour mieux comprendre l’impact de la panne de CrowdStrike dans le monde, on s’est intéressé aux précédentes défaillances qui ont marqué l’Histoire de l’informatique. Ces dernières années, de nombreux géants du numérique se sont en effet retrouvés dans la même situation que Microsoft et CrowdStrike.
Facebook, Instagram et WhatsApp inaccessibles
Citons tout d’abord la panne de Meta, survenue à la fin 2021. Pendant plusieurs heures, Facebook, WhatsApp, Instagram et tous les services du groupe étaient complètement inaccessibles. Il avait fallu attendre plus de six heures pour que les ingénieurs de Meta puissent régler le problème. L’entreprise de Menlo Park pointait du doigt un « changement de configuration défectueux » de ses serveurs informatiques. En fait, un technicien en plein entretien de routine a émis une commande qui a empêché tous les internautes d’accéder aux centres de données de Meta.
La panne d’Amazon Web Services
La même année, c’est Amazon qui a connu une sérieuse défaillance. Amazon Web Services (AWS), l’un des principaux hébergeurs cloud, a été victime d’un dysfonctionnement. Pendant près de dix heures, de nombreux sites web ne répondaient plus. Des sites comme Disney+, Netflix, Tinder ou Coinbase étaient inaccessibles. C’est également le cas des services Amazon. Pour mémoire, AWS cumule plus de 30 % des parts du marché de l’hébergement cloud, selon Statista. C’est pourquoi une grande partie du web était injoignable.
La comparaison avec OVH
Dans le cadre de notre entretien, Benoit Grunemwald a plutôt comparé le désastre CrowdStrike à la panne qui a frappé OVH, un hébergeur français, en 2021. Suite à l’incendie d’un datacenter à Strasbourg, une montagne de sites web s’est retrouvée inaccessible. Pour l’expert d’ESET France, la panne d’OVH a eu un impact bien plus important que celle de CrowdStrike. En effet, l’incendie qui a frappé OVH s’est accompagnée d’une considérable perte de données. De nombreux sites ont été effacés durant l’incident.
« Ceux qui avaient leur site sans sauvegarde se sont trouvés dec un, sans site, et de deux, sans la possibilité d’en faire repartir un facilement », explique Benoit Grunemwald.
Une panne unique dans l’Histoire ?
En conclusion, on peut considérer que la panne de CrowdStrike est unique dans l’histoire de l’informatique. L’omniprésence de Windows, le timing de la mise à jour défectueuse et le processus de résolution, lent et fastidieux, en font l’un des incidents les plus marquants du monde de l’informatique.
« Une panne qui touche autant de postes de travail, je n’en ai vraiment pas souvenir », nous confie le responsable d’ESET France.
Néanmoins, les conséquences de la panne à plus long terme s’annoncent limitées en comparaison d’autres incidents majeurs, comme l’incendie d’OVH. Une fois que tous les PC auront été relancés, les entreprises sortiront indemnes de l’incident, en dépit de sérieuses pertes financières. Comme l’indique Benoît Grunemwald, « il n’y aura pas de conséquences opérationnelles une fois que chaque poste aura été remis en ligne ».
Une semaine après la panne, 97 % des machines affectées par le bug ont d’ailleurs été relancées, indique CrowdStrike. Malgré le chaos monstrueux provoqué par la mise à jour, tout est rentré dans l’ordre relativement rapidement, avec des retombées plutôt minimes pour les entreprises et les particuliers.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.