La panne qui a touché hier un très large pan de l'activité en ligne d'Apple a été quasiment sans précédent, nous a raconté un contact interne à l'entreprise. Apparus autour de 10h du matin (heure française) ces dysfonctionnements n'ont commencé à se résorber que vers 21h30.
Presque une demi journée pendant laquelle on ne pouvait plus télécharger (et a fortiori acheter…) de contenus, ni se connecter à iTunes Connect, accéder au site AppleSeed de bêta test d'OS X, etc. Sans parler de certains éditeurs qui ont vu leur planning de lancement perturbé. À l'image de Nokia qui avait bien mal choisi sa journée pour mettre en ligne la refonte complète de son app de navigation HERE.
Les services extérieurs sont repartis hier soir mais en interne, certains sont toujours en train d'être rétablis, explique notre interlocuteur. Il souligne le fait qu'Apple connaît rarement de telles situations qui appellent des mesures d'urgence absolue.
L'un des data centers d'Apple - a priori Maiden en Caroline du Nord ou Newark en Californie — qui gère une bonne part de ses informations DNS a connu un gros problème (dont on ignore l'élément déclencheur) et qui a entrainé une cascade de problèmes.
Comme toutes les entreprises qui disposent d'une infrastructure réseau, Apple a plusieurs niveaux d'alerte lorsqu'un problème survient. Chez elle, ces tickets de support sont gradués de P1 (très grave) à P5 (gravité modérée) mais dans les cas les plus extrêmes il y a le P0.
Le P1 est utilisé en cas de défaillance majeure. La procédure qui y est rattachée veut que les techniciens appellent un numéro dédié et qu'ils justifient l'ouverture de ce ticket de support. Un P1 est activé le plus souvent lorsqu'une unité « d'Apple Business est touchée ». Les équipes en charge doivent réagir très vite pour analyser l'origine du dysfonctionnement et le résoudre. Si au bout de 2 heures un ticket P1 n'est toujours pas fermé, plusieurs haut gradés d'Apple (vice-présidents, vice-présidents senior) reçoivent un SMS d'alerte, peu importe l'heure du jour ou de la nuit.
Hier, lorsque le système qui surveille l'état du réseau dans ce data center est tombé sur ce bug, c'est un P0 qui a été ouvert. Un cas « très, très, très » rare, qui signifie que plusieurs pans d'Apple Business sont touchés en même temps. Dans ce cas, la priorité pour régler le problème est absolue, tout le reste est mis de côté.
Est-ce qu'une mise à jour matérielle ou logicielle s'est mal passée ? Mystère. Mais il y a eu un effet de ricochet sur les serveurs intermédiaires qui ont mis en cache des informations DNS erronées. Les équipes ont dû vérifier tous les caches de ces serveurs à la recherche de ces données potentiellement erronées. Un effort de longue haleine qui a été surtout visible par les utilisateurs en Europe de par le décalage horaire. L'autre inconnue en plus de la cause du problème est le montant d'argent qu'Apple (et ses partenaires) ont perdu pendant cette période où les boutiques étaient empêchées de fonctionner correctement.
On guettait hier soir la mise en route pour la première fois d'un programme de beta test semi-public pour iOS 8. Cette panne a certainement compromis son lancement (lire Apple va lancer des bêtas publiques pour iOS).