27/11/2008 @ 09:20:27: Google - Google trie pas moins de 1PB en 6 heures
Google vient de lancer un pavé dans la marre de "j'ai la plus grosse" en donnant quelques statistiques sur sa technique MapReduce ainsi que sons Google File System.
Pour trier 1 terabytes de données sur leur système, soit en utilisant 1000 machines avec MapReduce et le GFS, il ne leur faut que 68 secondes. Pour trier 1 PB, soit 10 trillions d'enregistrements, il leur a fallu 6 heures seulement avec l'aide de 4000 machines cette fois-ci. Chaque enregistrement était un texte de 100 byte et il aura fallu pas moins de 48.000 disques pour stocker ces informations. Autre information amusante, lors de chaque lancement d'un tri de cette envergure, Google perd un disque dans l'opération.
Le but de l'expérience? Aucun, juste de montrer qu'ils sont plus rapides, mais les données restent intéressantes à consulter.
Sorting 1PB with MapReduce: http://googleblog.blogspot.com/2008/11/sorting-1pb-with-mapreduce.html
1 de perdu sur 48.000, ça va largement quand même.
Ca ne fait qu'un peu plus de 20Gb par disque si je compte bien.
C'est pas énorme comme capacité
JC> Chaque donnée est copiée 3 fois pour ne pas la perdre, donc tu multiplies ton chiffre par 3
A titre de comparaison, c'est la même chose que de stocker 720 millions de livres , ou 12 fois l'équivalent de la plus grande bibliothèque au monde.
Là c'est bien parlant je trouve