Le big data est sur toutes les lèvres et présenté comme une solution à tous les problèmes. Certes, les perspectives sont énormes mais la réalité est encore assez modeste comme le confirme Gartner.
A ce jour, le nombre de projets de big data en France se compte par dizaines, nettement inférieur à la centaine, C’est ce qu’affirmait Didier Kirszenberg, Directeur du programme architecture critique et décisionnelle dans une présentation sur le sujet. Est-ce à dire que le big data est marginal ? Non, c’est juste une technologie qui fait ses premiers pas. D’ailleurs, cette situation correspond bien au positionnement qu’en fait actuellement le Gartner dans son fameux hype cycle : le big data est placé au tout début de la deuxième phase de cette courbe qui en compte cinq et qui correspond à celle du plus grande décalage entre les attentes et la réalité : une attente au plus haut, sans doute alimentée par une connaissance du sujet encore un peu floue, et une réalité encore très limitée.
Cela n’empêche pas que le potentiel de ces technologies nouvelles (basées sur des nouveaux logiciels et architectures) est considérable. Et il n’est pas le même pour tous les secteurs, chacun devant l’utiliser en fonction de ses problématique propres. Les télécoms n’ont pas les mêmes problèmes que la santé qui a des besoins différents de ceux du secteur de la banque. A ce jour, les plus importants utilisateurs sont les sociétés Internet qui doivent traiter des volumes de données très importants dans le cadre même de leur activité. LinkedIn, Facebook, Google, Yahoo!, Visa, AOL, Amazon/A9, Quantcast, Rackspace/Mailtrust, Voyages SNCF, Criteo, en sont de grands consommateurs.
La société 1000mercis est une agence marketing qui a utilisé le big data pour des clients comme VoyageSNCF.com, Meetic, Expedia ou Easyjet. Son métier est la collecte, l’analyse et l’exploitation des données avec comme objectif de concaténer toutes les interactions avec les marques sur les différents canaux. 1000mercis fournit des prestations dans ce que l’on appelle aujourd’hui le Real Time Bidding[1] c’est-à-dire les enchères de bannière en temps réel. Sachant que les deux critères principaux de publication de ces bannières sont la pertinence et le temps réel (de l’ordre de 100 ms). Ce type de bannière représentait 25 % en 2012 et devrait atteindre 50 % en 2020. En utilisant cette méthode, la rentabilité de la lettre de Priceminister a été multiplié par quatre indique Ricardo Catalano, directeur du développement international de 1000mercis.
Mais avant même de penser à appliquer les technologies du big data, la question à se poser est : pourquoi ne pas utiliser les outils traditionnels du décisionnel qui, dans certains, seront tout à fait adaptés ? « Et traditionnellement, le point de contention dans la mise en œuvre des technologies décisionnels se situe au niveau des entrées/sorties car, quoi qu’on fasse, il y a et il y aura toujours un décalage entre les performances de l’électronique et du mécanique », explique Didier Kirszenberg. Sur ce point, il y a des voies de contournement en utilisation d’autres logiciels (voir le tableau ci-dessous). Si ces solutions ne sont pas adaptées et que le volume des données dépasse les limites habituelles, alors il faut penser à utiliser les technologies appartenant à la galaxie big data dans laquelle hadoop tient une place prépondérante.
A ce stade, à quoi correspond hadoop ? Ce n’est pas une application packagée mais un ensemble de technologies open source[2] sous licence Apache (Pour accéder au site hadoop Apache) qui s’emboîtent les unes avec les autres et qui remplissent des fonctions différentes. De telle sorte, que dans une démarche bien connue, libre aux fournisseurs de les assembler pour en faire une distribution en veillant le bon fonctionnement interne des différents composants. Parmi les grands principes fondateurs, hadoop est une technologie batch et qui est linéairement scalable. Si on multiplie par dix le nombre de serveurs, le temps de traitement sera diminué d’autant.
Sans entrer dans le détail de ces différents composants, les deux piliers de base sont le système de fichiers (HDFS pour Hadoop Distributed File System) qui constitue le cœur d’Hadoop et le Distributed Processing Framework connu aussi sous l’appellation MapReduce autour desquels s’organise l’ensembles des autres applications, pour la distribution d’Intel : la base NoSQL, le langage de requêtage, la plate-forme de script, le module de planification, les modules d’apprentissage et de coordination, les connecteurs, le service d’intégration, la gestion des logs. Et la liste de n’arrête pas là, il est possible d’y ajouter encore d’autres composants. Il se trouve que la communauté hadoop est particulièrement active et donc de nouveaux modules apparaissent en permanence.
Une version beta de la V2 d’hadoop est disponible depuis le mois d’août en téléchargement. Il fait de MapReduce un composant optionnel et permet aux utilisateurs de le remplacer par d’autres modules permettant par exemple le temps réel ou quasi temps réel. La version définitive devrait disponible d’ici à la fin de l’année.
Quelques cas d’utilisation du big data
Sociétés |
Objectif |
Solution |
Gains |
Intel |
Améliorer la qualité des tests et validation des microprocesseurs tout en réduisant le temps requis. |
Utilisation des informations historiques des tests, débugge et validation afin de diminuer leur nombre et gagner sur temps. |
Un premier POC a permis d’économiser 3 M$ en 2012, et l’on estime possible d’économiser jusqu’à 30 M$ entre 2013 et 2014. |
China Mobile Guangdong |
Donner aux clients l’historique de leurs communications téléphoniques en temps réel. |
Hadoop pour limiter un goulet d’étranglement d’accès aux données (vs SGBDR), augmenter la capacité de stockage et rendre le tout évolutif |
TCO bien moins élevé, performances 30x supérieures, transition souple, capacité analytique supplémentaires dédié aux usages de abonnés pour de la publicité ciblée. |
Réseau routier dans la région de Chongqing |
Analyse du trafic afin de tirer des statistiques dérivées des infractions, mise à disposition des informations, et analyse prédictive du trafic routier. |
Client HBase embarqué dans une caméra pour des insertions de données structurées et non-structurées en temps réel |
– Requêtes automatisées pour les infractions de circulation- Data mining pour les faux permis : moins d’une minute pour toutes les données sur une semaine.- Amélioration du trafic routier de 25% |
[1] Le Real Time Bidding (enchère en temps réel en anglais), communément appelé « RTB » est une technologie utilisée dans la publicité en ligne qui consiste à allouer une impression publicitaire à un annonceur et d’en déterminer le prix en fonction de ses caractéristiques ;
[2] Contrairement à beaucoup de projets open source, hadoop est issu du monde industriel (Yahoo, Amazon, Google) qui l’ont développé pour leur besoin propre et non du monde universitaire.
Egalement sur InformatiqueNews :