« hadoop va devenir le standard des données »

Fondée en 2011, MapR est l’une des trois startups les plus en vue du mouvement hadoop et big data. M.C. Srivas, CTO et co-fondateur présente sa vision et explique pourquoi hadoop va devenir le standard de la gestion des données.

Créée en 2011, MapR a bénéficié à ce jour d’un financement de 110 M$ et fait état de plus de 1000 entreprises clientes.InformatiqueNews : MapR et hadoop ne sont pas encore familiers des DSI. Pouvez-vous nous raconter la genèse de votre entreprise qui est un des principaux acteurs sur ce marché ?

M.C. Srivas : L’histoire d’hadoop remonte aux premiers temps de la recherche sur Internet. Au milieu des années 90, de nombreuses entreprises comme Inktomi, Ask Jeeves, Altavista et bien d’autres travaillaient à développer une technologie de recherche sur Internet donnant des résultats probants. Mais aucun moteur ne produisait quelque chose de satisfaisant. Pour sa part, Yahoo était parti sur une idée étrange de classification manuelle. Puis, Google est arrivé et a réussi le tour de force à développer un moteur de recherche sur Internet de très bonne qualité. Pour cela, ses ingénieurs ont développé une technologie capable de traiter des volumes de données considérables car les solutions conventionnelles n’étaient pas du tout adaptées.

A cette époque, j’avais participé à la création de la société Spinnaker Networks, rachetée ensuite par NetApp et spécialisée dans le développement d’appliances NFS. J’ai ensuite rejoint Google pour travailler les techniques de recherche sur Internet et nous utilisions notamment MapReduce, GFS et BigTable, des technologies développées en interne. Pendant ce temps, Yahoo avait compris qu’il était dans une impasse et a racheté Inktomi pour essayer de rattraper son retard dans les moteurs de recherche. Ses développeurs n’étaient pas satisfaits du produit open source Nutch qu’ils utilisaient et se sont mis à développer sous la houlette de Doug Cutting ce qui deviendra par la suite hadoop avec l’aide de Google. Google possédait tous les brevets mais a choisi de poursuivre les développements en mode open source et en confiant le projet à la fondation Apache et en continuant à le sponsoriser.

IN : hadoop est donc intimement lié à Internet ?

M.C. Srivas : A ce moment-là, d’autres entreprises sur Internet ont été créées dont Facebook ou Twitter avec les mêmes contraintes de traiter des volumes considérables de données. D’autres éditeurs de réseaux sociaux, disparus depuis, se sont lancés comme MySpace et Orkut avec les mêmes problématiques. Puis, les agences publicitaires sur Internet ont eu besoin de cibler beaucoup plus précisément leurs messages, toujours à partir d’importants volumes de données. Les smartphones se développèrent avec des besoins similaires. Puis le commerce électronique explosa. C’est ensuite que les entreprises traditionnelles commencèrent à s’intéresser au big data, la finance, la distribution, les éditeurs de logiciels, les sociétés de transports et d’énergie. Aujourd’hui, MapR a environ un millier de clients dont la moitié hors du secteur Internet.

IN : Quand avez-vous eu l’idée de fonder MapR ?

M.C. Srivas : En 2008, la crise financière est arrivée et c’est toujours un bon moment pour créer une startup car les budgets R&D dans les entreprises sont plus ou moins gelés et donc il est possible de se démarquer et de prendre un peu d’avance. J’ai alors utilisé l’expertise que j’avais acquise avec Spinnaker Networks, notamment dans la qualité du stockage des données. En 2011, nous avons annoncé notre gamme de produits. Aujourd’hui, MapR est proposé en trois versions : M3, M5 et M7[1].

IN : Quand avez-vous eu l’idée d’aller à l’international ?

M.C. Srivas : Cela fait environ deux ans. Nous nous sommes d’abord implantés au Japon, puis en Inde et en Corée du Sud. Nous sommes venus ensuite en Europe – Royaume-Uni, France, Allemagne et aussi les pays nordiques. Nous sommes aujourd’hui dans de très nombreux pays.

IN : Pensez-vous qu’hadoop va remplacer les bases de données traditionnelles ou va-t-il les compléter ?

M.C. Srivas : hadoop va remplacer les SGBD traditionnels qui sont nés avec les données structurées et raisonnent en lignes et colonnes. D’ici à 5 à 10 ans, de nombreuses bases Oracle, Microsoft ou IBM seront remplacées. Hadoop n’était pas conçu pour traiter des données structurées mais il peut le faire, il est vrai avec des performances encore nettement moins bonnes que les SGBDR. Mais ces derniers bénéficient de 25 ans d’optimisation. Dans 5 ans, hadoop devrait être aussi performant. D’autant que le nombre de spécialistes qui travaillent sur hadoop est peut-être dix fois plus élevé que celui des bases conventionnelles. Les SGBD constituent une industrie de renouvellement, hadoop est une activité nouvelle qui va drainer tous les financements. Par ailleurs, hadoop peut s’inspirer de l’expérience dans le développement des SGBD, ce qui a marché et ce qui n’a pas marché et ainsi les erreurs. Pour l’anecdote, Oracle utilise hadoop pour traiter toutes ses données qui proviennent d’Internet.

Autre point important, les SGBDR ont été conçus pour des données dont le ratio lecture/écriture est sans doute 80/20 et n’est plus du tout adapté à la réalité d’aujourd’hui où ce ratio s’est plus qu’inversé. Tout le monde publie un blog que personne ne lit, 80 % des mails sont des spams et ne sont pas lus, 80 % des vidéos sur Internet ne sont regardées que par celui qui l’a publié… Sans parler des données qui vont être produites par des machines dans le cadre de l’Internet des objets.

Quant aux fournisseurs IT traditionnels, ils devront maîtriser les technologies hadoop. Cela passera donc par des développements internes ou, plus probablement, par des rachats ou une combinaison des deux.

Lire la suite sur InformatiqueNews

Egalement sur InformatiqueNews :

VMware à la poursuite du VDI idéal

La transformation numérique des RH en marche

Nos lecteurs ont lu ensuite