D’un côté les bases de données relationnelles, de l’autre le mouvement big data autour de Hadoop. La convergence des deux mondes est-elle en marche ? C’est ce à quoi s’emploie en tout cas Oracle.


Les bases de données relationnelles sont au cœur des applications de gestion des entreprises depuis bien longtemps. Elles se sont organisées autour du langage de requête SQL, devenu un standard ANSI en 1986 et ISO en 1987. Elles ont permis de gérer efficacement les données structurées des entreprises. Puis l’Internet est apparu créant de nouvelles applications, les réseaux sociaux ou l’Internet des objets, générant des volumes de données considérables et non structurées. Deux mondes se développaient indépendant l’un de l’autre alors que ces données, structurées ou non structurées, font partie du capital informationnel de l’entreprise et doivent, à ce titre, pouvoir être gérer dans un même univers et avec les même outils.

Oracle Big Data SQL, pour reqêter simultanément le SGBD, NoSQL et Big Data Appliance

C’est le sens de l’annonce d’Oracle avec le lancement cet été de Big Data SQL, une technologie qui permet de lancer des requêtes simultanément sur la base de données relationnelle, la base de données NoSQL et le serveur packagée Big Data Appliance d’Oracle. Oracle n’est pas le premier à lancer un outil de ce type mais comme elle émane d’un des principaux leaders des bases de données relationnelles, cette annonce conforte un mouvement de convergence entre hadoop et les SGBD déjà engagé.

Une alternative à Impala et Tajo

Parmi les produits comparables existants, on peut citer Impala de Cloudera qui permet de requêter hadoop en langage SQL et Hive et Tajo, tous deux développés par la fondation Apache, qui sont des langages s’apparentant à SQL. On peut aussi mentionner la technologie Polybase de Microsoft, QueryGrid de Teradata, Actian (anciennement Ingres) qui permet de supporter ses bases big data nativement sur le système de fichiers HDFS, Big SQL d’IBM et HAWQ de Pivotal. MapR qui commercialise la première distribution hadoop, offre un choix d’outils parmi lesquels Drill, Impala et The Presto Project, Hive. De son côté, SAP a intégré hadoop avec sa plate-forme HANA, Sybase IQ software, SAP Data Services et BusinessObjects, ce qui rendant possible des opérations OLTP et OLAP sur des données structurées et non structurées.

Oracle Big Data SQL idéal pourcoréler avis des consommateurs et données financières

Une des difficultés dans l’exploitation des données est qu’elles sont éparpillées dans les différents systèmes de services, départements, filiales et que leur valeur est alors nulle ou faible. Des quantités de plus en plus importantes sont stockées sur des solutions Hadoop tandis que les données structurées sont enregistrées dans des bases relationnelles et NoSQL. Ce mouvement de convergence permet donc de tirer parti de l’ensemble des données dont disposent les entreprises. Oracle Big Data SQL a été par exemple été utilisé pour rechercher la corrélation entre les données des sentiments des clients exprimés via twitter et stocker dans une base hadoop et les données liées à leur profitabilité qui sont stockées sur   des bases relationnelles. Autre avantage apporté par cette fonctionnalité, elle pallie au manque de compétences hadoop dans la majorité des entreprises puisqu’il s’agit là d’une technologie encore très jeune.

Big Data SQL ne permet pas de tout faire explique Dan McClary, chef de produit chez Oracle. Pour aller plus loin dans l’exploitation des données stockées dans hadoop, il faudra utiliser des outils spécialisés comme Apache Spark ou le langage R pour tirer parti de toutes les possibilités offertes. Il y a place pour SQL pour des requêtes classiques sur des volumes importants de données et place pour des langages spécialisés pour aller plus loin sur le terrain de l’analytics. Lire la suite sur InformatiqueNews

 

Egalement sur InformatiqueNews :

L’emprise insidieuse des vêtements et objets connectés sur les comportements

Elémentaire mon cher Watson !