HDFS est bien le file system hyper-scalable pour le data lake d'entreprise, il lui restait à devenir Web-scale. Il lui manque certes quelques points comme des fonctionnalités globales géographiques, une dimension key/value (objet)... mais l'adoption est là. Et je ne trahirai rien en insistant sur mon adage constant qu'il n'y a qu'une seule vérité celle du marché qui a toujours raison. Le marché le montre tous les jours, HDFS est le File System le plus prometteur pour les data centers d'entreprise au-delà des file systems des postes de travail ou des serveurs applicatifs, le rouleau compresseur a été lancé dès 2006. Vous le savez, mon préféré des file system était VxFS, je rappelle juste que Veritas a dévoilé VxFS en 1991 avec des fonctionnalités uniques qui sont arrivés que bien plus tard dans les autres systèmes de fichiers.
Il est bon de noter qu'Hortonworks et d'autres acteurs reconnaissent et valident le besoin d'un object store avec l'introduction d'Ozone. Comme beaucoup de réflexions autour des object stores, celle-ci passe par le besoin:
- de supporter un nombre colossal d'objets (on parle de trillions),
- de traiter des tailles différentes d'objets allant de quelques Ko à des centaines de Mo,
- de garantir l'intégrité des données (fondamentale pour les entreprises),
- d'exposer une API REST pour l'accès et la manipulation des données
- et de fournir un mécanisme de protection géographique des données.
Ozone s'appuie sur les data nodes HDFS pour supporter des informations autres que des fichiers ici les objets. La notion de bucket est introduite ici, un bucket possède un nom, chaque objet est unique dans un bucket car sa clef est unique par bucket. La fonction de metadata de l'objet, habituelle dans HDFS, sert à identifier et accéder de façon unique à l'objet ainsi le nom du bucket combiné à la clef de l'objet souhaité pointe vers un seul et unique lieu de résidence de la data. Un block sur HDFS appartient exclusivement à un bucket nommé. Nous obtenons un modèle asymétrique, assez similaire au name node HDFS, où il existe des services de metadata qui permet de localiser les data nodes qui hébergent les données elles-mêmes. Pour en savoir plus, je vous renvoie à la page du projet Apache accessible ici, ce n'est à ce jour qu'une proposition. HDFS confirme avec ce développement son rôle central pour le stockage des données d'entreprise de façon finalement universelle de part l'adoption du file system par tout le monde et partout.
Ce message arrive quelques jours après celui de Caringo qui avait déjà annoncé SwarmFS pour supporter HDFS 2+. Le marché se resserre, les acteurs object storage se multiplient, tout le monde veut son offre, il y aura des morts peu d'élus mais le marché est large pour que plusieurs puissent s'exprimer et s'épanouir librement au moins pour un temps. Mais pour le data center d'entreprise du futur, il y aura ceux qui ignorent Hadoop et ceux qui surfent dessus...
0 commentaires:
Post a Comment