Map Reduce Service

Lancez vos clusters Hadoop et Kafka en quelques minutes

Flexible Engine / Data Analysis

Description

Le service MapReduce est une solution Big Data qui met à disposition des ressources de stockage et des capacités d’analyse permettant de construire une plateforme de traitement  massif de données, et cela de façon fiable, sécurisée et simple d’exploitation.

Les utilisateurs peuvent ainsi tirer profits des solutions telles que Hadoop, Spark, HBase, ou Hive pour créer rapidement des clusters fournissant des ressources de calcul et de stockage à des fins d’analyse massive de données ou de traitement temps-réel.

Les ressources utilisées pour le calcul et le stockage peuvent être créées et supprimées à la volée en fonction des traitements nécessaires afin d’optimiser les coûts.

Composants de la solution

 
Stockage massif de données

Le système de fichiers distribués Hadoop ou Hadoop distributed file system (HDFS) est un système de fichiers distribué qui donne un accès haute-performance aux données réparties dans des clusters Hadoop. Comme d’autres technologies liées à Hadoop, HDFS est devenu un outil clé pour gérer des pools de Big Data et supporter les applications analytiques. Après avoir été traités et analysées, les données sont cryptées via SSL et stockées dans le stockage objet (OBS) ou dans HDFS.

Hadoop

Basé sur Hadoop afin de déployer une infrastructure distribuée, MRS utilise MapReduce pour effectuer des traitements parallèles sur de gros volumes de données (To et au-delà).

Spark

Spark est un framework de traitements distribués par lots. Il supporte du développement dans différents langages de programmation tels que Scala, Java et Python. De plus il met à disposition Spark SQL afin de requêter et d’analyser les données via le langage SQL standard.

HBase

Hadoop Database (HBase) est un système de gestion de base de données non-relationnelles distribuées, écrit en Java, disposant d’un stockage structuré pour les grandes tables. Il fournit ainsi une solution fiable, performante et scalable pour compléter les bases de données relationnelles dans le traitement de données massives.

Hive Apache Hive est une infrastructure d’entrepôt de donnée intégrée à Hadoop permettant l’analyse, le requétage via un langage proche syntaxiquement de SQL ainsi que la synthèse de données.

Kerberos

Le MRS utilise KrbServer pour apporter la fonction d’authentification Kerberos à toutes les composantes, mettant ainsi en place des mécanismes d’authentification fiables. L’utilisateur peut choisir de prendre en charge Kerberos lorsqu’il crée une grappe. Si l’utilisateur a activé l’authentification Kerberos, toutes les composantes du MRS doivent être authentifiées. Pour en savoir plus sur Kerberos, consulter https://web.mit.edu/kerberos.

Hue

Hue fournit une interface utilisateur Web graphique (WebUI) pour les applications de MRS. Hue prend en charge les composantes parmi lesquelles le système de fichier distribué Hadoop (Hadoop distributed file system, HDFS), Hive, YARN/MapReduce et Spark. Dans la WebUI fournie par Hue, vous pouvez effectuer les opérations suivantes sur les composantes :

CarbonData

Se joint à Spark en tant que source de données et apporte la fonctionnalité de stockage et de données de récupération pour des demandes et analyses rapides. CarbonData exploite la puissance de traitement distribué de Spark pour accélérer les demandes d’un ordre de grandeur plus rapide que des pétaoctets de données.

Kafka

Kafka est un système de publication et de souscription de messages distribué, partitionné et copié. Il dispose de fonctionnalités similaires au service de messages Java (Java Message Service, JMS), mais son design est différent. Kafka dispose de fonctionnalités telles que la persistance de messages, le débit élevé, l’assistance multi-clients et le traitement en temps réel. Il s’applique à la consommation de messages en ligne et hors ligne. Il est idéal pour les cas de figure de collecte de données de service Internet, tels que la collecte de donnée conventionnelle, le traçage actif de site Internet, la surveillance des données et la collecte des journaux d’événements.

Storm

Storm est un système informatique distribué, fiable et tolérant aux pannes, en temps réel. Il est utilisé pour traiter les flux de données à très grande échelle et en temps réel. Storm s’applique à l’analyse en temps réel, au calcul continu et à l’extraction, transformation et charge distribuée (Extract, Transform and Load, ETL).

Bénéfices

Facilité d’utilisation

Une plateforme de Big Data Hadoop commerciale affichant un niveau de disponibilité élevé peut être mise en place en suivant différentes étapes en quelques minutes.

MRS fournit une console Web simple d’utilisation, vous permettant d’effectuer facilement des opérations de gestion.

Stabilité et fiabilité

99,99 % de disponibilité du service : Les services critiques de MRS comme NameNode et HMaster fonctionnent en mode veille-actif. En cas de panne de serveur actif, les services passeront automatiquement, en seulement quelques minutes, sur le serveur en veille.

Haute sécurité

With Kerberos authentication and Orange’ security expertise, MRS provides role-based access control and sound audit functions to ensure 360-degree protection.

Scénarios d’application : internet des véhicules

Une entreprise d’automobile stocke des données sur HBase, qui prend en charge le stockage PB-level et les demandes CDR en quelques millisecondes.

Documentation
Bénéficiez gratuitement des fonctionnalités de l'offre Flexible Engine pendant 2 mois
Notre solution vous intéresse
Vous avez un projet ?
Nous vous répondrons sous 48 heures.
Nos offres complémentaires
Nos services d’accompagnement