Cloudera Hadoop: Introducció a CDH Distribution



Aquest bloc Edureka sobre Cloudera Hadoop Tutorial us proporcionarà una visió completa de diferents components de Cloudera com Cloudera Manager, Parcels, Hue, etc.

Amb la creixent demanda de Big Data, i Apache Hadoop ho ésael cor de la revolució, ha canviat la nostra manera d’organitzar i calcular les dades. La necessitat de les organitzacions per alinear Hadoop amb les seves necessitats empresarials ha alimentat l’aparició de les distribucions comercials. Les distribucions comercials d'Hadoop solen incloure funcions, dissenyades per racionalitzar el desplegament de Hadoop. Cloudera Hadoop Distribution proporciona una plataforma integrada, flexible i escalable que facilita la gestió de volums i varietats de dades que augmenten ràpidament a la vostra empresa.

En aquest bloc de Cloudera Hadoop Distribution, tractarem els temes següents:





Cloudera Hadoop: Introducció a Hadoop

Hadoop és un marc de codi obert Apache que emmagatzema i processa Big Data en un entorn distribuïta través delclúster mitjançant models de programació senzills. Hadoop proporciona càlcul paral·lel a la part superior de l’emmagatzematge distribuït.Per obtenir més informació sobre Hadoop a: podeu fer referència a això

Després d'aquesta breu introducció a Hadoop, permeteu-me explicar els diferents tipus de distribució de Hadoop.



Cloudera Hadoop: distribucions Hadoop

Atès que Apache Hadoop és de codi obert, moltes empreses han desenvolupat distribucions que van més enllà del codi de codi obert original. Això s’assembla molt a les distribucions de Linux com RedHat, Fedora i Ubuntu. Cadascuna de les distribucions de Linux admet les seves pròpies funcionalitats i funcions, com ara la GUI fàcil d'utilitzar a Ubuntu. De la mateixa manera, barret vermell és popular a les empreses perquè ofereix suport i també proporciona ideologia per fer canvis a qualsevol part del sistema a voluntat. Red Hat us allibera de problemes de compatibilitat de programari. Normalment és un problema important per als usuarisque passen de Windows.

De la mateixa manera, hi ha 3 tipus principals de distribucions Hadoop que tenen el seu propi conjunt de funcionalitats i funcions i que es construeixen sota la base HDFS.

Cloudera vs MapR vs Hortonworks

Fig: MapR vs Hortonworks vs Cloudera

Fig: MapR vs Hortonworks vs Cloudera



Distribució Cloudera Hadoop

Cloudera és la tendència del mercat a l’espai Hadoop i és la primera que llança distribució comercial d’Hadoop. Ofereix serveis de consultoria per salvar la bretxa entre 'què proporciona Apache Hadoop' i 'què necessiten les organitzacions'.

Cloudera Distribution és:

  • Ràpid per als negocis : Des de l’anàlisi fins a la ciència de dades i tot el que hi ha al mig, Cloudera ofereix el rendiment que necessiteu per desbloquejar el potencial de dades il·limitades.
  • Fa que Hadoop sigui fàcil de gestionar : Amb Cloudera Manager, els assistents automatitzats us permeten desplegar ràpidament el vostre clúster, independentment de l'escala o de l'entorn de desplegament.
  • Segur sense compromís: Compleix amb les estrictes necessitats de seguretat i compliment de les dades sense sacrificar l’agilitat empresarial. Cloudera proporciona un enfocament integrat de seguretat i governança de les dades.

Horton-Works Distribució

La plataforma de dades Horton-Works (HDP) és completament una plataforma de codi obert dissenyada per maniobrar dades de moltes fonts i formats. La plataforma inclou diverses eines Hadoop, com ara el sistema de fitxers distribuïts Hadoop (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive i components addicionals.

També admet funcions com:

  • HDP fa Hive més ràpid a través del seu nou projecte Stinger.
  • HDP evita el bloqueig del proveïdor comprometent-se amb una versió bifurcada d’Hadoop.
  • HDP està enfocat a millorar el usabilitat de la plataforma Hadoop.

Distribució MapR

MapR és un proveïdor de solucions Hadoop centrat en la plataforma, igual que HortonWorks i Cloudera. MapR integra el seu propi sistema de bases de dades, conegut com MapR-DB, alhora que ofereix serveis de distribució Hadoop. Es diu que MapR-DB és quatre a set vegades més ràpid que la base de dades d’Hadoop, és a dir, HBase, que s’executa en altres distribucions.

Té les seves característiques interessants com:

  • És l’única distribució Hadoop que inclou Pig, Hive i Sqoop sense dependències de Java, ja que depèn del sistema de fitxers MapR.
  • MapR és la distribució Hadoop més preparada per a la producció amb moltes millores que la fan més fàcil d'utilitzar, més ràpida i fiable.

Ara analitzem en profunditat la distribució Cloudera Hadoop.

Subscriviu-vos al nostre canal de YouTube per obtenir noves actualitzacions ...

Cloudera Hadoop: distribució de Cloudera

Cloudera és el jugador més conegut de l’espai Hadoop que ha llançat la primera distribució comercial d’Hadoop.

Fig: Distribució Cloudera Hadoop

Cloudera Hadoop Distribution admet el següent conjunt de funcions:

  1. El CDH de Cloudera comprèn tots els components de codi obert, s’orienta a desplegaments de classe empresarial i és una de les distribucions comercials Hadoop més populars.
  2. Conegut per les seves innovacions, Cloudera va ser el primer a oferir-lo SQL per a Hadoop amb la seva Impala motor de consulta.
  3. La consola d'administració - Gestor de Cloudera , és fàcil d’utilitzar i implementar amb la interfície d’usuari rica que mostra tota la informació del clúster d’una manera organitzada i neta.
  4. A CDH podeu afegir serveis al clúster en funcionament i sense interrupcions.
  5. Altres addicions de Cloudera inclouen seguretat, interfície d'usuari i interfícies per a la integració amb aplicacions de tercers.
  6. CDH proporciona Plantilles de nodes és a dir, permet la creació d’un grup de nodes en un clúster Hadoop amb configuració variable. Eradica l'ús de la mateixa configuració a tot el clúster Hadoop.
  7. També admet:
    • Fiabilitat
      Els proveïdors d’Hadoop actuen ràpidament com a resposta cada vegada que es detecta un error. Amb la intenció de fer més estables les solucions comercials, els pedaços i correccions es desplegen immediatament.
    • Suport
      Els proveïdors de Cloudera Hadoop proporcionen orientació tècnica i assistència que facilita als clients l'adopció de Hadoop per a tasques a nivell empresarial i aplicacions de missió crítica.

    • Completesa
      Els proveïdors d’Hadoop combinen les seves distribucions amb altres eines complementàries que ajuden els clients a personalitzar l’aplicació Hadoop per fer front a les seves tasques específiques.

Les distribucions de Cloudera presenten 2 tipus d’edicions diferents.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Vegem ara les diferències entre ells.

Característiques Cloudera-Express Cloudera-Enterprise
Gestió de clústers
1. Gestió de diversos clústers
2. Gestió de recursos
Desplegament
1. Suport per a CDH 4 i 5
2. Actualització progressiva de CDHno
Gestió de serveis i configuracions
1. Gestioneu els serveis HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark i Accumulo
2. Reinici continu dels serveisno
Seguretat
1. Autenticació LDAPno
2. Autenticació SAMLno
Monitorització i diagnòstic
1. Història de la salut
Gestió d'alertes
1. Alerta per correu electrònic
2. Alerta mitjançant SNMPno
Funcions de gestió avançada
1. Còpia de seguretat i recuperació automatitzadano
2. Navegació i cerca de fitxersno
3. MapReduce, Impala, HBase, informes d'ús de filatsno

Cloudera Hadoop: Gestor de Cloudera

Segons Cloudera, Cloudera Manager és la millor manera de fer-ho instal·lar , configurar , gestionar , i monitor la pila Hadoop.

Ofereix:

classe python __init__
  1. Desplegament i configuració automatitzats
  2. Monitorització i informes personalitzables
  3. Solució de problemes robusta i senzilla
  4. Manteniment de temps d'inactivitat zero

Obteniu coneixements en profunditat sobre Cloudera Hadoop i les seves diverses eines

Demostració de Cloudera Manager

Explorem el Cloudera Manager.

1. A la següent figura es mostra el nombre de serveis que s’executen actualment al Cloudera Manager. També podeu veure els gràfics sobre l'ús de la CPU del clúster, l'ús de E / S del disc, etc.

Fig: Pàgina d'inici de Cloudera Manager

2. La imatge següent mostra el clúster HBase. Us proporciona gràfics i gràfics sobre les condicions de salut del servidor REST HBase que s’executa actualment.

Fig: Condicions de salut del servidor HBase

3. Ara, fem una ullada a la pestanya Instàncies del clúster HBase, on podeu comprovar l’estat i la configuració d’IP.

Fig: estat i adreça IP del servidor amfitrió del clúster HBase

4. A continuació, teniu la pestanya Configuració. Aquí podeu veure tots els paràmetres de configuració i canviar-ne els valors.

Fig: Configuració del clúster HBase

Ara, entenem què són els paquets a Cloudera.

Cloudera Hadoop: paquets

Un paquet és un format de distribució binària que conté els fitxers del programa, juntament amb metadades addicionals utilitzades per Cloudera Manager.

Els paquets són autònoms i s’instal·len en un directori versionat, cosa que significa que es poden instal·lar diverses versions d’un servei determinat una al costat de l’altra.

A continuació es mostren els avantatges d’utilitzar Parcel:

  • Proporciona distribució de CDH com a objecte únic, és a dir, en lloc de tenir un paquet separat per a cada part de CDH, les parcel·les només tenen un únic objecte per instal·lar.

  • Ofereix consistència interna (ja que el CDH complet es distribueix com un sol paquet, tots els components del CDH coincideixen i no hi haurà risc que diferents parts provinguin de diferents versions de CDH).

  • Podeu instal·lar, actualitzar, actualitzar, distribuir i activar els paquets a CDH amb pocs clics.

Ara, vegem com instal·lar i activar el servei Kafka a CDH mitjançant Parcels.

  1. Aneu a la pàgina principal del gestor de Cloudera >> Amfitrions >> Parcel·les com es mostra a continuació

    Fig: Selecció de paquets entre els amfitrions

2. Si no veieu Kafka a la llista de paquets, podeu afegir el paquet a la llista.

  1. Cerqueu el paquet de la versió de Kafka que vulgueu utilitzar. Si no el veieu, podeu afegir el repositori de paquets a la llista.
  2. Cerqueu el paquet de la versió de Kafka que voleu instal·lar - Distribució Cloudera de versions Apache Kafka .
    La figura següent mostra el mateix.

Fig: Camí del dipòsit del paquet.

3. Copieu l'enllaç tal com es mostra a la figura anterior i afegiu-lo al dipòsit remot de paquets, tal com es mostra a continuació.

Fig: Addició del camí Kafka des del dipòsit

4.Després d'afegir el camí, Kafka estarà a punt per descarregar-lo. Simplement podeu fer clic al botó de descàrrega i descarregar el Kafka.

Fig: Descàrrega del Kafka

5. Un cop descarregat Kafka, tot el que heu de fer és distribuir-lo i activar-lo.

Fig: Activació del Kafka

Un cop activat, podeu continuar i veure el Kafka a la pestanya de serveis del gestor de Cloudera.

Fig: servei Kafka

Cloudera Hadoop: creació d'un flux de treball Oozie

És complicat crear un flux de treball escrivint manualment el codi XML i després executar-lo. Podeu fer referència a això Programació del treball d'Oozie bloc, per conèixer l’enfocament tradicional.

Podeu veure la imatge següent, on hem escrit un fitxer XML per crear un flux de treball Oozie senzill. Fig: Creació d'un flux de treball Oozie mitjançant un enfocament tradicional

Com podeu veure fins i tot per crear un planificador Oozie senzill, vam haver d'escriure un enorme codi XML que requereix molt de temps i depurar cada línia es fa complicat. Per superar-ho, Cloudera Manager va introduir una nova característica anomenada Tonalitat que proporciona una interfície gràfica d’usuari i una senzilla funció d’arrossegar i deixar anar per crear i executar fluxos de treball d’Oozie.

Ara vegem com Hue realitza la mateixa tasca de manera simplificada.

Abans de crear un flux de treball, primer creem fitxers d’entrada, és a dir, clickstream.txt i user.txt.
Al fitxer user.txt, tenim identificador d’usuari, nom, edat, país, sexe, tal com es mostra a continuació. Necessitem aquest fitxer d’usuari per conèixer el nombre d’usuaris i els clics que fa a l’URL (esmentat al fitxer de flux de clics) segons l’identificador d’usuari.

Fig: Creació d’un fitxer de text

Per tal de conèixer el nombre de clics de l'usuari en cada URL, disposem d'un flux de clics que conté l'identificador d'usuari i l'URL.

Fig: fitxer Clickstream

Escrivim les consultes al fitxer de script.

Fig: fitxer script

Després de crear el fitxer d'usuari, el fitxer clickstream i el fitxer de seqüències, podem continuar i crear el flux de treball d'Oozie.

1. Simplement podeu arrossegar i deixar anar el flux de treball d'Oozie tal com es mostra a la imatge.

Fig: funció d'arrossegar i deixar anar la creació del flux de treball Oozie

2. Poc després de deixar de fer l'acció, heu d'especificar els camins d'accés al fitxer script i afegir els paràmetres esmentats al fitxer script. Aquí heu d'afegir paràmetres OUTPUT, CLICKSTREAM i USER i especificar el camí a cadascun dels paràmetres.

Fig: Afegir un fitxer de script i els paràmetres necessaris per executar l'acció

3. Un cop hàgiu especificat els camins i hagueu afegit els paràmetres, ara només heu de desar i enviar el flux de treball tal com es mostra a la imatge següent.

Fig: Desar i enviar l'acció Oozie

4. Un cop hàgiu enviat la tasca, el treball finalitzarà. Hue s’encarrega de l’execució i de la resta de passos.

Fig: Estat d’execució del treball Oozie

5.Ara que hem executat el treball d'Oozie, donem un cop d'ull a la pestanya d'acció. Conté l'identificador d'usuari i l'estat del flux de treball. També mostra els codis d'error, si n'hi ha, l'hora d'inici i de finalització de l'acció.

Fig: elements presents a la pestanya d'acció del flux de treball Oozie

6. Al costat de la pestanya d'acció hi ha la pestanya de detalls. En això, podem veure l’hora d’inici i l’última hora modificada del treball.

Fig: detalls del flux de treball d'Oozie.

7. Al costat de la pestanya Detalls, tenim la pestanya Configuració del flux de treball.

Fig: paràmetres de configuració del flux de treball Oozie

7. Mentre s'executa l'element d'acció, si hi ha algun error, apareixerà a la pestanya Registre. Podeu consultar les sentències d'error i depurar-les en conseqüència.

Fig: fitxer de registre que conté codis d'error i sentències d'error

8. Aquí teniu el codi XML del flux de treball que Hue genera automàticament.

Fig: codi XML del flux de treball Oozie

9.1. Com ja heu especificat el camí per al directori de sortida al pas 2, aquí teniu el directori de sortida al navegador HDFS com es mostra a continuació.

Fig: directori de sortida del navegador HDFS

9.2 Un cop feu clic al directori de sortida, trobareu un fitxer de text anomenat output.txt i aquest fitxer de text conté la sortida real tal com es mostra a la figura següent.

Fig: text de sortida final

Així és com Hue simplifica el nostre treball proporcionant les opcions d’arrossegar i deixar anar per crear un flux de treball d’Oozie.

Espero que aquest bloc sigui útil per entendre la distribució de Cloudera i els diferents components de Cloudera.

Voleu participar a la revolució del Big Data?

Ara que heu entès Cloudera Hadoop Distribution, consulteu el per Edureka, una empresa d'aprenentatge en línia de confiança amb una xarxa de més de 250.000 estudiants satisfets repartits per tot el món. El curs de formació en certificació Edureka Big Data Hadoop ajuda els estudiants a convertir-se en experts en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop mitjançant casos d’ús en temps real en dominis Retail, Social Media, Aviació, Turisme, Finances

Tens alguna pregunta? Esmenta’l a la secció de comentaris i et respondrem.