Visió general de la Hadoop 2.0 Cluster Architecture Federation



Apache Hadoop 2.x consisteix en millores significatives respecte a Hadoop 1.x. Aquest bloc parla de la Federació d’Arquitectura de Clústers Hadoop 2.0 i els seus components.

Hadoop 2.0 Cluster Architecture Federation

Introducció:

En aquest bloc, aprofundiré en la Hadoop 2.0 Cluster Architecture Federation. Apache Hadoop ha evolucionat molt des del llançament d’Apache Hadoop 1.x. Com ja sabeu del meu bloc anterior que el segueix la topologia Màster / Esclau on NameNode actua com a dimoni mestre i és responsable de gestionar altres nodes esclaus anomenats DataNodes. En aquest ecosistema, aquest únic mestre Daemon o NameNode es converteix en un coll d'ampolla i, per contra, les empreses necessiten tenir NameNode, que està molt disponible. Aquesta mateixa raó es va convertir en la base de HDFS Federation Architecture i Arquitectura HA (Alta Disponibilitat) .

Els temes que he tractat en aquest bloc són els següents:





  • L'arquitectura HDFS actual
  • Limitacions de l'arquitectura HDFS actual
  • Arquitectura de la Federació HDFS

Visió general de l'arquitectura HDFS actual:

Arquitectura HDFS d

java com sortir d'un programa

Com podeu veure a la figura anterior, l'HDFS actual té dues capes:



  • Espai de noms HDFS (NS): Aquesta capa s’encarrega de gestionar els directoris, fitxers i blocs. Proporciona tota l'operació del sistema de fitxers relacionada amb l'espai de noms, com ara crear, suprimir o modificar els fitxers o els directoris de fitxers.
  • Capa d'emmagatzematge: Consta de dos components bàsics.
    1. Gestió de blocs : Realitza les operacions següents:
      • Comprova els batecs de DataNodes periòdicament i gestiona la pertinença a DataNode al clúster.
      • Gestiona els informes de blocs i manté la ubicació del bloc.
      • Admet operacions de blocs com la creació, modificació, supressió i assignació de la ubicació del bloc.
      • Manté el factor de rèplica coherent a tot el clúster.

2. Emmagatzematge físic : Està gestionat per DataNodes que s’encarreguen d’emmagatzemar dades i, per tant, proporciona accés de lectura / escriptura a les dades emmagatzemades a HDFS.

Per tant, l’arquitectura HDFS actual us permet tenir un únic espai de noms per a un clúster. En aquesta arquitectura, un sol NameNode és responsable de gestionar l’espai de noms. Aquesta arquitectura és molt còmoda i fàcil d’implementar. A més, proporciona la capacitat suficient per atendre les necessitats del petit clúster de producció.

Limitacions del HDFS actual:

Com es va comentar anteriorment, l’actual HDFS va ser suficient per a les necessitats i casos d’ús d’un petit clúster de producció. Però, grans organitzacions com Yahoo, Facebook van trobar algunes limitacions a mesura que el clúster HDFS creixia exponencialment. Fem una ullada ràpida a algunes de les limitacions:



  1. L’espai de noms és no escalable com DataNodes. Per tant, només podem tenir el nombre de DataNodes del clúster que pot gestionar un sol NameNode.
  2. Les dues capes, és a dir, la capa d’espai de noms i la capa d’emmagatzematge, són ben unit cosa que fa molt difícil la implementació alternativa de NameNode.
  3. El rendiment de tot el sistema Hadoop depèn del rendiment del NameNode. Per tant, el rendiment complet de totes les operacions HDFS depèn de quantes tasques pot gestionar el NameNode en un moment concret.
  4. El NameNode emmagatzema tot l'espai de noms a la memòria RAM per accedir-hi ràpidament. Això comporta limitacions en termes de mida de la memòria És a dir, el nombre d'objectes d'espai de noms (fitxers i blocs) als quals pot fer front un servidor d'espai de noms únic.
  5. Moltes de les organitzacions (proveïdor) que tenen un desplegament HDFS permeten a diverses organitzacions (inquilí) utilitzar el seu espai de noms de clúster. Per tant, no hi ha separació d’espai de noms i, per tant, sí cap aïllament entre les organitzacions de llogaters que utilitzen el clúster.

Arquitectura de la Federació HDFS:

  • A HDFS Federation Architecture, tenim una escalabilitat horitzontal del servei de noms. Per tant, tenim diversos noms de noms que estan federats, és a dir, independents els uns dels altres.
  • Els DataNodes estan presents a la part inferior, és a dir, capa d’emmagatzematge subjacent.
  • Cada DataNode es registra amb tots els NameNodes del clúster.
  • Els DataNodes transmeten batecs periòdics, bloquegen informes i gestionen les ordres dels NameNodes.

A continuació es mostra la representació pictòrica de l’arquitectura HDFS Federation:

Abans de seguir endavant, permeteu-me parlar breument sobre la imatge arquitectònica anterior:

convertir de doble a int java
  • Hi ha múltiples espais de noms (NS1, NS2, ..., NSn) i cadascun d'ells està gestionat pel seu respectiu NameNode.
  • Cada espai de noms té el seu propi grup de blocs (NS1 té el grup 1, NSk té el grup k, etc.).
  • Com es mostra a la imatge, els blocs del grup 1 (blau cel) s’emmagatzemen al DataNode 1, DataNode 2, etc. De la mateixa manera, tots els blocs de cada grup de blocs residiran a tots els DataNodes.

Ara comprenem detalladament els components de l’arquitectura HDFS Federation:

Grup de blocs:

L’agrupació de blocs no és res més que un conjunt de blocs pertanyents a un espai de noms específic. Per tant, tenim una col·lecció de bloc de blocs on cada grup de blocs es gestiona independentment de l’altre. Aquesta independència, on cada grup de blocs es gestiona independentment, permet a l’espai de noms crear ID de blocs per a blocs nous sense la coordinació amb altres espais de noms. Els blocs de dades presents a tota l'agrupació de blocs s'emmagatzemen a tots els DataNodes. Bàsicament, l'agrupació de blocs proporciona una abstracció tal que els blocs de dades que resideixen als nodes de dades (com a l'arquitectura de l'espai de noms únics) es poden agrupar corresponent a un espai de noms concret.

Volum de l'espai de noms:

El volum de l’espai de noms no és res més que l’espai de noms juntament amb la seva agrupació de blocs. Per tant, a HDFS Federation tenim diversos volums d’espai de noms. És una unitat de gestió autònoma, és a dir, cada volum d’espai de noms pot funcionar de manera independent. Si s’elimina un NameNode o un espai de noms, també s’eliminarà l’agrupació de blocs corresponent que resideix als DataNodes.

què és un punt mort a Java

Demo On Hadoop 2.0 Cluster Architecture Federation | Edureka

Ara, suposo que teniu una bona idea sobre HDFS Federation Architecture. És més que un concepte teòric i la gent no l’utilitza en un sistema de producció pràctic en general. Hi ha alguns problemes d’implementació amb HDFS Federation que dificulten la implementació. Per tant, el Arquitectura HA (Alta Disponibilitat) es prefereix per resoldre el problema del punt únic d’error. He cobert el HDFS HA ​​Architecture al meu proper bloc.

Ara que heu entès Hadoop HDFS Federation Architecture, consulteu el fitxer per Edureka, una empresa d'aprenentatge en línia de confiança amb una xarxa de més de 250.000 estudiants satisfets repartits per tot el món. El curs de formació Edureka Big Data Hadoop Certification ajuda els estudiants a convertir-se en experts en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop mitjançant casos d’ús en temps real en dominis Retail, Social Media, Aviació, Turisme, Finances.

Tens alguna pregunta? Esmenta’l a la secció de comentaris i et respondrem.