Tutorial Hadoop YARN: apreneu els fonaments de l'arquitectura YARN



Aquest bloc se centra en Apache Hadoop YARN, que es va introduir a la versió 2.0 de Hadoop per a la gestió de recursos i la planificació de treballs. Explica l'arquitectura YARN amb els seus components i les tasques realitzades per cadascun d'ells. Descriu l'enviament de l'aplicació i el flux de treball a Apache Hadoop YARN.

Hadoop YARN teixeix la unitat d’emmagatzematge d’Hadoop, és a dir, HDFS (Hadoop Distributed File System) amb les diverses eines de processament. Per a aquells que sou completament nous en aquest tema, YARN significa ' I i A nother R esource N egociator ”. També us suggeriria que passeu pel nostre i abans de continuar amb l'aprenentatge d'Apache Hadoop YARN. Aquí explicaré els temes següents per assegurar-me que al final d’aquest bloc la vostra comprensió de Hadoop YARN sigui clara.

Per què YARN?

A la versió 1.0 de Hadoop, que també es coneix com a MRV1 (MapReduce versió 1), MapReduce va realitzar funcions de processament i gestió de recursos. Consistia en un Job Tracker que era l'únic mestre. El rastrejador de treballs va assignar els recursos, va realitzar la programació i va supervisar els processos de processament. Va assignar mapes i reduir tasques en diversos processos subordinats anomenats seguidors de tasques. Els seguidors de tasques informaven periòdicament del seu progrés al Job Tracker.





MapReduce versió 1.0 - Hadoop YARN - Edureka

Aquest disseny va donar lloc a un coll d'ampolla d'escalabilitat a causa d'un sol seguiment de treballs.IBM va esmentar al seu article que segons Yahoo !, els límits pràctics d’aquest disseny s’assoleixen amb un clúster de 5.000 nodes i 40.000 tasques que s’executen simultàniament.A part d’aquesta limitació, l’ús de recursos computacionals és ineficient a MRV1. A més, el marc Hadoop es va limitar només al paradigma de processament MapReduce.



Per superar tots aquests problemes, YARN va ser introduït a la versió 2.0 d'Hadoop l'any 2012 per Yahoo i Hortonworks. La idea bàsica darrere de YARN és alleujar MapReduce assumint la responsabilitat de la gestió de recursos i la programació de llocs de treball. YARN va començar a donar a Hadoop la possibilitat d'executar treballs que no són MapReduce dins del marc Hadoop.

També podeu veure el següent vídeo on es troba el nostre expert està discutint els conceptes de YARN i la seva arquitectura en detall.

Tutorial de filats Hadoop | Hadoop Yarn Architecture | Edureka

Amb la introducció de YARN, el fitxer es va revolucionar completament. Es va fer molt més flexible, eficient i escalable. Quan Yahoo va començar a funcionar amb YARN el primer trimestre del 2013, va ajudar la companyia a reduir la mida del seu clúster Hadoop de 40.000 nodes a 32.000 nodes. Però el nombre de llocs de treball es va duplicar fins als 26 milions mensuals.



Introducció a Hadoop YARN

Ara que us he il·luminat la necessitat de YARN, permeteu-me que us presenti el component bàsic de Hadoop v2.0, FILAT . YARN permet diferents mètodes de processament de dades com el processament de gràfics, el processament interactiu, el processament de fluxos i el processament per lots per executar i processar les dades emmagatzemades a HDFS. Per tant, YARN obre Hadoop a altres tipus d'aplicacions distribuïdes més enllà de MapReduce.

YARN va permetre als usuaris realitzar operacions segons els requisits mitjançant l'ús de diverses eines com per al processament en temps real, Rusc per SQL, Base HB per a NoSQL i altres.

fusionar algoritme de classificació c ++

A part de la gestió de recursos, YARN també realitza la programació de feines. YARN realitza totes les vostres activitats de processament assignant recursos i programant tasques. L'Apache Hadoop YARN Architecture consta dels components principals següents:

  1. Gestor de recursos : S’executa en un dimoni mestre i gestiona l’assignació de recursos al clúster.
  2. Administrador de nodes: Funcionen amb dimonis esclaus i són responsables de l'execució d'una tasca a cada node de dades.
  3. Màster d'aplicació: Gestiona el cicle de vida de la feina i les necessitats de recursos de les aplicacions individuals. Funciona juntament amb el gestor de nodes i supervisa l'execució de les tasques.
  4. Contenidor: Paquet de recursos que inclouen memòria RAM, CPU, xarxa, disc dur etc. en un sol node.

Components de YARN

Podeu considerar YARN com el cervell del vostre ecosistema Hadoop. La imatge següent representa l'arquitectura YARN.

El primer component de YARN Architecture és,

Gestor de recursos

  • És l’autoritat màxima en assignació de recursos .
  • En rebre les sol·licituds de processament, passa parts de les sol·licituds als gestors de nodes corresponents en conseqüència, on té lloc el processament real.
  • És l’àrbitre dels recursos del clúster i decideix l’assignació dels recursos disponibles per a aplicacions competidores.
  • Optimitza la utilització del clúster com mantenir tots els recursos en ús tot el temps contra diverses limitacions, com ara garanties de capacitat, equitat i SLA.
  • Té dos components principals:a) Programadorb)Gestor d'aplicacions

a) Programador

  • El planificador s’encarrega d’assignar recursos a les diverses aplicacions en execució subjectes a limitacions de capacitat, cues, etc.
  • A ResourceManager s’anomena un planificador pur, el que significa que no realitza cap seguiment ni seguiment de l’estat de les aplicacions.
  • Si hi ha un error d'aplicació o un error de maquinari, el programador no garanteix reiniciar les tasques fallides.
  • Realitza la planificació en funció dels requisits de recursos de les aplicacions.
  • Té un complement de política connectable, que s’encarrega de particionar els recursos del clúster entre les diverses aplicacions. Hi ha dos connectors d’aquest tipus: Programador de capacitat i Programador just , que actualment s’utilitzen com a programadors a ResourceManager.

b) Gestor d'aplicacions

  • És l’encarregat d’acceptar les ofertes de feina.
  • Negocia el primer contenidor del gestor de recursos per executar l'aplicació mestra específica de l'aplicació.
  • Gestiona l'execució de l'aplicació Masters en un clúster i proporciona servei per reiniciar el contenidor d'aplicacions mestre en cas d'error.

Arribant al segon component el qual és:

Administrador de nodes

  • S'encarrega de nodes individuals en un clúster Hadoop igestiona les feines de l'usuari i el flux de treball al node donat.
  • Es registra amb el gestor de recursos i envia batecs amb l’estat de salut del node.
  • El seu objectiu principal és gestionar els contenidors d’aplicacions que el gestor de recursos li assigni.
  • Es manté al dia amb el gestor de recursos.
  • Application Master sol·licita el contenidor assignat al gestor de nodes enviant-li un context de llançament de contenidors (CLC) que inclou tot el que necessita l'aplicació per executar-se. El gestor de nodes crea i inicia el procés de contenidor sol·licitat.
  • Supervisa l'ús de recursos (memòria, CPU) de contenidors individuals.
  • Realitza la gestió de registres.
  • També mata el contenidor segons les indicacions del gestor de recursos.

El tercer component d'Apache Hadoop YARN és,

com convertir el doble a int a java
Màster d'aplicacions
  • Una sol·licitud és un treball únic enviat al marc. Cada aplicació té un mestre d'aplicacions únic associat, que és una entitat específica del marc.
  • És el procés que coordina l'execució d'una aplicació al clúster i que també gestiona els errors.
  • La seva tasca és negociar recursos del gestor de recursos i treballar amb el gestor de nodes per executar i supervisar les tasques dels components.
  • És responsable de negociar els contenidors de recursos adequats des del ResourceManager, fer un seguiment del seu estat i controlar el progrés.
  • Un cop iniciat, periòdicament envia batecs al gestor de recursos per confirmar la seva salut i actualitzar el registre de les seves demandes de recursos.

El quart component és:

Contenidor
  • És una col·lecció de recursos físics com RAM, nuclis de CPU i discos en un sol node.
  • Els contenidors YARN són gestionats per un context de llançament de contenidors que és el cicle de vida del contenidor (CLC). Aquest registre conté un mapa de variables d'entorn, dependències emmagatzemades en un emmagatzematge accessible de manera remota, fitxes de seguretat, càrrega útil per als serveis de Node Manager i l'ordre necessària per crear el procés.
  • Atorga drets a una aplicació per utilitzar una quantitat específica de recursos (memòria, CPU, etc.) en un host específic.

Presentació de sol·licituds a YARN

Consulteu la imatge i feu una ullada als passos relacionats amb l'enviament de sol·licituds de Hadoop YARN:

1) Envieu la feina

2)Obteniu l'identificador de l'aplicació

3) Context de presentació de sol·licituds

4 a) Inicieu el contenidorLlançament

b) Inicieu Application Master

5) Assignar recursos

6 a) Contenidor

b) Llançament

còpia poc profunda i còpia profunda a Java

7) Executar

Flux de treball de l'aplicació a Hadoop YARN

Consulteu la imatge donada i consulteu els passos següents relacionats amb el flux de treball de l'aplicació d'Apache Hadoop YARN:

  1. El client envia una sol·licitud
  2. Resource Manager assigna un contenidor per iniciar Application Manager
  3. Application Manager es registra a Resource Manager
  4. Application Manager sol·licita contenidors al Resource Manager
  5. Application Manager notifica al Node Manager per iniciar els contenidors
  6. El codi de l'aplicació s'executa al contenidor
  7. El client es posa en contacte amb el gestor de recursos / el gestor d’aplicacions per supervisar l’estat de l’aplicació
  8. Application Manager es dóna de baixa amb Resource Manager

Ara que ja coneixeu Apache Hadoop YARN, consulteu el fitxer per Edureka, una empresa d'aprenentatge en línia de confiança amb una xarxa de més de 250.000 estudiants satisfets repartits per tot el món. El curs de formació Edureka Big Data Hadoop Certification ajuda els estudiants a convertir-se en experts en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop mitjançant casos d’ús en temps real en dominis Retail, Social Media, Aviació, Turisme, Finances.

Tens alguna pregunta? Esmenta’l a la secció de comentaris i et respondrem.