Com es crea un clúster Hadoop amb Amazon EMR?



En aquest article explorarem el servei AWS EMR i, en el procés, aprendrem com es crea un clúster Hadoop amb Amazon EMR?

En aquest article sobre com es crea Clúster Amb Amazon EMR veuríem com executar i escalar fàcilment les aplicacions Hadoop i Big Data. Les següents indicacions es tractaran en aquest article,

Continuem amb aquest Com es crea un clúster Hadoop amb Amazon EMR?





Com es crea un clúster Hadoop amb Amazon EMR?

Quan cerquem alguna cosa a Google o Yahoo, obtenim la resposta en una fracció de segon. Com és possible que Google, Yahoo i altres motors de cerca retornin els resultats tan ràpidament des de la creixent web? Els motors de cerca rastregen per Internet, descarreguen les pàgines web i creen un índex com es mostra a continuació. Per a qualsevol consulta que fem, utilitzen l’índex per esbrinar quines són totes les pàgines web que contenen el text que cercàvem. Si mirem l’índex següent a la part dreta, podem saber clarament que hi ha Hadoop a la pàgina web 1, 2 i 3.

Imatge - Com crear un clúster Hadoop amb Amazon EMR - EdurekaAleshores el Algorisme de PageRanking s’utilitza que es basa en com es connecten les pàgines per esbrinar quina pàgina es mostra a la part superior i quina a la part inferior. A l'escenari següent, W1 és el 'més popular' perquè tothom hi està vinculat i W4 és el 'menys popular', ja que ningú no hi està vinculat. Per tant, W1 es mostra a la part superior i W4 a la part inferior als resultats de la cerca.



Amb l'explosió de les pàgines web, aquests motors de cerca trobaven reptes per crear índex i fer els càlculs de PageRanking. Aquí va tenir lloc el naixement d’Hadoop a Yahoo i posteriorment es va convertir en FOSS (programari lliure i de codi obert) sota l’ASF (Apache Software Foundation). Un cop a l’ASF, moltes empreses van començar a interessar-se per Hadoop i van començar a contribuir a millorar-lo. Hadoop va ser qui va iniciar la revolució del Big Data, però molts altres programes com Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume van començar a evolucionar per abordar les limitacions i les llacunes d’Hadoop.

Els motors de cerca web van ser els primers a utilitzar Hadoop, però més tard van començar a evolucionar molts casos d’ús a mesura que es generaven més dades. Prenguem l'exemple d'una aplicació de comerç electrònic que s'utilitza per recomanar llibres a l'usuari. Segons el diagrama següent, l'usuari 1 va comprar book1, book2 i book3, l'usuari2 va comprar alguns llibres, etc. Observant-ho de prop, podem observar que l'usuari1 i l'usuari2 tenen un gust similar al que han comprat book1 i book2. Per tant, book3 es pot recomanar a user2 i book4 es pot recomanar a user1. Això s’anomena filtratge col·laboratiu, un tipus d’algorisme d’aprenentatge automàtic. Podem girar el diagrama següent i obtenir llibres similars.

En el cas anterior, hem creat índex, PageRanked i recomanat a l'usuari, la mida de les dades era petita, de manera que vam poder visualitzar les dades i inferir-ne alguns resultats. A mesura que la mida de les dades augmenta dia a dia i es descontrola, és aquí on apareixen les eines de Big Data com Hadoop.



Hadoop soluciona molts problemes, però instal·lar Hadoop i altres programes de Big Data mai havia estat una tasca fàcil. Hi ha molts paràmetres de configuració que cal modificar, com ara problemes d’integració, instal·lació i configuració per treballar. Aquí és on empreses com Cloudera, i ajuda de Databricks. Faciliten la instal·lació del programari Big Data i ofereixen assistència comercial, per exemple, diguem que passa alguna cosa a la producció. Amazon EMR (Elastic MapReduce) facilita molt l’ús d’Hadoop, etc. El nom Elastic MapReduce és una mica incorrecte, ja que EMR també admet altres models informàtics distribuïts com Resilient Distributed Datasets i no només MapReduce.

En aquest tutorial, explorarem com configurar un clúster EMR a AWS Cloud i, al proper tutorial, explorarem com executar Spark, Hive i altres programes al damunt.

Continuem amb aquest Com es crea un clúster Hadoop amb Amazon EMR?

Demostració: creació d'un clúster EMR a AWS

Pas 1: Aneu a la consola de gestió EMR i feu clic a 'Crea un clúster'. A la consola, les metadades del fitxer clúster finalitzat també es guarda durant dos mesos de franc. Això permet clonar i crear de nou el clúster finalitzat.

Pas 2 : Des de la pantalla d'opcions ràpides, feu clic a 'Vés a opcions avançades' per especificar molts més detalls sobre el clúster.

Pas 3: A la pestanya Opcions avançades, podem seleccionar diferents programes que s’instal·laran al clúster EMR. Per a una interfície SQL, es pot seleccionar Hive. Per a una interfície de llenguatge de flux de dades, es pot seleccionar Pig. Per a la coordinació d'aplicacions distribuïdes es pot seleccionar ZooKeeper, etc. Aquesta pestanya també ens permet afegir passos, que és una tasca opcional. Els passos són feines de processament de Big Data mitjançant MapReduce, Pig, Hive, etc. Es poden afegir en aquesta pestanya o posteriorment un cop s'hagi creat el clúster. Feu clic a 'Següent' per seleccionar el maquinari necessari per al clúster EMR.

Pas 4: Hadoop segueix l'arquitectura mestre-treballador on el mestre realitza tota la coordinació com planificar i assignar el treball i comprovar el seu progrés, mentre que els treballadors realitzen el treball real de processament i emmagatzematge de les dades. Un sol mestre és un punt únic de fallada (SPOF). Amazon EMR admet multi-master per a alta disponibilitat (HA). El pas anterior permet configurar un clúster multi-mestre a EMR.

EMR permet dos tipus de nodes, Core i Task. El node principal s’utilitza tant per processar com per emmagatzemar les dades, i el node de tasca s’utilitza només per processar les dades. Per a aquest tutorial, només podem seleccionar un nucli bàsic i cap node de tasca, ja que suposa un cost inferior per a nosaltres. A més, tria Localitzar instàncies acabat A la carta ja que les instàncies Spot són més barates. El problema amb les instàncies Spot és que AWS pot finalitzar-les automàticament amb un fitxer avís de dos minuts . Això està bé pel bé de la pràctica i també en alguns escenaris reals. Les instàncies puntuals es finalitzen automàticament, ja que tenen poca prioritat sobre altres tipus d’instàncies. Feu clic a 'Següent'.

què és la combinació de dades al quadre

Pas 5: Especifiqueu el nom del clúster. i feu clic a 'Següent'. Tingueu en compte que la protecció de terminació està activada de manera predeterminada, cosa que assegura que el clúster EMR no s'elimini accidentalment introduint uns quants passos mentre es finalitza el clúster.

Pas 6: A la pestanya s’especifiquen les diferents opcions de seguretat del clúster EMR. Cal seleccionar KeyPair per iniciar la sessió a la instància EC2. EMR crearà automàticament els rols i els grups de seguretat adequats i els adjuntarà als nodes EC2 mestre i de treball. Feu clic a 'Crea un clúster'.

La creació del clúster triga uns minuts a mesura que s’han de comprar les instàncies EC2 i instal·lar i configurar els diferents programes de Big Data. Inicialment, l'estat del clúster estaria a l'estat 'Inicial' i passaria a l'estat 'En espera'. En estat 'En espera', el clúster EMR simplement està esperant que presentem diferents treballs de processament de Big Data com MR, Spark, Hive, etc.

A més, notifiqueu des de la consola de gestió d’EC2 i tingueu en compte que les instàncies EC2 mestra i treballadora haurien d’estar en estat d’execució. Aquestes són les instàncies Spot que s'han creat com a part de la creació del clúster EMR. També es pot observar el mateix EC2 des de la pestanya Maquinari de la Consola de gestió EMR. Tingueu en compte que a la pestanya Maquinari, el preu de les instàncies Spot EC2 s’esmenta com a 0,032 $ / hora. El preu de les instàncies Spot continua canviant amb el temps i és molt inferior al dels preus On-Demand EC2.

Pas 7: Ara que el clúster EMR s'ha afegit correctament, es poden afegir treballs de processament de passos o Big Data. Aneu a la pestanya Passos i feu clic a 'Afegeix pas' i seleccioneu el tipus de pas (MR, Hive, Spark, etc.). Explorarem el mateix al proper tutorial. De moment, feu clic a Cancel·la.

què és la hibernació a Java

Pas 8: Ara que hem vist com iniciar l'EMR, vegem com aturar el mateix.

Pas 8.1: Feu clic a Finalitza.

Pas 8.2: Com es va esmentar als passos anteriors, 'Protecció de terminació' està activada per al clúster EMR i el botó Finalitza s'ha desactivat. Feu clic a Canvia.

Pas 8.3: Seleccioneu el botó d'opció 'Desactivat' i feu clic a la marca. Ara s’ha d’activar el botó Finalitza. Aquest és el pas addicional que ha introduït EMR, només per assegurar-nos que no eliminem accidentalment el clúster EMR.

Tingueu en compte que el clúster EMR estarà en estat Terminació i que es cancel·laran les EC2. Finalment, el clúster EMR es traslladarà a l'estat Finalitzat, a partir d'aquí s'aturarà la nostra facturació amb AWS. Assegureu-vos de finalitzar el clúster per no generar costos addicionals d’AWS.

Conclusió

En aquest tutorial hem vist com iniciar el clúster EMR en pocs minuts des de la consola web (navegador), el mateix es pot automatitzar mitjançant el , AWS SDK o mitjançant AWS CloudFormation . Com es va notar, la configuració d'un clúster EMR es pot fer en qüestió de minuts i el processament de Big Data es pot iniciar immediatament, un cop finalitzat el processament, la sortida es pot emmagatzemar a S3 o DynamoDB i, per tant, l’aturada del clúster per aturar la facturació. A causa d’aquest model de preus i la facilitat d’ús, EMR és un gran èxit per a aquells que estan fent el processament de Big Data. No cal comprar un servidor en gran quantitat, obtenir llicències per al programari Big Data i mantenir-les '.

Així, doncs, nois, això ens porta al final d’aquest article sobre Com crear un clúster Hadoop amb Amazon EMR?Per si voleu obtenir experiència en aquest tema, Edureka ha elaborat un pla d'estudis que cobreixi exactament el que necessitareu per obtenir l'examen d'arquitecte de solucions. Podeu consultar els detalls del curs formació.

En cas de tenir alguna consulta relacionada amb aquest bloc, no dubteu a fer cap pregunta a la secció de comentaris a continuació i estarem encantats de respondre-us el més aviat possible.