Hadoop 2.0: preguntes més freqüents



L’interès per Hadoop s’ha multiplicat per molt en els darrers dos anys. Aquesta publicació respon a les vostres preguntes i aclareix molts dubtes sobre Hadoop 2.0 i el seu ús.

Aquesta és una publicació de seguiment amb resposta a les preguntes més freqüents realitzades per edureka durant el seminari web públic. encès .

Preguntes més freqüents sobre Hadoop

Deepak:





Què és Hadoop?
Apache Hadoop és un marc de programari de codi obert per emmagatzemar i processar a gran escala de conjunts de dades en clústers de maquinari bàsic. És un marc de programari de gestió de dades de codi obert amb emmagatzematge a escala reduïda i processament distribuït. Està sent construït i utilitzat per una comunitat global de col·laboradors i usuaris.

Llegiu-ne més a la nostra publicació del bloc Hadoop i .



Cerca:

Quins són els casos d’ús de la big data a la indústria de viatges, transport i línies aèries?

Assolellat:



Ens podeu indicar una mostra de la vida real de la implementació d’Hadoop que podem estudiar?
Som livideen una època de congestió creixent en temps punta. Els operadors de transport busquen constantment formes rendibles de prestar els seus serveis mantenint la seva flota de transport en bones condicions. L'ús de Big Data Analytics en aquest domini pot ajudar l'organització amb:

  • Optimització de la ruta
  • Anàlisi geoespacial
  • Patrons de trànsit i congestió
  • Manteniment d’actius
  • Gestió d’ingressos (és a dir, companyia aèria)
  • Gestió d'inventari
  • Conservació del combustible
  • Màrqueting orientat
  • Fidelització dels clients
  • Previsió de capacitat
  • Rendiment i optimització de la xarxa

Pocs són els casos d'ús del món real:
a) Determinació dels costos del vol
b) Modelització de prediccions per a la logística d’inventari
c) Orbitz Worldwide: patrons de compra de clients
d) Sis desplegaments Hadoop de gran escala
és) Hadoop: més que afegeix
f) Hadoop a Enterprise

Podeu obtenir més informació sobre les implementacions del món real d’Hadoop a:

Hirdesh:

Es tracta de Hadoop sobre el tractament i el tractament de dades? Com anem per a Informes i Visual Analytics. Es pot utilitzar Qlikview, Tableau a sobre d'Hadoop?
Els components bàsics de Hadoop HDFS i MapReduce es refereixen a l’emmagatzematge i processament de dades. HDFS per a emmagatzematge i MapReduce per a processament. Però els components bàsics d’Hadoop com Pig i Hive s’utilitzen per a l’anàlisi. Per a Visual Reports Tableau, QlikView es pot connectar a Hadoop per a Visual Reporting.

Amit:

Hadoop vs. mongoDB
MongoDB s’utilitza com a magatzem de dades en temps real “Operatiu”, mentre que Hadoop s’utilitza per al processament i l’anàlisi de dades per lots en línia.
mongoDB és un magatzem de dades orientat a documents, sense esquemes, que podeu utilitzar en una aplicació web com a backend en lloc de RDBMS com MySQL, mentre que Hadoop s'utilitza principalment com a emmagatzematge a escala i processament distribuït per a gran quantitat de dades.

Llegiu més a la nostra pàgina Publicació del bloc mongoDB i Hadoop .

Aquí:

Apache Spark forma part de Hadoop? ?
Apache Spark és un motor ràpid i general per al processament de dades a gran escala. Spark és més ràpid i admet el processament en memòria. El motor d'execució de Spark amplia el tipus de càrregues de treball informàtiques que Hadoop pot gestionar i que pot executar al clúster HADOOP 2.0 YARN. És un sistema de marc de processament que permet emmagatzemar objectes In-Memory (RDD) juntament amb la possibilitat de processar aquests objectes mitjançant tancaments Scala. És compatible amb Graph, Data Warehouse, Machine Learning i processament de fluxos.

Si teniu un clúster Hadoop 2, podeu executar Spark sense necessitar cap instal·lació. En cas contrari, Spark és fàcil d’executar independentment o amb EC2 o Mesos. Pot llegir des de HDFS, HBase, Cassandra i qualsevol font de dades Hadoop.

Llegiu més a Spark aquí .

Prasad:

Què és Apache Flume?
Apache Flume és un sistema distribuït, fiable i disponible per recopilar, agregar i traslladar eficaçment grans quantitats de dades de registre de moltes fonts diferents a una font de dades centralitzada.

Amit:

Bases de dades SQL vs NO-SQL
Les bases de dades NoSQL són bases de dades de pròxima generació i tracten principalment alguns dels punts

  • no relacional
  • distribuït
  • codi obert
  • escalable horitzontalment

Sovint s’apliquen més característiques, com ara suport per a la rèplica lliure d’esquemes, API senzilla, eventualment coherent / BASE (no ACID), una gran quantitat de dades i molt més. Per exemple, alguns dels diferenciants són:

  • Les bases de dades NoSQL augmenten horitzontalment, afegint més servidors per fer front a càrregues més grans. Les bases de dades SQL, en canvi, solen augmentar verticalment i afegir més recursos a un sol servidor a mesura que augmenta el trànsit.
  • Les bases de dades SQL requereixen definir els esquemes abans d’afegir informació i dades, però les bases de dades NoSQL no tenen esquemes i no requereixen definició d’esquemes per endavant.
  • Les bases de dades SQL es basen en taules amb files i columnes seguint els principis RDBMS, mentre que les bases de dades NoSQL són documents, parells clau-valor, gràfics o magatzems de columna ampla.
  • Les bases de dades SQL utilitzen SQL (llenguatge de consulta estructurat) per definir i manipular les dades. A la base de dades NoSQL, les consultes varien d’una base de dades a una altra.

Bases de dades SQL populars: MySQL, Oracle, Postgres i MS-SQL
popular Bases de dades NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j i CouchDB

Reviseu els nostres blocs a Hadoop i NoSQL bases de dades i avantatges d’una d’aquestes bases de dades:

Koteswararao:

Té Hadoop una tecnologia de clúster integrada?
Un clúster Hadoop utilitza l'arquitectura Master-Slave. Consisteix en un mestre únic (NameNode) i un clúster d'esclaus (DataNodes) per emmagatzemar i processar dades. Hadoop està dissenyat per funcionar en un gran nombre de màquines que no comparteixen memòria ni discos. Aquests DataNodes es configuren com a clúster mitjançant . Hadoop utilitza un concepte de rèplica per assegurar que almenys una còpia de dades estigui disponible al clúster tot el temps. Com que hi ha diverses còpies de dades, les dades emmagatzemades en un servidor que surt fora de línia o es poden reproduir automàticament a partir d’una bona còpia coneguda.

Dinesh:

Què és un treball a Hadoop? Què es pot aconseguir tot mitjançant un treball?
A Hadoop, un treball és un programa MapReduce per processar / analitzar les dades. El terme MapReduce es refereix en realitat a dues tasques separades i diferents que realitzen els programes Hadoop. La primera és la tasca Mapa, que pren un conjunt de dades i les converteix en un altre conjunt de dades intermèdies, on els elements individuals es desglossen en parells clau-valor. La segona part d'un treball MapReduce, la tasca Redueix, pren la sortida d'un mapa com a entrada i combina els parells clau-valor en un conjunt més petit de parells clau-valor agregats. Com implica la seqüència del nom MapReduce, la tasca Reduce es realitza sempre després de completar les tasques Map. Llegiu-ne més a MapReduce Job .

Sukruth:

Què té d’especial NameNode ?
El NameNode és el cor d’un sistema de fitxers HDFS. Conserva les metadades, com ara l'arbre de directoris de tots els fitxers del sistema de fitxers, i rastreja on es guarden les dades dels fitxers a través del clúster. Les dades reals s’emmagatzemen a DataNodes com a blocs HDFS.
Les aplicacions del client parlen amb el NameNode quan volen localitzar un fitxer o quan volen afegir / copiar / moure / eliminar un fitxer. El NameNode respon les sol·licituds reeixides retornant una llista de servidors DataNodes rellevants on viuen les dades. Llegiu més sobre HDFS Architecture .

Dinesh:

Quan es va introduir Hadoop 2.0 al mercat?
La fundació Apache Software (ASF), el grup de codi obert que gestiona el desenvolupament d’Hadoop, ha anunciat al seu blog el 15 d’octubre de 2013 que Hadoop 2.0 ja està disponible (GA). Aquest anunci significa que després d’una llarga espera, Apache Hadoop 2.0 i YARN ja estan preparats per al desplegament de la producció. Més informació bloc.

Dinesh:

Quins són els pocs exemples d'aplicacions Big Data que no són MapReduce?
MapReduce és ideal per a moltes aplicacions per resoldre problemes de Big Data, però no per a tots els altres models de programació que compleixen millor els requisits, com ara el processament de gràfics (per exemple, Google Pregel / Apache Giraph) i el modelatge iteratiu amb Message Passing Interface (MPI).

Marish:

Com s’ordenen i indexen les dades en HDFS?
Les dades es divideixen en blocs de 64 MB (configurables per un paràmetre) i s’emmagatzemen en HDFS. NameNode emmagatzema la informació d'emmagatzematge d'aquests blocs com a identificadors de blocs a la seva memòria RAM (metadades NameNode). Els treballs MapReduce poden accedir a aquests blocs mitjançant les metadades emmagatzemades a la memòria RAM NameNode.

Shashwat:

Podem utilitzar MapReduce (MRv1) i MRv2 (amb YARN) al mateix clúster?
Hadoop 2.0 ha introduït un nou marc YARN per escriure i executar diferents aplicacions a Hadoop. Per tant, YARN i MapReduce són dos conceptes diferents a Hadoop 2.0 i no s’han de barrejar i utilitzar indistintament. La pregunta correcta és 'És possible executar MRv1 i MRv2 en un clúster Hadoop 2.0 habilitat per YARN?' La resposta a aquesta pregunta és una 'No' ja que tot i que un clúster Hadoop es pot configurar per executar MRv1 i MRv2, però només pot executar un conjunt de dimonis en qualsevol moment del temps. Aquests dos marcs eventualment utilitzen els mateixos fitxers de configuració ( yarn-site.xml i mapred-site.xml ) per executar els dimonis, per tant, només es pot habilitar una de les dues configuracions en un clúster Hadoop.

Nina:

Quina diferència hi ha entre MapReduce de nova generació (MRv2) i YARN?
YARN i MapReduce de nova generació (MRv2) són dos conceptes i tecnologies diferents a Hadoop 2.0. YARN és un marc de programari que es pot utilitzar per executar no només MRv2, sinó també altres aplicacions. MRv2 és un marc d'aplicació escrit mitjançant l'API YARN i s'executa dins de YARN.

Bharat:

Hadoop 2.0 proporciona compatibilitat amb versions anteriors per a aplicacions Hadoop 1.x?
Neha:

La migració Hadoop 1.0 a 2.0 requereix un codi d'aplicació intensiu migració?
No, la majoria de les aplicacions desenvolupades amb API “org.apache.hadoop.mapred” es poden executar a YARN sense cap recompilació. YARN és compatible amb les aplicacions MRv1 binàries i es pot utilitzar 'bin / hadoop' per enviar aquestes aplicacions a YARN. Llegiu-ne més aquí .

Sherin:

Què passa si el node Resource Manager falla a Hadoop 2.0?
A partir de la versió 2.4.0 d’Hadoop, també hi ha disponible el suport d’alta disponibilitat per a Resource Manager. ResourceManager utilitza Apache ZooKeeper per a fallades. Quan el node del gestor de recursos falla, un node secundari es pot recuperar ràpidament mitjançant l'estat del clúster desat al ZooKeeper. ResourceManager, en cas de fallada, reinicia totes les aplicacions en cua i en execució.

diferència entre final i final

Sabbirali:

El marc Apado’s Hadoop funciona a Cloudera Hadoop?
Apache Hadoop es va introduir el 2005 amb el motor de processament MapReduce bàsic per donar suport al processament distribuït de càrregues de treball de dades a gran escala emmagatzemades a HDFS. És un projecte de codi obert i té diverses distribucions (similars a Linux). Cloudera Hadoop (CDH) és una d'aquestes distribucions de Cloudera. Altres distribucions similars són HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights, etc.

Arulvadivel:

Hi ha alguna manera fàcil d’instal·lar Hadoop al meu ordinador portàtil i provar la migració de la base de dades Oracle a Hadoop?
Tu pots començar amb un HortonWorks Sandbox o Cloudera Quick VM al vostre ordinador portàtil (amb almenys 4 GB de RAM i processador i3 o superior). Utilitzeu SQOOP per moure dades d'Oracle a Hadoop tal com s'explica aquí .

Bhabani:

Quins són els millors llibres disponibles per aprendre Hadoop?
Començar amb Hadoop: la guia definitiva de Tom White i Operacions Hadoop per Eric Sammer.

Mahendra:

Hi ha alguna lectura disponible per a Hadoop 2.0 igual que Hadoop, la guia definitiva?
Reviseu el fitxer última arribada a les prestatgeries escrites per pocs dels creadors d’Hadoop 2.0.

Estigueu atents a més preguntes d’aquesta sèrie.