Eines Hadoop essencials per analitzar el Big Data

Hadoop és la paraula més popular del món de les TI actuals i aquest post descriu les eines essencials de Hadoop que exploten el Big Data.

Avui en dia, el terme més popular al món de les TI és 'Hadoop'. En un curt període de temps, Hadoop ha crescut massivament i ha demostrat ser útil per a una àmplia col·lecció de projectes diversos. La comunitat Hadoop evoluciona ràpidament i té un paper destacat en el seu ecosistema.





Aquí teniu un cop d'ull a les eines essencials d'Hadoop que s'utilitzen per gestionar el Big Data.

Què són les variables d'instància a Java?

ambari



Ambari és un projecte Apache suportat per Hortonworks. Ofereix una interfície gràfica d’usuari (interfície gràfica d’usuari) basada en web amb scripts d’assistent per configurar clústers amb la majoria dels components estàndard. Ambari subministra, gestiona i supervisa tots els clústers de feines Hadoop.

hdfs-logo

El HDFS , distribuït sota llicència Apache, ofereix un marc bàsic per dividir les col·leccions de dades entre diversos nodes. A HDFS, els fitxers grans es divideixen en blocs, on diversos nodes contenen tots els blocs d’un fitxer. El sistema de fitxers està dissenyat de manera que barreja la tolerància a fallades i el rendiment elevat. Els blocs de HDFS es carreguen per mantenir una transmissió constant. Normalment no es guarden a la memòria cau per minimitzar la latència.



hbaselogo

Base HB és un sistema de gestió de bases de dades orientat a columnes que s’executa a la part superior de HDFS. Les aplicacions HBase s’escriuen en Java, de manera similar a l’aplicació MapReduce. Comprèn un conjunt de taules, on cada taula conté files i columnes com una base de dades tradicional. Quan les dades cauen a la taula gran, HBase emmagatzemarà les dades, les buscarà i compartirà automàticament la taula entre diversos nodes perquè els treballs MapReduce puguin executar-la localment. HBase ofereix una garantia limitada per a alguns canvis locals. Els canvis que es produeixen en una sola fila poden tenir èxit o fracassar al mateix temps.

hive

Si ja domineu SQL, podeu aprofitar Hadoop mitjançant Rusc . Hive va ser desenvolupat per algunes persones de Facebook. Apache Hive regula el procés d'extracció de bits de tots els fitxers de HBase. Admet l’anàlisi de grans conjunts de dades emmagatzemats a l’HDFS d’Hadoop i als sistemes de fitxers compatibles. També proporciona un llenguatge similar a SQL anomenat HSQL (HiveSQL) que entra als fitxers i extreu els fragments necessaris per al codi.

sqoop

Apache Sqoop està especialment dissenyat per transferir dades massives de manera eficient des de les bases de dades tradicionals a Hive o HBase. També es pot utilitzar per extreure dades de Hadoop i exportar-les a magatzems de dades estructurats externs, com ara bases de dades relacionals i magatzems de dades empresarials. Sqoop és una eina de línia d’ordres, que mapea entre les taules i la capa d’emmagatzematge de dades, que tradueix les taules en una combinació configurable de HDFS, HBase o Hive.

Pig1

Quan les dades emmagatzemades siguin visibles per Hadoop, Porc Apatxe s'endinsa en les dades i executa el codi que està escrit en el seu propi idioma, anomenat Pig Latin. Pig Latin s’omple d’abstraccions per tractar les dades. Pig inclou funcions estàndard per a tasques habituals com la mitjana de dades, treballar amb dates o trobar diferències entre cadenes. Pig també permet a l'usuari escriure idiomes pel seu compte, anomenats UDF (User Defined Function), quan les funcions estàndard es queden curtes.

zookeper

Guardià zoològic és un servei centralitzat que manté, configura informació, dóna nom i proporciona sincronització distribuïda a través d'un clúster. Imposa una jerarquia similar al sistema de fitxers al clúster i emmagatzema totes les metadades de les màquines, de manera que podem sincronitzar el treball de les diverses màquines.

NoSQL

Alguns clústers Hadoop s'integren amb NoSQL magatzems de dades que inclouen els seus propis mecanismes per emmagatzemar dades en un grup de nodes. Això els permet emmagatzemar i recuperar dades amb totes les funcions de la base de dades NoSQL, i després es pot utilitzar Hadoop per programar feines d’anàlisi de dades al mateix clúster.

mahoutlogo

Mahout està dissenyat per implementar un gran nombre d’algoritmes, classificacions i filtratge d’anàlisis de dades al clúster Hadoop. Molts dels algoritmes estàndard com K-mean, Dirichelet, patró paral·lel i classificacions bayesianes estan preparats per executar-se en les dades amb un mapa d’estil Hadoop i reduir-los.

Lucene, escrit en Java i integrat fàcilment amb Hadoop, és un company natural per a Hadoop. És una eina destinada a indexar grans blocs de text no estructurat. Lucene gestiona la indexació, mentre que Hadoop gestiona les consultes distribuïdes a tot el clúster. Les funcions de Lucene-Hadoop evolucionen ràpidament a mesura que es desenvolupen nous projectes.

Avro

Euro és un sistema de serialització que agrupa les dades junt amb un esquema per entendre-les. Cada paquet ve amb una estructura de dades JSON. JSON explica com es poden analitzar les dades. La capçalera de JSON especifica l'estructura de les dades, on es pot evitar la necessitat d'escriure etiquetes addicionals a les dades per marcar els camps. La sortida és considerablement més compacta que els formats tradicionals com XML.

Un treball es pot simplificar dividint-lo en passos. En trencar el projecte en diverses feines de Hadoop, Oozie comença a processar-los en la seqüència adequada. Gestiona el flux de treball tal com s’especifica a DAG (Directed Acyclic Graph) i no és necessari un monitoratge oportú.

Eines SIG

Treballar amb mapes geogràfics és una gran feina per als clústers que executen Hadoop. El SIG ( Sistema d’Informació Geogràfica ) Les eines per als projectes Hadoop han adaptat les millors eines basades en Java per entendre la informació geogràfica per executar-les amb Hadoop. Les bases de dades ara poden gestionar consultes geogràfiques mitjançant coordenades i els codis poden desplegar les eines SIG.

Reunir totes les dades equival a emmagatzemar-les i analitzar-les. Apache Flume envia ‘agents especials’ per recopilar informació que s’emmagatzemarà a HDFS. La informació recollida pot ser fitxers de registre, API de Twitter o retalls de llocs web. Aquestes dades es poden encadenar i sotmetre a anàlisis.

Spark

Espurna és la propera generació que funciona pràcticament com Hadoop que processa les dades emmagatzemades a la memòria cau. El seu objectiu és fer que l’anàlisi de dades s’executi i s’escrigui ràpidament amb un model d’execució general. Això pot optimitzar gràfics d'operadors arbitraris i donar suport a la informàtica en memòria, cosa que permet consultar dades més ràpidament que els motors basats en disc com Hadoop.

SQL a Hadoop

Quan cal executar una consulta ad-hoc ràpida de totes les dades del clúster, es pot escriure un nou treball Hadoop, però això triga un temps. Quan els programadors van començar a fer-ho amb més freqüència, van trobar eines escrites en el llenguatge senzill de SQL. Aquestes eines ofereixen un accés ràpid als resultats.

Trepant Apache

Apache Drill proporciona consultes ad-hoc de baixa latència a nombroses i variades fonts de dades, incloses les dades imbricades. Drill, inspirat en Dremel de Google, està dissenyat per escalar fins a 10.000 servidors i consultar petabytes de dades en qüestió de segons.

Aquestes són les eines essencials d’Hadoop per fer front al Big Data.

Tens alguna pregunta? Esmenteu-los a la secció de comentaris i us respondrem.

Articles Relacionats:

Raons pràctiques per aprendre Hadoop 2.0