TUTORIAL HDFS | INTRODUCCIÓ A HDFS I LES SEVES FUNCIONS

HDFS Tutorial

Abans de seguir endavant en aquest bloc de tutorial HDFS, permeteu-me que us expliqui algunes de les estadístiques insanes relacionades amb HDFS:

El 2010, Facebook va afirmar tenir un dels majors emmagatzematges de clústers HDFS 21 Petabytes de dades.
El 2012, Facebook han declarat que tenen el clúster HDFS més gran amb més de 100 PB de dades .
I Yahoo ! té més de 100.000 CPU en més 40.000 servidors executant Hadoop, amb el seu clúster Hadoop més gran en execució 4.500 nodes . Tot plegat, Yahoo! botigues 455 petabytes de dades en HDFS.
De fet, el 2013, la majoria dels grans noms del Fortune 50 van començar a utilitzar Hadoop.

Massa difícil de digerir? Dret. Com es va comentar a , Hadoop té dues unitats fonamentals - S toratge i Processament . Quan dic una part d’emmagatzematge d’Hadoop, em refereixo a HDFS que significa Sistema de fitxers distribuït de Hadoop . Per tant, en aquest bloc us presentaré HDFS .

Aquí, parlaré de:

fent un doble a un int java

Què és HDFS?
Avantatges de HDFS
Característiques de HDFS

Abans de parlar d’HDFS, permeteu-me que us digui, què és un sistema de fitxers distribuït?

DFS o sistema de fitxers distribuït:

Es parla del sistema de fitxers distribuït gestionant dades , és a dir, fitxers o carpetes de diversos ordinadors o servidors. Dit d’una altra manera, DFS és un sistema de fitxers que ens permet emmagatzemar dades a diversos nodes o màquines d’un clúster i permet a diversos usuaris accedir a les dades. De manera bàsica, té el mateix propòsit que el sistema de fitxers disponible a la vostra màquina, com per a Windows que teniu NTFS (New Technology File System) o per a Mac teniu HFS (Hierarchical File System). L'única diferència és que, en el cas del sistema de fitxers distribuït, emmagatzemeu dades en diverses màquines en lloc de màquina única. Tot i que els fitxers s’emmagatzemen a tota la xarxa, DFS organitza i mostra les dades de manera que un usuari assegut a una màquina sentirà que totes les dades s’emmagatzemen a la mateixa màquina.

Què és HDFS?

El sistema de fitxers distribuït Hadoop o HDFS és un sistema de fitxers distribuït basat en Java que us permet emmagatzemar dades grans en diversos nodes en un clúster Hadoop. Per tant, si instal·leu Hadoop, obtindreu HDFS com a sistema d’emmagatzematge subjacent per emmagatzemar les dades a l’entorn distribuït.

Prenguem un exemple per entendre-ho. Imagineu que teniu deu màquines o deu ordinadors amb un disc dur d'1 TB a cada màquina. Ara, HDFS diu que si instal·leu Hadoop com a plataforma a sobre d’aquestes deu màquines, obtindreu HDFS com a servei d’emmagatzematge. El sistema de fitxers distribuïts de Hadoop es distribueix de manera que cada màquina aporti el seu emmagatzematge individual per emmagatzemar qualsevol tipus de dades.

Tutorial HDFS: avantatges de HDFS

1. Emmagatzematge distribuït:

Emmagatzematge distribuït - Tutorial HDFS - Edureka

Quan accediu al sistema de fitxers distribuït de Hadoop des de qualsevol de les deu màquines del clúster Hadoop, us sentireu com si hàgiu iniciat la sessió a una sola màquina gran que tingui una capacitat d’emmagatzematge de 10 TB (emmagatzematge total en deu màquines). Què vol dir? Vol dir que podeu emmagatzemar un únic fitxer gran de 10 TB que es distribuirà per les deu màquines (1 TB cadascuna).Així és no limitada als límits físics de cada màquina individual.

2. Càlcul distribuït i paral·lel:

Com que les dades es divideixen entre les màquines, ens permet aprofitar-les Computació distribuïda i paral·lela . Comprenguem aquest concepte amb l’exemple anterior. Suposem que triga 43 minuts a processar un fitxer d’1 TB en una sola màquina. Per tant, ara digueu-me, quant de temps trigareu a processar el mateix fitxer d’1 TB quan tingueu 10 màquines en un clúster Hadoop amb una configuració similar: 43 minuts o 4,3 minuts? 4,3 minuts, oi! Què ha passat aquí? Cadascun dels nodes treballa amb una part del fitxer d'1 TB en paral·lel. Per tant, el treball que trigava 43 minuts abans, es va acabar en només 4,3 minuts, ja que el treball es va dividir en deu màquines.

3. Escalabilitat horitzontal:

convertir el doble en int java

Per últim, però no menys important, parlem de escala horitzontal o bé reduir la mida a Hadoop. Hi ha dos tipus d’escala: vertical i horitzontal . A l’escala vertical (augmentar), augmenteu la capacitat de maquinari del vostre sistema. En altres paraules, obteniu més memòria RAM o CPU i l’afegireu al vostre sistema existent per fer-lo més robust i potent. Però hi ha reptes associats amb l’escala vertical o l’escala vertical:

Sempre hi ha un límit al qual podeu augmentar la vostra capacitat de maquinari. Per tant, no podeu continuar augmentant la memòria RAM o la CPU de la màquina.
A l’escala vertical, primer atureu la màquina. A continuació, augmenteu la memòria RAM o la CPU per convertir-la en una pila de maquinari més robusta. Després d'haver augmentat la capacitat del maquinari, reinicieu la màquina. Aquest temps d'inactivitat en què atureu el sistema es converteix en un repte.

En cas de escala horitzontal (redimensionar) , afegiu més nodes al clúster existent en lloc d'augmentar la capacitat de maquinari de les màquines individuals. I el més important és que podeu afegiu més màquines sobre la marxa és a dir, sense aturar el sistema . Per tant, mentre reduïm la mida, no tenim cap temps d’aturada ni zona verda, res d’aquest tipus. Al final, tindreu més màquines que treballen en paral·lel per satisfer les vostres necessitats.

HDFS Tutorial Video:

Podeu consultar el vídeo que es mostra a continuació, on s’han debatut detalladament tots els conceptes relacionats amb HDFS:

HDFS Tutorial: Característiques de HDFS

Comprendrem aquestes funcions en detall quan explorarem l’arquitectura HDFS al nostre proper bloc de tutories HDFS. Però, per ara, tinguem una visió general de les funcions de HDFS:

Cost: El HDFS, en general, es desplega en un maquinari bàsic com el vostre escriptori / ordinador portàtil que feu servir cada dia. Per tant, és molt econòmic pel que fa al cost de propietat del projecte. Com que fem servir maquinari bàsic de baix cost, no cal que gasteu una gran quantitat de diners per escalar el vostre clúster Hadoop. En altres paraules, afegir més nodes al vostre HDFS és rendible.

Varietat i volum de dades: Quan parlem d’HDFS, parlem d’emmagatzemar dades enormes, és a dir, terabytes i petabytes de dades i diferents tipus de dades. Per tant, podeu emmagatzemar qualsevol tipus de dades a HDFS, ja sigui estructurada, no estructurada o semiestructurada.

Fiabilitat i tolerància a fallades: Quan emmagatzemeu dades a HDFS, divideix internament les dades donades en blocs de dades i les emmagatzema de manera distribuïda al vostre clúster Hadoop. La informació sobre quin bloc de dades es troba en quin dels nodes de dades es registra a les metadades. NomNode gestiona les meta dades i el fitxer DataNodes són responsables d’emmagatzemar les dades.
El node de noms també replica les dades, és a dir, manté diverses còpies de les dades. Aquesta replicació de les dades fa que HDFS sigui molt fiable i tolerant a fallades. Per tant, fins i tot si falla algun dels nodes, podem recuperar les dades de les rèpliques que es troben en altres nodes de dades. Per defecte, el factor de rèplica és 3. Per tant, si emmagatzemeu 1 GB de fitxer a HDFS, finalment ocuparà 3 GB d’espai. El node de nom actualitza periòdicament les metadades i manté el factor de rèplica coherent.

Integritat de les dades: Data Integrity parla de si les dades emmagatzemades al meu HDFS són correctes o no. HDFS comprova constantment la integritat de les dades emmagatzemades amb la seva suma de comprovació. Si detecta alguna falla, n'informa al node de nom. Aleshores, el node de nom crea noves rèpliques addicionals i, per tant, suprimeix les còpies danyades.

Alt rendiment: El rendiment és la quantitat de treball realitzat en una unitat de temps. Parla de la rapidesa amb què podeu accedir a les dades des del sistema de fitxers. Bàsicament, us proporciona una idea del rendiment del sistema. Com heu vist a l'exemple anterior, on vam utilitzar deu màquines col·lectivament per millorar el càlcul. Allà vam poder reduir el temps de processament 43 minuts a una mera 4,3 minuts ja que totes les màquines funcionaven en paral·lel. Per tant, mitjançant el processament de dades en paral·lel, vam reduir enormement el temps de processament i, per tant, vam aconseguir un alt rendiment.

Localitat de dades: La localitat de dades parla de traslladar la unitat de processament a les dades en lloc de les dades a la unitat de processament. Al nostre sistema tradicional, solíem portar les dades a la capa d’aplicació i després processar-les. Però ara, a causa de l’arquitectura i l’enorme volum de dades, aportarem les dades a la capa d’aplicacióreduir el rendiment de la xarxa de manera notable.Per tant, a HDFS, portem la part de càlcul als nodes de dades on resideixen les dades. Per tant, no moveu les dades, porteu el programa o procéspart de les dades.

Ara, doncs, teniu una breu idea sobre HDFS i les seves característiques. Però confieu en mi nois, aquesta és només la punta de l’iceberg. En el meu següent , Em submergiré profundament en el Arquitectura HDFS i desvetllaré els secrets darrere de l’èxit de HDFS. Junts respondrem a totes aquelles preguntes que us plantegen, com ara:

Què passa entre bastidors quan llegeix o escriu dades a Hadoop Distributed File System?
Quins són els algorismes com ara la consciència de rack que fan que l'HDFS sigui tan tolerant als errors?
Com gestiona i crea la rèplica Hadoop Distributed File System?
Què són les operacions de bloqueig?

Ara que heu entès HDFS i les seves funcions, consulteu el fitxer per Edureka, una empresa d'aprenentatge en línia de confiança amb una xarxa de més de 250.000 estudiants satisfets repartits per tot el món. El curs de formació en certificació Edureka Big Data Hadoop ajuda els estudiants a convertir-se en experts en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop mitjançant casos d’ús en temps real en dominis Retail, Social Media, Aviació, Turisme, Finances.

Tens alguna pregunta? Esmenta’l a la secció de comentaris i et respondrem.

longitud d'una matriu en javascript

Tutorial HDFS: Introducció a HDFS i les seves funcions

Aquest bloc Tutorial HDFS us ajudarà a entendre HDFS o el sistema de fitxers distribuïts Hadoop i les seves característiques. També explorareu breument els seus components bàsics.

HDFS Tutorial

DFS o sistema de fitxers distribuït:

Què és HDFS?

Tutorial HDFS: avantatges de HDFS

1. Emmagatzematge distribuït:

2. Càlcul distribuït i paral·lel:

3. Escalabilitat horitzontal:

HDFS Tutorial Video:

HDFS Tutorial: Característiques de HDFS

Categories

Popular Articles

Introducció a la família de columnes amb Cassandra

Tot el que heu de saber sobre NetBeans a Java

MLlib - Biblioteca d'aprenentatge automàtic d'Apache Spark

Com implementar Merge Sort a Python?

Ordres HDFS: ordres de Hadoop Shell per gestionar HDFS

Una manera senzilla d'implementar el programa Anagrama a Java

Q Aprenentatge: Tot el que heu de saber sobre l'aprenentatge de reforç

Què és un bucle While a Java i com utilitzar-lo?

Com es mostren les sèries de Fibonacci en C ++?

Com implementar una llista enllaçada a Python?

MLlib - Biblioteca d'aprenentatge automàtic d'Apache Spark

Com començar amb la vostra carrera de desenvolupador web?