Big Data a AWS: solució intel·ligent per al Big Data



Aquest article us ajuda a entendre com AWS tracta de manera intel·ligent el Big Data. També mostra com AWS pot resoldre els desafiaments del Big Data amb facilitat.

La idea del Big Data simplement no és nova, és a tot arreu. L'efecte del Big Data és a tot arreu, des de l'empresa fins a la ciència, des del govern fins a les arts, etc. No hi ha millor company que per processar i analitzar el Big Data. En aquest article, mostraré com AWS afronta els reptes del Big Data i els punts que tractaré són els següents:

Què és el Big Data?

característiques del big data





Podeu considerar les dades massives com a recursos d’informació de gran volum, alta velocitat i / o varietat que requereixen formes innovadores de processament d’informació rendibles i rendibles que permetin una millor visió, presa de decisions i automatització de processos.

El Big Data inclou cinc V importants que defineixen les característiques del Big Data. Parlem-ne abans de passar a AWS.



Què és AWS?

comprèn molts productes i serveis de computació en núvol diferents. La divisió d’Amazon, altament rendible, proporciona servidors, emmagatzematge, xarxes, informàtica remota, correu electrònic, desenvolupament mòbil i seguretat. A més. AWS consta de dos productes principals: EC2, el servei de màquines virtuals d’Amazon i S3, un sistema d’emmagatzematge d’Amazon. És tan gran i present al món de la informàtica que ara té almenys deu vegades la mida del seu competidor més proper i allotja llocs web populars com Netflix i Instagram.

.

AWS es divideix en 12 regions mundials a tot el món, cadascuna de les quals té diverses zones de disponibilitat en què es troben els seus servidors.Aquestes regions amb serveis es divideixen per permetre als usuaris establir límits geogràfics als seus serveis, però també per proporcionar seguretat diversificant les ubicacions físiques on es guarden les dades.



Per què el Big Data a AWS?

Científics, desenvolupadors i altres entusiastes de la tecnologia de molts dominis diferents aprofiten AWS per realitzar anàlisis de dades massives i afrontar els desafiaments crítics de la creixent V de la informació digital. AWS us ofereix una cartera de serveis de cloud computing per ajudar a gestionar el big data reduint significativament els costos, escalant per satisfer la demanda i augmentant la velocitat de la innovació.

Amazon Web Services proporciona un cartera totalment integrada de serveis de cloud computing. A més, us ajuda a crear, protegir i desplegar les vostres aplicacions de big data. A més, amb AWS, no necessiteu maquinari per adquirir ni infraestructures per mantenir i escalar. Per això, podeu centrar els vostres recursos a descobrir noves estadístiques.Atès que les noves funcions s’afegeixen constantment, sempre podreu aprofitar les últimes tecnologies sense necessitat d’assumir compromisos d’inversió a llarg termini.

Com AWS pot resoldre els desafiaments del Big Data?

Solucions AWS per a Big Data

AWS té nombroses solucions per a tots els propòsits de desenvolupament i desplegament. A més, en el camp de la ciència de dades i el Big Data, AWS ha presentat desenvolupaments recents en diferents aspectes de la manipulació del Big Data. Abans de passar a les eines, entenem diferents aspectes del Big Data per als quals AWS pot proporcionar solucions.

  1. Ingestió de dades
    La recopilació de dades en brut (transaccions, registres, dispositius mòbils i molt més) és el primer repte a què s’enfronten moltes organitzacions a l’hora de tractar el big data. Una bona plataforma de dades grans facilita aquest pas i permet als desenvolupadors ingerir una àmplia varietat de dades (des d’estructurades a desestructurades) a qualsevol velocitat, des del temps real fins al lot.

  2. Emmagatzematge de dades
    Qualsevol plataforma de dades grans necessita un dipòsit segur, escalable i durador per emmagatzemar dades abans o fins i tot després de processar tasques. En funció dels vostres requisits específics, és possible que també necessiteu botigues temporals per al transport de dades.

  3. Processament de dades
    Aquest és el pas en què la transformació de dades passa del seu estat en brut a un format consumible, normalment mitjançant la classificació, l'agregació, la unió i fins i tot la realització de funcions i algorismes més avançats. Els conjunts de dades resultants s’emmagatzemen per processar-los o es posen a la disposició del consum mitjançant eines d’intel·ligència empresarial i visualització de dades.

  4. Visualització

    Les dades massives consisteixen a obtenir estadístiques d’alt valor i accions dels vostres recursos de dades. L’ideal seria que les dades estiguin disponibles per a les parts interessades a través d’intel·ligència empresarial d’autoservei i eines de visualització de dades àgils que permetin explorar fàcilment i ràpidament conjunts de dades.

Eines AWS per a Big Data

A les seccions anteriors, vam examinar els camps de Big Data on AWS pot proporcionar solucions. A més, AWS disposa de múltiples eines i serveis al seu arsenal per permetre als clients amb les funcions de Big Data.

Vegem les diverses solucions que ofereix AWS per gestionar les diferents etapes de la manipulació del Big Data

Ingestió

  1. Kinesi

    Amazon Kinesis Firehose és un servei totalment gestionat per subministrar dades de transmissió en temps real directament a Amazon S3. Kinesis Firehose s'escala automàticament perquè coincideixi amb el volum i el rendiment de les dades de transmissió i no requereix cap administració contínua. Podeu configurar Kinesis Firehose per transformar les dades de transmissió abans de desar-les a Amazon S3.

  2. Bola de neu
    Pots fer servir AWS Snowball per migrar de manera segura i eficient les dades massives de plataformes d’emmagatzematge locals i clústers Hadoop als cubs S3. Després de crear una feina a la consola d'administració d'AWS, obtindreu automàticament un dispositiu Snowball. Quan arribi una bola de neu, connecteu-lo a la vostra xarxa local, instal·leu el client de Snowball a la font de dades local i, a continuació, utilitzeu el client de Snowball per seleccionar i transferir els directoris de fitxers al dispositiu Snowball.

Emmagatzematge

  1. Amazon S3

Amazon S3 és un emmagatzematge d'objectes segur, altament escalable i durador, amb latència de mil·lisegons per a l'accés a les dades. S3 pot emmagatzemar qualsevol tipus de dades des de qualsevol lloc: llocs web i aplicacions mòbils, aplicacions corporatives i dades de sensors o dispositius IoT. També pot emmagatzemar i recuperar qualsevol quantitat de dades, amb una disponibilitat inigualable, i construït des de zero per oferir un 99,999999999% (11 nou) de durabilitat.

2. AWS Glue

Glue és un servei totalment gestionat que proporciona un catàleg de dades perquè les dades del llac de dades siguin descobertes. A més, té la capacitat d’extreure, transformar i carregar (ETL) per preparar dades per a l’anàlisi. A més, el catàleg de dades incorporat és com un magatzem de metadades persistent per a tots els recursos de dades, que permet cercar totes les dades i consultar-les en una sola vista.

Processament

  1. EMR
    Per al processament de dades grans mitjançant Spark i Hadoop, Amazon EMR proporciona un servei gestionat que fa que sigui fàcil, ràpid i rendible processar grans quantitats de dades. A més, EMR dóna suport a 19 projectes de codi obert diferents, inclosos Hadoop , Espurna , i També inclou quaderns EMR gestionats per a enginyeria de dades, desenvolupament de ciències de dades i col·laboració.

  2. Redshift
    Per a l’emmagatzematge de dades, Amazon Redshift proporciona la possibilitat d'executar consultes complexes i analítiques contra petabytes de dades estructurades. A més, inclou Redshift Spectrum que executa consultes SQL directament contra exabytes de dades estructurades o no estructurades a S3 sense necessitat de moviment de dades innecessari.

Visualitzacions

  1. Amazon QuickSight

    Per als taulers de control i les visualitzacions, Amazon Quicksight us proporciona un servei d’anàlisi empresarial ràpid i basat en el núvol. Facilita la creació de visualitzacions impressionants i taulers rics. A més, podeu accedir-hi des de qualsevol navegador o dispositiu mòbil.

Demostració: analitzar dades d'espècies en perill d'extinció de plantes i animals a Austràlia.

En aquesta demostració utilitzarem dades de mostra d’espècies de plantes i animals en perill d’extinció dels estats i territoris d’Austràlia. Aquí crearem un clúster EMR i el configurarem per executar feines Apache Hive de diversos passos. El clúster EMR tindrà instal·lat Apache Hive. Aquest clúster utilitzarà EMRFS com a sistema de fitxers, de manera que les seves ubicacions d’entrada i sortida de dades s’assignin a un dipòsit S3. El clúster també utilitzarà el mateix dipòsit S3 per emmagatzemar fitxers de registre.

Ara crearem diversos passos EMR al clúster per processar un conjunt de dades de mostra. Aquí cadascun d'aquests passos executarà un script Hive i la sortida final es desarà al dipòsit S3. Aquests passos generaran registres de MapReduce i això es deu al fet que les ordres de Hive es tradueixen a feines de MapReduce en temps d'execució. Els fitxers de registre de cada pas s’agrupen des dels contenidors que genera.

Dades de mostra

El conjunt de dades de mostra per a aquest cas d'ús està disponible públicament a Lloc web de dades obertes del govern australià . Aquest conjunt de dades tracta d’espècies animals i vegetals amenaçades de diferents estats i territoris d’Austràlia. Es pot veure i descarregar una descripció dels camps d’aquest conjunt de dades i del fitxer CSV aquí .

Passos de processament

El primer pas de treball EMR aquí implica crear una taula Hive com a esquema per al fitxer font subjacent a S3. Al segon pas de treball, ara executarem una consulta satisfactòria sobre les dades. De la mateixa manera, executarem una tercera i quarta consulta.

Repetirem aquests quatre passos unes quantes vegades en una hora, simulant successives execucions d’un treball per lots de diversos passos. No obstant això, en un escenari de la vida real, la diferència horària entre cada execució per lots normalment podria ser molt més gran. La bretxa de temps reduït entre successives proves pretén accelerar les nostres proves.

S3 Cub i carpetes

Abans de crear el nostre clúster EMR, aquí havíem de crear un dipòsit S3 per allotjar els seus fitxers. En el nostre exemple, anomenem aquest dipòsit 'arvind1-bucket'. Les carpetes sota aquest dipòsit es mostren a la consola AWS per a S3 a continuació:

  • La carpeta d'entrada conté les dades de mostra

  • La carpeta de scripts conté els fitxers de script Hive per als passos de treball EMR

  • La carpeta de sortida, òbviament, contindrà la sortida del programa Hive

  • El clúster EMR utilitza la carpeta de registres per desar els fitxers de registre.

Scripts de rusc per als passos de la feina EMR

1. Aquest pas de treball executa un script Hiveper crear una taula externa de rusc. Aquesta taula descriu l’esquema tabular del fitxer de dades CSV subjacent. El guió per a això és el següent:

CREA UNA TAULA EXTERNA `amened_species` (cadena de' nom científic ', cadena de' nom comú ', cadena de' nom científic actual ', cadena de' estat amenaçat ', cadena' act ', cadena' nsw ', cadena' nt ',' qld ' string, `sa` string,` tas` string, `vic` string,` wa` string, `aci` string,` cki` string, `ci` string,` csi` string, `jbt` string,` nfi` cadena, cadena 'hmi', cadena 'aat', cadena 'cma', 'taxonid espadat llistat' bigint, 'taxonid espadat actual' bigint, cadena 'regne', cadena 'classe', cadena 'perfil', 'data extreta' cadena, cadena 'nom nsl', cadena 'família', cadena 'gènere', cadena 'espècie', cadena 'rang infraespecífic', cadena 'infraspècie', cadena 'autor de l'espècie', cadena 'autor de les infraspècies') FORMAT DE FILA CAMPS DELIMITATS TERMINAT PER ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script /'

2. Aquest pas de treball realitza una consulta per calcular les cinc principals espècies en perill d'extinció de l'estat de Nova Gal·les del Sud (NSW). El nom del fitxer de consulta Hive és endangeredSpeciesNSW.q i es mostra a continuació:

SELECCIÓ d'espècies, COUNT (nsw) AS number_of_endangered_species FROM Amened_species WHERE (nsw = 'Yes' OR nsw = 'En perill d'extinció') AND 'dangered status' = 'En perill d'extinció'

3.Aquest pas de treball realitza una consulta per calcular el nombre total d'espècies de plantes en perill d'extinció per a cada família de plantes a Austràlia. El nom del fitxer de consulta Hive ésendangeredPlantSpecies.qi es mostra a continuació

què és un desenvolupador de blockchain
SELECCIONA la família, COUNT (espècie) COM a nombre_de_espècies_endangered_Despere_especies2 amenaçades WHERE Kingdom = 'Plantae' AND 'statut amenaçat' = 'En perill' GRUP PER FAMÍLIA

4. En aquest pas s’enumeren els noms científics d’espècies animals extingides a l’estat de Queensland, a Austràlia. Es diu el fitxer de script extinctAnimalsQLD.q i es mostra a continuació:

SELECCIONA 'nom comú', 'nom científic' DES d'especies_amenacades WHERE Kingdom = 'Animalia' AND (qld = 'Sí' O qld = 'Extint') AND 'status amenaçat' = 'Extint'

Agregació de registres

Aquí també hem penjat un fitxer JSON anomenat logAggregation.json a la carpeta de scripts del dipòsit S3. Utilitzem aquest fitxer per agregar els fitxers de registre YARN. L'agregació de registres es configura al fitxer de configuració yarn-site.xml quan s'inicia el clúster. El contingut del fitxer logAggregation.json és el següent:

[{'Classificació': 'yarn-site', 'Properties': {'yarn.log-aggregation-enable': 'true', 'yarn.log-aggregation.retain-seconds': '-1', 'yarn. .nodemanager.remote-app-log-dir ”:“ s3: // arvind1-bucket / logs ”}}]

Després de crear el dipòsit S3 i copiar les dades i els fitxers de seqüències a les seves carpetes respectives, és hora de configurar un clúster EMR. Les següents instantànies descriuen el procés a mesura que creem el clúster amb la configuració principalment predeterminada.

Configuració del clúster EMR

A la primera imatge, per configurar el clúster a la consola AWS, hem conservat totes les aplicacions recomanades per EMR, inclòs Hive. No cal que utilitzeu AWS Glue per emmagatzemar metadades de Hive ni tampoc no hi afegim cap pas de treball en aquest moment. Tot i això, hem d’afegir una configuració de programari per a Hive. Aquí heu d'observar detingudament com especifiquem el camí d'accés al fitxer JSON d'agregació de registres en aquest camp.

Al següent pas, hem conservat tots els paràmetres predeterminats. En nom de la nostra prova, el clúster tindrà un node mestre i dos nodes bàsics. Aquí cada node és una instància m3.xlarge i té un volum d'arrel de 10 GB. Anomenem el clúster arvind1-cluster al següent pas i especifiquem la ubicació s3 personalitzada per als fitxers de registre.

Finalment, hem especificat un parell de claus EC2 per accedir al node mestre del clúster. No hi ha canvis en els rols IAM predeterminats per a les opcions d'EMR, d'instància EC2 i d'escala automàtica. A més, els nodes mestre i principal utilitzen per defecte grups de seguretat disponibles. Normalment, es tracta d’una configuració predeterminada per a un clúster EMR. Un cop tot estigui a punt, el clúster es troba en estat 'en espera', tal com es mostra a continuació:

Envieu els passos de la feina del rusc

Després d'això, hem de permetre l'accés SSH.

  1. Obriu la consola Amazon EMR a https://console.aws.amazon.com/elasticmapreduce/ .
  2. Trieu Clústers .
  3. Escull el Nom del clúster.
  4. Sota Seguretat i accés Escull el Grups de seguretat per a Master enllaç.
  5. Trieu ElasticMapReduce-master de la llista.
  6. Trieu Entrant , Edita .
  7. Cerqueu la regla amb la configuració següent i trieu x icona per suprimir-lo:
    • Tipus SSH
    • Port 22
    • Font Personalitzat 0.0.0.0/0
  8. Desplaceu-vos fins a la part inferior de la llista de regles i trieu Afegeix una regla .
  9. Per a Tipus , seleccioneu SSH .Això entra automàticament TCP per Protocol i 22 per Port Range .
  10. Per a la font, seleccioneu La meva IP .Això afegeix automàticament l'adreça IP de l'ordinador client com a adreça d'origen. Com a alternativa, podeu afegir-ne un Personalitzat adreces IP de client de confiança i trieu afegiu la regla per crear regles addicionals per a altres clients. En molts entorns de xarxa, assigneu adreces IP de manera dinàmica, de manera que és possible que hàgiu d'editar periòdicament les regles del grup de seguretat per actualitzar l'adreça IP dels clients de confiança.
  11. Trieu Desa .
  12. Opcionalment, trieu ElasticMapReduce-slave de la llista i repetiu els passos anteriors per permetre l'accés del client SSH als nodes bàsics i de tasques dels clients de confiança.

Com que el clúster EMR està en funcionament, hem afegit quatre passos de treball. Aquests són els passos que EMR executaria un darrere l’altre. La imatge següent mostra els passos de la consola AWS EMR:

Un cop afegim els quatre passos, podem comprovar l’estat d’aquests passos com a finalitzats. Fins i tot si hi ha algun problema amb l'execució d'aquests passos, en aquests casos es pot resoldre mitjançant els fitxers de registre d'aquests passos.

Per tant, això és del meu costat en aquest article sobre Big Data a AWS. Espero que hagueu entès tot el que he explicat aquí.

Si heu trobat rellevant aquest Big Data a AWS, podeu consultar el curs en directe i dirigit per un instructor d’Edureka , co-creat per professionals de la indústria.

Tens alguna pregunta? Si us plau, mencioneu-ho a la secció de comentaris d’aquest Com es desplega l’aplicació web Java a AWS i us respondrem.