Aplicació de Hadoop amb Data Science



Amb Hadoop com a plataforma de dades escalable i com a motor computacional, la ciència de les dades torna a emergir com a eix central de la innovació empresarial. Hadoop és ara un avantatge per als científics de dades.

Apache Hadoop s'està convertint ràpidament en la tecnologia preferida per a les organitzacions que inverteixen en big data, impulsant la seva arquitectura de dades de propera generació. Amb Hadoop que serveix com a plataforma de dades escalable i com a motor computacional, la ciència de dades torna a emergir com a eix central de la innovació empresarial, amb solucions de dades aplicades com ara recomanacions de productes en línia, detecció automatitzada de fraus i anàlisi del sentiment dels clients.

En aquest article, proporcionem una visió general de la ciència de dades i com aprofitar Hadoop per a projectes de ciència de dades a gran escala.





Com és útil Hadoop per als científics de dades?

Hadoop és una ajuda per als científics de dades. Vegem com Hadoop ajuda a augmentar la productivitat dels científics de dades. Hadoop té una capacitat única on totes les dades es poden emmagatzemar i recuperar d'un sol lloc. D'aquesta manera, es pot aconseguir el següent:

  • Possibilitat d'emmagatzemar totes les dades en format RAW
  • Convergència de sitges de dades
  • Els científics de dades trobaran usos innovadors d’actius de dades combinats.

Hadoop-with-ds11



Clau del poder de Hadoop:

  • Reducció de temps i costos - Hadoop ajuda a reduir dràsticament el temps i el cost de construir productes de dades a gran escala.
  • El càlcul es col·loca amb Data - Les dades i el sistema de càlcul estan codificats per treballar junts.
  • Assequible a escala - Pot utilitzar nodes de maquinari 'bàsics', és autocuratiu, excel·lent en el processament per lots de grans conjunts de dades.
  • Dissenyat per a una sola escriptura i diverses lectures: No hi ha escriptures aleatòries i ho ésOptimitzat per a la cerca mínima en discs durs

Per què Hadoop With Data Science?

Motiu núm. 1: Exploreu grans conjunts de dades

La primera i principal raó per la qual es pot Exploreu grans conjunts de dades directament amb Hadoop by integrant Hadoop al Flux d’anàlisi de dades .

Això s’aconsegueix utilitzant estadístiques senzilles com:



  • Significar
  • Mitjana
  • Quantil
  • Preprocessament: grep, regex

També es pot utilitzar el mostreig / filtratge ad-hoc per aconseguir-ho Aleatori: amb o sense substitució, mostra per clau única i validació creuada de K-fold.

algoritme de classificació de combinació c ++

Raó núm. 2: capacitat d’explotar grans conjunts de dades

L’aprenentatge d’algoritmes amb grans conjunts de dades té els seus propis desafiaments. Els reptes són:

  • Les dades no cabran a la memòria.
  • L’aprenentatge requereix molt més temps.

Quan s’utilitza Hadoop es poden realitzar funcions com distribuir dades entre nodes del clúster Hadoop i implementar un algorisme distribuït / paral·lel. Per a recomanacions, es pot utilitzar l'algoritme Altern Least Square i per agrupar K-Means.

Raó 3: preparació de dades a gran escala

Tots sabem que el 80% del treball en ciències de les dades implica la 'preparació de dades'. Hadoop és ideal per a la preparació per lots i la neteja de grans conjunts de dades.

Raó 4: accelerar la innovació impulsada per les dades:

Les arquitectures de dades tradicionals tenen barreres a la velocitat. Usos RDBMS esquema a Write i, per tant, el canvi és car. També és un barrera alta per a la innovació basada en dades.

tutorial qlikview pas a pas

Usos de Hadoop 'Esquema de lectura' que significa temps més ràpid per a la innovació i, per tant, afegeix a barrera baixa sobre innovació basada en dades.

Per tant, resumir els quatre motius principals pels quals necessitem Hadoop amb Data Science seria:

  1. Els meus grans conjunts de dades
  2. Exploració de dades amb conjunts de dades complets
  3. Preprocessament a escala
  4. Cicles de dades més ràpids

Per tant, veiem que les organitzacions poden aprofitar Hadoop en el seu avantatge per obtenir dades útils i obtenir-ne resultats útils.

Tens alguna pregunta? Esmenteu-los a la secció de comentaris i us respondrem.

Articles Relacionats:

Importància de la ciència de dades amb Cassandra