Hadoop dominat? És hora de començar amb Apache Spark



Aquesta publicació del bloc explica per què heu de començar amb Apache Spark després d’Hadoop i per què aprendre Spark després de dominar hadoop pot fer meravelles per a la vostra carrera.

Hadoop, com tots sabem, és el noi del big data. Com a marc de programari capaç de processar proporcions elefantines de dades, Hadoop ha obert camí cap a la part superior de la llista de paraules clau CIO.





Tanmateix, l’augment sense precedents de la pila de memòria ha introduït l’ecosistema de big data en una nova alternativa d’anàlisi. La forma d’anàlisi MapReduce s’està substituint per un nou enfocament que permet analitzar tant dins del marc Hadoop com fora d’aquest. Apache Spark és la nova cara nova de l’anàlisi de big data.

Els entusiastes del big data han certificat Apache Spark com el motor de càlcul de dades més calent del big data del món. Expulsa ràpidament MapReduce i Java de les seves posicions, i les tendències laborals reflecteixen aquest canvi. Segons una enquesta de TypeSafe, el 71% dels desenvolupadors globals de Java actualment estan avaluant o investigant sobre Spark i el 35% d’ells ja han començat a utilitzar-lo. Actualment hi ha una gran demanda d’experts en Spark i, en les properes setmanes, només s’espera que el nombre d’oportunitats laborals relacionades amb Spark passin pel terrat.



Què passa, doncs, amb Apache Spark que fa que aparegui a la llista de tasques de CIO?

Aquí hi ha algunes de les característiques interessants d’Apache Spark:

  • Integració Hadoop - Spark pot funcionar amb fitxers emmagatzemats en HDFS.
  • Shell interactiu de Spark - Spark està escrit en Scala i té la seva pròpia versió de l'intèrpret de Scala.
  • Suite analítica de Spark - Spark inclou eines d’anàlisi de consultes interactives, processament i anàlisi de gràfics a gran escala i anàlisi en temps real.
  • Conjunts de dades distribuïts resistents (RDD) - Els RDD són objectes distribuïts que es poden emmagatzemar a la memòria cau a través d'un clúster de nodes de càlcul. Són els objectes de dades principals utilitzats a Spark.
  • Operadors distribuïts - A més de MapReduce, hi ha molts altres operadors que es poden utilitzar en RDD’s.

Organitzacions com la NASA, Yahoo i Adobe s'han compromès amb Spark. Això és el que ha dit John Tripier, Alliances and Ecosystem Lead a Databricks: “L’adopció d’Apache Spark per a empreses petites i grans creix a un ritme increïble en una àmplia gamma d’indústries i la demanda de desenvolupadors amb experiència certificada és ràpida seguint el cas ”. Mai no hi ha hagut un moment millor per aprendre Spark si teniu experiència a Hadoop.



java com crear una matriu d'objectes

Edureka ha comissariat especialment un curs sobre Apache Spark & ​​Scala, co-creat per professionals de la indústria de la vida real. Consulteu el nostre curs per obtenir una experiència d’aprenentatge electrònic en directe diferenciada juntament amb projectes rellevants per a la indústria. Els nous lots començaran aviat, així que consulteu el curs aquí: .

Tens alguna pregunta? Esmenta’l a la secció de comentaris i et respondrem.

Articles Relacionats:

Apache Spark Vs Hadoop MapReduce