Processament de Big Data amb Apache Spark & ​​Scala



Apache Spark ha aparegut com un gran desenvolupament en el processament de grans dades.

t tipus de dades de data sql

IST: de 07:00 a 08:00, el 17 d’octubre





PDT: de 18:30 a 19:30, el 16 d’octubre del 2014

Places limitades !! Empleneu el formulari de la dreta i reserveu la vostra ranura avui mateix.



Hola a tots, realitzem un seminari web gratuït sobre Apache Spark i Scala el 18 d’octubre. El títol del seminari web és 'Processament de dades grans amb Apache Spark i Scala' . En aquest seminari web, es debatran els temes essencials relacionats amb Apache Spark i Scala. Qualsevol dubte o dubte es pot aclarir durant la sessió.

Temes a tractar:

  • Què és el Big Data?
  • Què és Spark?
  • Per què Spark?
  • Ecosistema Spark
  • Una nota sobre Scala
  • Per què Scala?
  • Hello Spark: mans a la mà

Per què Spark?

Apache Spark és un marc de càlcul de clúster de codi obert per a clústers de la comunitat Hadoop. Es qualifica per ser un dels millors motors d’anàlisi i processament de dades per a dades a gran escala amb la seva velocitat inigualable, facilitat d’ús i anàlisi sofisticada. A continuació, es mostren els avantatges i les característiques que fan que Apache Spark sigui un èxit creuat tant per a analítiques operatives com per a investigacions:

  • Els programes desenvolupats amb Spark funcionen 100 vegades més ràpidament que els desenvolupats a Hadoop MapReduce.
  • Spark compila 80 operadors d’alt nivell.
  • Spark Streaming permet el processament de dades en temps real.
  • GraphX ​​és una biblioteca per a càlculs gràfics.
  • MLib és la biblioteca d'aprenentatge automàtic de Spark.
  • Escrit principalment en Scala, Spark es pot incrustar en qualsevol sistema operatiu basat en JVM, alhora que també es pot utilitzar de manera REPL (Llegir, Avaluar, Processar i Carregar).
  • Té potents funcions de memòria cau i persistència de disc.
  • Spark SQL li permet gestionar amb profunditat les consultes SQL
  • Apache Spark es pot desplegar mitjançant Apache Mesos, Yarn in HDFS, HBase, Cassandra o Spark Cluster Manager (el propi gestor de clústers de Spark).
  • Spark simula l'API d'estil funcional i col·leccions de Scala, que és un gran avantatge per als desenvolupadors de Scala i Java.

Necessitat d'Apache Spark:

Spark proporciona avantatges immensos a la indústria en termes de rapidesa, varietat de tasques que pot realitzar, flexibilitat, anàlisi de dades de qualitat, rendibilitat, etc., que són les necessitats del dia. Ofereix solucions d’anàlisi de big data en temps real de gamma alta a la indústria de TI, satisfent la demanda creixent dels clients. Les analítiques en temps real aprofiten les capacitats empresarials a gran quantitat. La seva compatibilitat amb Hadoop facilita l'adopció ràpida per a les empreses. Hi ha una forta necessitat d’experts i desenvolupadors coneixedors de Spark, ja que es tracta d’una tecnologia relativament nova, que s’adopta cada vegada més.