Apache Flink: el marc d’anàlisi de dades grans de propera generació per al processament de dades en flux i en lots



Obteniu més informació sobre Apache Flink i com configureu un clúster Flink en aquest bloc. Flink admet el processament per lots i en temps real i és una tecnologia de Big Data obligatòria per a Big Data Analytics.

Apache Flink és una plataforma de codi obert per al flux de dades distribuïdes i el processament de dades per lots. Pot funcionar amb Windows, Mac OS i Linux. En aquesta entrada del bloc, analitzem com configurar el clúster Flink de forma local. És similar a Spark de moltes maneres: té API per al processament d’aprenentatges gràfics i automàtics com Apache Spark, però Apache Flink i Apache Spark no són exactament iguals.





Per configurar el clúster Flink, heu de tenir instal·lat Java 7.x o superior al vostre sistema. Com que he instal·lat Hadoop-2.2.0 al meu final a CentOS (Linux), he descarregat el paquet Flink que és compatible amb Hadoop 2.x. Executeu l'ordre següent per descarregar el paquet Flink.

Comandament: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Desmarqueu el fitxer per obtenir el directori flink.

Comandament: Tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Comandament: ls

Afegiu variables d'entorn Flink al fitxer .bashrc.

Comandament: sudo gedit .bashrc

Heu d'executar l'ordre següent perquè els canvis al fitxer .bashrc estiguin activats

Comandament: font .bashrc

Ara aneu al directori Flink i inicieu el clúster localment.

com instal·lar PHP 7 a Windows 10

Comandament: cd hefty-1.0.0

Comandament: bin / start-local.sh

com es crea el tauler de control de power bi

Un cop hàgiu iniciat el clúster, podreu veure un nou dimoni JobManager en execució.

Comandament: jps

Obriu el navegador i aneu a http: // localhost: 8081 per veure la interfície d’usuari web d’Apache Flink.

Executem un exemple senzill de recompte de paraules amb Apache Flink.

Abans d'executar l'exemple, instal·leu netcat al vostre sistema (sudo yum install nc).

Ara en un nou terminal executeu l'ordre següent.

Comandament: nc -lk 9000

Executeu l'ordre següent a la terminal flink. Aquesta ordre executa un programa que pren les dades transmeses com a entrada i realitza l'operació de recompte de paraules en aquestes dades transmeses.

Comandament: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

A la interfície d’usuari web, podreu veure un treball en estat d’execució.

Executeu l'ordre següent en un nou terminal, això imprimirà les dades transmeses i processades.

Comandament: tail -f log / flink - * - jobmanager - *. out

Ara aneu al terminal on heu iniciat netcat i escriviu alguna cosa.

En el moment que premeu el botó Retorn de la paraula clau després d’haver escrit algunes dades al terminal netcat, s’aplicarà l’operació de recompte de paraules a aquestes dades i la sortida s’imprimirà aquí (registre de gestors de treball de Flink) en mil·lisegons.

En un període molt curt de temps, les dades seran transmeses, processades i impreses.

Hi ha molt més per aprendre sobre Apache Flink. Tractarem altres temes de Flink al nostre proper bloc.

expliqueu l'arquitectura mvc a Java amb un exemple

Tens alguna pregunta? Esmenteu-los a la secció de comentaris i us respondrem.

Articles Relacionats:

Apache Falcon: nova plataforma de gestió de dades per a l’ecosistema Hadoop