Programació Pig: creeu el vostre primer script Apache Pig



Llegiu aquesta publicació del blog per crear el vostre primer script Apache Pig. Els scripts Apache Pig s’utilitzen per executar col·lectivament un conjunt d’ordres Apache Pig.

Programació Pig: creeu el vostre primer script Apache Pig

En la nostra , ara aprendrem a crear un script Apache Pig. Els scripts Apache Pig s’utilitzen per executar col·lectivament un conjunt d’ordres Apache Pig. Això ajuda a reduir el temps i l'esforç invertit en escriure i executar cada ordre manualment mentre es fa això en la programació Pig.També és una part integral del .Aquest bloc és una guia pas a pas per ajudar-vos a crear el vostre primer script Apache Pig.

Modes d’execució de scripts Apache Pig

Mode local : Al 'mode local', podeu executar l'script de porc al sistema de fitxers local. En aquest cas, no cal que emmagatzemeu les dades al sistema de fitxers Hadoop HDFS, sinó que podeu treballar amb les dades emmagatzemades al propi sistema de fitxers local.





Mode MapReduce : Al 'mode MapReduce', les dades s'han d'emmagatzemar al sistema de fitxers HDFS i podeu processar-les amb l'ajut de l'escriptura pig.

Script Apache Pig en mode MapReduce

Diguem que la nostra tasca és llegir dades d'un fitxer de dades i mostrar el contingut requerit al terminal com a sortida.



El fitxer de dades de mostra conté les dades següents:

Fitxer txt d

Deseu el fitxer de text amb el nom ‘information.txt’



El fitxer de dades de mostra conté cinc columnes Nom , Cognom , Mòbil No , ciutat , i Professió separats per tecla de pestanya . La nostra tasca és llegir el contingut d’aquest fitxer des de l’HDFS i mostrar totes les columnes d’aquests registres.

fibonacci c ++ recursiu

Per processar aquestes dades mitjançant Pig, aquest fitxer hauria d’estar present a Apache Hadoop HDFS.

Comandament : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Pas 1: Escriure un guió Pig

Creeu i obriu un fitxer de seqüència Apache Pig en un editor (per exemple, gedit).

Comandament : sudo gedit /home/edureka/output.pig

com fer addició a Java

Aquesta ordre crearà un fitxer ‘output.pig’ dins del directori inicial de l’usuari edureka.

Escrivim poques ordres PIG al fitxer output.pig.

A = LOAD '/edureka/information.txt' utilitzant PigStorage ('') com a (FName: chararray, LName: chararray, MobileNo: chararray, Ciutat: chararray, Professió: chararray) B = FOREACH A genera FName, MobileNo, Profession DUMP B

Deseu i tanqueu el fitxer.

  • La primera ordre carrega el fitxer ‘information.txt’ a la variable A amb esquema indirecte (FName, LName, MobileNo, City, Profession).
  • La segona ordre carrega les dades necessàries de la variable A a la variable B.
  • La tercera línia mostra el contingut de la variable B al terminal / consola.

Pas 2: Executeu el script Apache Pig

Per executar l'script porc en mode HDFS, executeu l'ordre següent:

Comandament : pig /home/edureka/output.pig

Un cop finalitzada l'execució, reviseu el resultat. Les imatges següents mostren els resultats i el seu mapa intermedi i redueixen les funcions.

La imatge següent mostra que l'script s'ha executat correctament.

La imatge següent mostra el resultat del nostre guió.

c ++ com utilitzar espais de noms

Enhorabona per haver executat amb èxit el primer script Apache Pig.

Ara ja sabeu, com crear i executar un script Apache Pig. Per tant, el nostre proper bloc a tractarà sobre com fer-ho creeu UDF (Funcions definides per l'usuari) a Apache Pig i executeu-lo en mode MapReduce / HDFS.

Ara que heu creat i executat Apache Pig Script, consulteu el fitxer per Edureka, una empresa d'aprenentatge en línia de confiança amb una xarxa de més de 250.000 estudiants satisfets repartits per tot el món. El curs de formació en certificació Edureka Big Data Hadoop ajuda els estudiants a convertir-se en experts en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop mitjançant casos d’ús en temps real en dominis Retail, Social Media, Aviació, Turisme, Finances.

Tens alguna pregunta? Esmenta’l a la secció de comentaris i et respondrem.