Programació Pig: creeu el vostre primer script Apache Pig
En la nostra , ara aprendrem a crear un script Apache Pig. Els scripts Apache Pig s’utilitzen per executar col·lectivament un conjunt d’ordres Apache Pig. Això ajuda a reduir el temps i l'esforç invertit en escriure i executar cada ordre manualment mentre es fa això en la programació Pig.També és una part integral del .Aquest bloc és una guia pas a pas per ajudar-vos a crear el vostre primer script Apache Pig.
Modes d’execució de scripts Apache Pig
Mode local : Al 'mode local', podeu executar l'script de porc al sistema de fitxers local. En aquest cas, no cal que emmagatzemeu les dades al sistema de fitxers Hadoop HDFS, sinó que podeu treballar amb les dades emmagatzemades al propi sistema de fitxers local.
Mode MapReduce : Al 'mode MapReduce', les dades s'han d'emmagatzemar al sistema de fitxers HDFS i podeu processar-les amb l'ajut de l'escriptura pig.
Script Apache Pig en mode MapReduce
Diguem que la nostra tasca és llegir dades d'un fitxer de dades i mostrar el contingut requerit al terminal com a sortida.
El fitxer de dades de mostra conté les dades següents:
Deseu el fitxer de text amb el nom ‘information.txt’
El fitxer de dades de mostra conté cinc columnes Nom , Cognom , Mòbil No , ciutat , i Professió separats per tecla de pestanya . La nostra tasca és llegir el contingut d’aquest fitxer des de l’HDFS i mostrar totes les columnes d’aquests registres.
fibonacci c ++ recursiu
Per processar aquestes dades mitjançant Pig, aquest fitxer hauria d’estar present a Apache Hadoop HDFS.
Comandament : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka
Pas 1: Escriure un guió Pig
Creeu i obriu un fitxer de seqüència Apache Pig en un editor (per exemple, gedit).
Comandament : sudo gedit /home/edureka/output.pig
com fer addició a Java
Aquesta ordre crearà un fitxer ‘output.pig’ dins del directori inicial de l’usuari edureka.
Escrivim poques ordres PIG al fitxer output.pig.
A = LOAD '/edureka/information.txt' utilitzant PigStorage ('') com a (FName: chararray, LName: chararray, MobileNo: chararray, Ciutat: chararray, Professió: chararray) B = FOREACH A genera FName, MobileNo, Profession DUMP B
Deseu i tanqueu el fitxer.
- La primera ordre carrega el fitxer ‘information.txt’ a la variable A amb esquema indirecte (FName, LName, MobileNo, City, Profession).
- La segona ordre carrega les dades necessàries de la variable A a la variable B.
- La tercera línia mostra el contingut de la variable B al terminal / consola.
Pas 2: Executeu el script Apache Pig
Per executar l'script porc en mode HDFS, executeu l'ordre següent:
Comandament : pig /home/edureka/output.pig
Un cop finalitzada l'execució, reviseu el resultat. Les imatges següents mostren els resultats i el seu mapa intermedi i redueixen les funcions.
La imatge següent mostra que l'script s'ha executat correctament.
La imatge següent mostra el resultat del nostre guió.
c ++ com utilitzar espais de noms
Enhorabona per haver executat amb èxit el primer script Apache Pig.
Ara ja sabeu, com crear i executar un script Apache Pig. Per tant, el nostre proper bloc a tractarà sobre com fer-ho creeu UDF (Funcions definides per l'usuari) a Apache Pig i executeu-lo en mode MapReduce / HDFS.
Ara que heu creat i executat Apache Pig Script, consulteu el fitxer per Edureka, una empresa d'aprenentatge en línia de confiança amb una xarxa de més de 250.000 estudiants satisfets repartits per tot el món. El curs de formació en certificació Edureka Big Data Hadoop ajuda els estudiants a convertir-se en experts en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop mitjançant casos d’ús en temps real en dominis Retail, Social Media, Aviació, Turisme, Finances.
Tens alguna pregunta? Esmenta’l a la secció de comentaris i et respondrem.