En aquesta entrada de blog, parlem d’exemples de les millors ordres de Hive. Aquestes ordres de Hive són molt importants per configurar les bases .
Ja ha sortit la Guia professional d’Edureka 2019! Rols laborals més importants, camins d'aprenentatge precisos, perspectives del sector i molt més a la guia. descarregar ara.Què és Hive?
Apache Hive és un sistema de magatzem de dades construït per funcionar a Hadoop. S'utilitza per consultar i gestionar grans conjunts de dades que resideixen en un emmagatzematge distribuït. Abans de convertir-se en un projecte de codi obert d'Apache Hadoop, Hive es va originar a Facebook. Proporciona un mecanisme per projectar l'estructura de les dades a Hadoop i consultar aquestes dades mitjançant un llenguatge similar a SQL anomenat HiveQL (HQL).
S'utilitza Hive perquè les taules de Hive són similars a les taules d'una base de dades relacional. Si coneixeu SQL, és un passeig. Molts usuaris poden consultar simultàniament les dades mitjançant Hive-QL.
Què és HQL?
Hive defineix un llenguatge de consulta semblant a SQL per fer consultes i gestionar grans conjunts de dades anomenats Hive-QL (HQL). És fàcil d’utilitzar si coneixeu el llenguatge SQL. Hive permet als programadors que estiguin familiaritzats amb el llenguatge escriure el marc MapReduce personalitzat per realitzar anàlisis més sofisticades.
Usos del rusc:
1. L’emmagatzematge distribuït d’Apache Hive.
2. Hive proporciona eines per permetre l'extracció / transformació / càrrega de dades (ETL) fàcilment
3. Proporciona l'estructura en diversos formats de dades.
4. Mitjançant Hive, podem accedir als fitxers emmagatzemats al sistema de fitxers distribuït de Hadoop (HDFS s'utilitza per consultar i gestionar conjunts de dades grans que resideixen a) o en altres sistemes d'emmagatzematge de dades, com ara Apache HBase.
Limitacions del rusc:
& bull Hive no està dissenyat per al processament de transaccions en línia (OLTP), només s'utilitza per al processament analític en línia.
& Bull Hive admet la sobreescriptura o la captura de dades, però no actualitzacions i supressions.
& bull A Hive, no s'admeten consultes secundàries.
Per què s’utilitza Hive malgrat Pig?
A continuació s’expliquen els motius pels quals s’utilitza Hive malgrat la disponibilitat de Pig:
- Hive-QL és una línia declarativa de llenguatge SQL, PigLatin és un llenguatge de flux de dades.
- Pig: un llenguatge i entorn de flux de dades per explorar conjunts de dades molt grans.
- Hive: un magatzem de dades distribuït.
Components de Hive:
Metastore:
Hive emmagatzema l’esquema de les taules Hive en un Hast Metastore. Metastore s'utilitza per contenir tota la informació sobre les taules i les particions que hi ha al magatzem. Per defecte, el metastore s'executa en el mateix procés que el servei Hive i el metastore per defecte és DerBy Database.
SERVEI:
Serializer, Deserializer dóna instruccions sobre com processar un registre.
Ordres del rusc:
Llenguatge de definició de dades (DDL)
Les sentències DDL s’utilitzen per crear i modificar les taules i altres objectes de la base de dades.
Ordre DDL | Funció |
CREAR | S'utilitza per crear una taula o una base de dades |
ESPECTACLE | S'utilitza per mostrar la base de dades, la taula, les propietats, etc. |
EDAT | S'utilitza per fer canvis a la taula existent |
DESCRIU | Descriu les columnes de la taula |
TRONCAR | S'utilitza per truncar i suprimir permanentment les files de la taula |
ESBORRAR | Suprimeix les dades de la taula, però es poden restaurar |
Aneu a l'intèrpret d'ordres Hive donant l'ordre sudo hive i introduïu l'ordre 'crear base de dades nom> ' per crear la nova base de dades al rusc.
Per llistar les bases de dades al magatzem Hive, introduïu l'ordre ' mostrar bases de dades ’.
La base de dades es crea en una ubicació predeterminada del magatzem Hive. A Cloudera, botiga de bases de dades Hive a / user / hive / warehouse.
instal·leu PHP a Windows 7
L'ordre per utilitzar la base de dades és ÚS
Copieu les dades d'entrada a HDFS de local mitjançant l'ordre Copia de local.
Quan creem una taula al rusc, es crea a la ubicació predeterminada del magatzem del rusc. - '/ usuari / rusc / magatzem', després de la creació de la taula podem moure les dades des de HDFS a la taula de rusc.
L'ordre següent crea una taula amb a la ubicació de '/user/hive/warehouse/retail.db'
Nota : retail.db és la base de dades creada al magatzem de Hive.
descriu proporciona informació sobre l'esquema de la taula.
Llenguatge de manipulació de dades (DML)
Les sentències DML s’utilitzen per recuperar, emmagatzemar, modificar, suprimir, inserir i actualitzar dades a la base de dades.
Exemple:
CARREGAR, INSERIR declaracions.
Sintaxi:
CARREGAR les dades a la taula [nom de taula]
L'operació de càrrega s'utilitza per moure les dades a la taula Hive corresponent. Si la paraula clau local s'especifica, a continuació, a l'ordre load es donarà la ruta del sistema de fitxers local. Si no s'especifica la paraula clau local, hem d'utilitzar el camí d'accés HDFS del fitxer.
com invertir el pitó de cordes
Aquests són alguns exemples de l’ordre LOAD data LOCAL
Després de carregar les dades a la taula Hive, podem aplicar les declaracions de manipulació de dades o les funcions agregades per recuperar les dades.
Exemple per comptar el nombre de registres:
La funció agregada de recompte s'utilitza per comptar el nombre total de registres d'una taula.
Taula 'crear extern':
El crear extern La paraula clau s'utilitza per crear una taula i proporciona una ubicació on es crearà la taula, de manera que Hive no faci servir una ubicació predeterminada per a aquesta taula. An EXTERN La taula apunta a qualsevol ubicació HDFS per al seu emmagatzematge, en lloc d'emmagatzematge predeterminat.
Insereix l'ordre:
El inserir S'utilitza l'ordre per carregar la taula Hive de dades. Les insercions es poden fer en una taula o una partició.
& bull INSERT OVERWRITE s'utilitza per sobreescriure les dades existents a la taula o partició.
& bull INSERT INTO s'utilitza per afegir les dades a les dades existents en una taula. (Nota: la sintaxi INSERT INTO funciona des de la versió 0.8)
Exemple per a l'ordre 'Particionat per' i 'Agrupat per':
‘Particionat per 'S'utilitza per dividir la taula en la partició i es pot dividir en dipòsits mitjançant el botó' Agrupat per ' comandament.
Quan inserim els errors de llançament de dades Hive, el mode de partició dinàmica és estricte i la partició dinàmica no està habilitada (per Jeff a lloc web de dresshead ). Per tant, hem d’establir els següents paràmetres al shell Hive.
estableix hive.exec.dynamic.partition = cert
Per activar les particions dinàmiques, de manera predeterminada, és fals
set hive.exec.dynamic.partition.mode = sense restriccions
La partició es fa per categoria i es pot dividir en dipòsits mitjançant l'ordre 'Agrupat per'.
La sentència 'Drop Table' suprimeix les dades i les metadades d'una taula. En el cas de taules externes, només se suprimeixen les metadades.
La sentència 'Drop Table' suprimeix les dades i les metadades d'una taula. En el cas de taules externes, només se suprimeixen les metadades.
Carregueu les dades de la ruta d’entrada local ‘aru.txt’ al nom de la taula i, a continuació, comprovem la taula empleat1 mitjançant l’ordre Select * from table name
Per comptar el nombre de registres de la taula mitjançant Selecciona comptar (*) des de txnrecords
Agregació :
Seleccioneu el recompte (categoria DISTINGUT) del nom de la taula
Aquesta ordre comptarà les diferents categories de la taula 'cate'. Aquí hi ha 3 categories diferents.
Suposem que hi ha una altra categoria de taula on f1 és el nom del camp de la categoria.
Agrupació:
L'ordre Grup s'utilitza per agrupar el conjunt de resultats en una o més columnes.
Seleccioneu categoria, suma (import) dels registres txt grup per categoria
Calcula la quantitat de la mateixa categoria.
El resultat d'una taula s'emmagatzema en una altra taula.
Creeu taula newtablename segons seleccioneu * de oldtablename
Uneix-te a l'ordre:
Aquí es crea una taula més al nom 'Correu electrònic'
Uniu-vos a l'operació :
Es realitza una operació de combinació per combinar camps de dues taules mitjançant valors comuns a cadascuna.
Unió exterior esquerra :
El resultat d'una unió exterior esquerra (o simplement unió esquerra) per a les taules A i B sempre conté tots els registres de la taula 'esquerra' (A), fins i tot si la condició d'unió no troba cap registre coincident a la taula 'dreta' (B).
Unió exterior dreta :
Una unió exterior dreta (o unió dreta) s’assembla molt a una unió exterior esquerra, excepte amb el tractament de les taules invertit. Cada fila de la taula 'dreta' (B) apareixerà a la taula unida almenys una vegada.
Unió completa :
La taula unida contindrà tots els registres de les dues taules i emplenarà NULS per a les coincidències que falten a banda i banda.
analitzeu el fitxer XML a Java
Un cop fet amb hive podem utilitzar l'ordre quit per sortir de l'intèrpret d'ordres del rusc.
Hive és només una part del gran trencaclosques anomenat Big Data i Hadoop. Hadoop és molt més que simplement Hive. Feu clic a continuació per veure quines altres habilitats heu de dominar a Hadoop.
Tens alguna pregunta? Esmenta’l a la secció de comentaris i et respondrem.
Articles Relacionats:
La formació en dades de 7 maneres pot canviar la vostra organització