Apache Hive: definizione e utilizzo

Indice

Anche se secondo numerosi esperti informatici il sistema data warehouse Apache Hive è destinato a scomparire, questo viene usato ancora oggi per gestire grandi quantità di dati. Inoltre, sistemi più recenti hanno raccolto numerose funzioni di Apache Hive. Vale quindi la pena di dare un’occhiata a Hive e alle sue applicazioni più importanti.

Cos’è Apache Hive?

Apache Hive è un’estensione scalabile dell’applicazione server Apache e dell’architettura Apache Hadoop. Nelle architetture Hadoop, compiti complessi sono scomposti in piccoli processi e distribuiti in modo parallelo su computer cluster dai nodi mediante il clustering. In tal modo è possibile gestire grandi quantità di dati anche con server e computer dall’architettura standard. Apache Hive è un sistema integrato di interrogazione e analisi su base open source per il tuo data warehouse. Grazie a Hive i dati possono essere analizzati, interrogati e compilati con HiveQL, un linguaggio per banche dati simile a SQL. Inoltre, i dati Hadoop sono accessibili anche a gruppi più grandi di utenti.

Nel caso di Hive viene usata una sintassi simile a quella di SQL:1999 per strutturare programmi, applicazioni e banche dati o anche per integrare degli script. Prima di Hive, per usare l’interrogazione di dati era necessario conoscere il linguaggio e la programmazione in Java. Hive è in grado di tradurre le interrogazioni in un formato adatto alle banche dati. Ad esempio, può trattarsi di job MapReduce. Con Hive è possibile integrare altre applicazioni SQL nel framework Hadoop. A causa dell’ampia diffusione di SQL, questo sistema facilita (in quanto estensione di Hadoop) il lavoro con database e grandi quantità di dati anche per le persone non esperte.

Come funziona Hive?

Prima che Apache Hive completasse il framework Hadoop, l’ecosistema Hadoop si fondava ancora sul Framework MapReduce sviluppato da Google. Nel caso di Hadoop 1, questo era ancora implementato direttamente nel framework come motore indipendente per l’amministrazione, il monitoraggio e la gestione delle risorse e dei processi di calcolo. Questo a sua volta richiedeva una conoscenza approfondita di Java per poter interrogare con successo i file di Hadoop.

Le funzioni principali di Hadoop per l’utilizzo e la gestione dei Big Data consistono quindi in:

Raccolta dei dati
Interrogazione
Analisi

Il funzionamento di Hive si basa su un semplice principio: con un’interfaccia simile a SQL è possibile tradurre comodamente interrogazioni e analisi di file Hadoop per HiveQL in moduli di elaborazione MapReduce, Spark o Tez. Allo stesso modo Hive organizza i file del framework Hadoop in un formato compatibile con HDFS. HDFS è sinonimo di Hadoop Distributed File System. L’interrogazione mirata di dati avviene su cluster specifici e nodi del sistema Hadoop. Come funzioni standard sono disponibili anche filtri, aggregazioni e join.

Hive si basa sul principio schema-on-read

Al contrario dei database relazionali che lavorano secondo il principio SoW (schema-on-write), Hive si basa sul principio SoR (Schema-on-Read). Questo significa che i dati nel framework Hadoop sono salvati inizialmente senza modifiche e non in uno schema predefinito. È possibile adattare i dati a uno schema solo mediante un’interrogazione Hive. Il vantaggio, soprattutto per quanto riguarda il cloud computing è la maggiore scalabilità, più flessibilità e tempi di caricamento più rapidi dei database distribuiti sul cluster.

Com’è possibile lavorare con i dati in Hive?

Le tabelle Apache Hive vengono usate secondo uno schema di accesso in lettura per interrogare e analizzare le informazioni con Hive. Hive ti consente di organizzare e ordinare tali dati in queste tabelle in unità dettagliate più piccole o in grandi unità generali. Le tabelle Hive sono suddivise in cosiddetti “bucket”, ovvero blocchi di dati. Per accedere ai dati, usa il linguaggio di database HiveQL, molto simile a SQL. Le tabelle Hive possono essere sovrascritte, allegate e serializzate in database. Inoltre, ogni tabella Hive dispone di un proprio catalogo HDFS.

Consiglio

Con l’Hosting Linux di IONOS hai il tuo database sempre sotto controllo. In più godi di prestazioni scalabili, certificato SSL, protezione DDoS e server sicuri in Europa.

Le principali funzioni di Hive

Fra le funzioni centrali troviamo l’interrogazione e l’analisi di grandi quantità di dati e di database, salvate nel framework Hadoop sotto forma di file Hadoop. Un secondo compito centrale di Hive è la traduzione di interrogazioni HiveQL in incarichi MapReduce, Sparks e Tez.

Altre importanti funzioni di Hive comprendono:

Salvataggio di metadati in sistemi di gestione di database relazionali
Utilizzo di dati compressi in sistemi Hadoop
UDF (User Defined Functions) per l’elaborazione personalizzata di dati e il data mining.
Supporto per tipi di memoria come RCFile, testo o HBase
Uso di MapReduce e supporto ETL

Cos’è HiveQL?

Quando si parla di Hive, spesso lo si descrive come “simile a SQL”. Il linguaggio di database HiveQL, basato su SQL, viene definito così perché questo non soddisfa al 100% standard quali SQL-92. Pertanto, HiveQL può essere inteso come una specie di dialetto SQL o MySQL. Nonostante le numerose somiglianze, i due linguaggi si differenziano per alcuni punti essenziali. Così, HiveQL sostiene solo in parte numerose funzioni SQL per transazioni o subqueries, mentre con alcune estensioni come Multitable Inserts assicura una migliore scalabilità e performance con il framework Hadoop. La traduzione di interrogazioni HiveQL in MapReduce, Tez e Spark viene eseguita dall’Apache Hive Compiler.

Consiglio

Usa un server dedicato con potenti processori Intel o AMD senza dover investire in un’infrastruttura IT all’interno della tua azienda; scegli i server di IONOS.

Sicurezza dei dati e Apache Hive

Mediante l’integrazione di Apache Hive nei sistemi Hadoop approfitti anche del servizio di autenticazione Kerberos. Questo consente l’autenticazione e la verifica chiara e reciproca del server e degli utenti. Poiché HDFS imposta anche i permessi per i nuovi file Hive sarai tu a gestire l’autorizzazione di utenti e di gruppi. Un ulteriore aspetto relativo alla sicurezza: in caso di necessità, Hive offre un ripristino di emergenza per carichi di lavoro critici.

Quali vantaggi offre Apache Hive?

Hive offre numerose funzioni utili soprattutto per quanto riguarda il lavoro con grandi quantità di dati nel cloud computing o in caso di Big Data as a Service:

Interrogazioni ad-hoc
Analisi di dati
Creazione di tabelle e partizioni
Supporto per collegamenti logici, relazionali e aritmetici
Monitoraggio e verifica di transazioni
Report di fine giornata
Caricamento di risultati delle interrogazioni nei cataloghi HDFS
Trasferimento di dati delle tabelle in directory locali

Fra i vantaggi principali annoveriamo:

La capacità di ottenere approfondimenti qualitativi su grandi quantità di dati, ad esempio il data mining e l’apprendimento automatico
Scalabilità ottimizzata, efficienza dei costi ed espansibilità del framework Hadoop
Segmentazione di gruppi di utenti attraverso analisi clickstream
Grazie a HiveQL non sono necessarie conoscenze approfondite delle tecniche di programmazione Java
Vantaggio competitivo grazie a prestazioni e reattività più rapide e scalabili
La capacità di memorizzare fino a centinaia di petabyte di dati e di eseguire fino a 100.000 interrogazioni di dati all’ora, anche senza un’infrastruttura di alto livello
Migliore utilizzo delle risorse grazie alla capacità di virtualizzazione e, di conseguenza, tempi di calcolo e di caricamento più rapidi a seconda dei carichi di lavoro
Sicurezza dei dati efficace e tollerante agli errori grazie a migliori opzioni di disaster recovery e al servizio di autenticazione Kerberos
Facoltà di accelerare l’inserimento dei dati eliminando la necessità di adattarli ai formati interni dei database (Hive legge e analizza i dati anche senza una modifica manuale del formato)
Funziona secondo il principio dell’open source

Quali svantaggi offre Apache Hive?

Fra gli svantaggi di Apache Hive vi è in prima linea il fatto che esistono già numerosi sistemi che offrono simili e migliori prestazioni. Nell’amministrazione e nell’uso di database, Hive è considerato dagli esperti e dalle esperte sempre meno utile e rilevante.

Ulteriori svantaggi di Hive sono:

Impossibilità di accesso ai dati in tempo reale
Elaborazione complessa e aggiornamento di database grazie al framework Hadoop con MapReduce
Latenza elevata e quindi, per i canoni odierni, maggiore lentezza rispetto ai sistemi della concorrenza

L’architettura di Hive: una panoramica

I principali componenti dell’architettura Hive sono:

Metastore: è il luogo centrale di Hive in cui vengono salvati i dati, dove si trovano tutti i dati e le informazioni in formato RDBMS, come le definizioni delle tabelle, la posizione dello schema e delle directory e i metadati delle partizioni.
Driver: accetta i comandi HiveQL e li elabora con i componenti compiler (raccoglie le informazioni), optimizer (determina il metodo di esecuzione migliore) ed executor (esegue il compito).
Command Line + User Interface: interfaccia per utenti esterni
Thrift Server: consente ai client esterni di comunicare con Hive e permette ai protocolli JDBC e ODBC di interagire e comunicare mediante la rete

Per l’elaborazione e l’interrogazione di grandi quantità di dati Hive offre numerosi vantaggi alla tua azienda.

Come è nato Apache Hive?

Apache Hive è stato progettato per semplificare il lavoro con insiemi di dati da petabyte anche per gli utenti che non hanno conoscenze approfondite di SQL. È stato ideato e sviluppato da Joydeep Sen Sharma e Ashish Thusoo che nel 2007, mentre lavoravano per Facebook, hanno sviluppato Hive per il framework Hadoop di Facebook, uno dei principali al mondo con diverse centinaia di petabyte. Nel 2008 Facebook ha ceduto il progetto Hive alla comunità open source. La versione 1.0 è stata rilasciata nel febbraio 2015.

Articoli popolari

Vendere domini: come guadagnare con i domini?

Comprare e vendere domini può essere un'attività lucrativa, se si sa come procedere. Vi…

5 alternative a Nextcloud a confronto

Scopri le migliori alternative a Nextcloud, ideali per diverse esigenze di archiviazione…

I 7 migliori servizi di backup online a confronto

Salva i tuoi dati al sicuro nel cloud. Ti presentiamo 7 servizi per proteggere i tuoi…

Aggiornamento a Debian 13: come funziona

Questa guida ti mostra come eseguire un aggiornamento a Debian 13, preparare il tuo…

4 alternative gratuite a InDesign di Adobe

I software Adobe sono troppo costosi? Sul web sono disponibili alcune alternative gratuite…

Articoli simili

Alex Tihonovsshutterstock

Cos’è Apache? Il server web flessibile

Quasi la metà di tutti i siti web al mondo usa il server web Apache. In questo articolo ti spieghiamo cos’è esattamente Apache, come funziona il software e cosa rende questa soluzione così adatta ai siti web. Inoltre, ti illustriamo i vantaggi e gli svantaggi di questo server web…

Lessico
Apache

GaudiLabShutterstock

Come installare il web server Apache su Ubuntu

Il web server Apache è una scelta apprezzata per l’hosting di un sito web grazie ai suoi potenti moduli e al suo codice sorgente aperto. In questa guida passo per passo scoprirai come installare e configurare Apache su Ubuntu. Inoltre, ti indichiamo i pacchetti necessari e ti…

Tutorial
Apache

Oleksiy Markshutterstock

Apache Spark: definizione e funzioni

Se desideri interrogare ed elaborare grandi quantità di dati in modo efficace e affidabile hai a disposizione diversi motori analitici. Uno dei più popolari e veloci è Spark, il framework open source per Big Data della Apache Software Foundation. Ti spieghiamo come funziona…

Lessico
Apache

bluebayShutterstock

Apache Hadoop: architettura di archiviazione per grandi quantità di dati

Volete eseguire processi di calcolo complessi con grandi quantità di dati? È proprio la specialità di Hadoop, il framework per i Big Data. Il software Apache open source offre una struttura basata su Java con la quale si possono eseguire parallelamente diverse applicazioni per i…

Linux
Apache

Apache Hive: de­fi­ni­zio­ne e utilizzo

Cos’è Apache Hive?

Come funziona Hive?

Hive si basa sul principio schema-on-read

Com’è possibile lavorare con i dati in Hive?

Le prin­ci­pa­li funzioni di Hive

Cos’è HiveQL?

Sicurezza dei dati e Apache Hive

Quali vantaggi offre Apache Hive?

Quali svantaggi offre Apache Hive?

L’ar­chi­tet­tu­ra di Hive: una pa­no­ra­mi­ca

Come è nato Apache Hive?

Apache Hive: definizione e utilizzo

Le principali funzioni di Hive

L’architettura di Hive: una panoramica