I sistemi di supporto de­ci­sio­na­le hanno una lunga tra­di­zio­ne nel mondo degli affari. Già dagli anni '60 le aziende uti­liz­za­no metodi di analisi per ottenere dati che servano a sup­por­ta­re il ma­na­ge­ment con report, modelli e pre­vi­sio­ni e che siano quindi stra­te­gi­ca­men­te rilevanti per i processi aziendali.

I sistemi in­for­ma­ti­vi coinvolti in­cor­po­ra­no concetti come quelli di MIS (Ma­na­ge­ment In­for­ma­tion System), DSS (Decision Support Systems) ed EIS (Executive In­for­ma­tion System). Poiché si tratta di processi difficili da di­stin­gue­re l'uno dal­l'al­tro, a partire dagli anni '90 sono stati rag­grup­pa­ti sotto il termine generale di Business In­tel­li­gen­ce (BI) nel­l'am­bi­to operativo e della com­mer­cia­liz­za­zio­ne dei prodotti.

Fatto

Business In­tel­li­gen­ce (BI) è un termine generale per la pre­pa­ra­zio­ne e l'analisi dei dati grezzi con il supporto dell'in­for­ma­tion tech­no­lo­gy. La BI serve per produrre co­no­scen­ze utili sulle quali basare le decisioni in materia di strategia aziendale.

Oggi la base di dati ne­ces­sa­ria alla tec­no­lo­gia BI per assistere nel processo di decisione viene so­li­ta­men­te messa a di­spo­si­zio­ne da un magazzino centrale, chiamato data warehouse. Di seguito vi pre­sen­tia­mo i concetti fon­da­men­ta­li del data ware­hou­sing, mostrando l'ar­chi­tet­tu­ra di tale sistema in­for­ma­ti­vo e pre­sen­tan­do i provider più affermati di soluzioni DWH com­mer­cia­li e qualche al­ter­na­ti­va open source gratuita.

Che cos'è un data warehouse?

Un data warehouse (DWH), che si può tradurre in italiano con "magazzino di dati", è un sistema di database in­di­pen­den­te dai sistemi operativi di ela­bo­ra­zio­ne dati in cui vengono raccolti, compressi e ar­chi­via­ti dati storici pro­ve­nien­ti da fonti diverse ed ete­ro­ge­nee. Molte aziende tra­sfe­ri­sco­no re­go­lar­men­te i dati ar­chi­via­ti dai sistemi operativi in questi magazzini con lo scopo di tenerli pronti per eventuali suc­ces­si­ve analisi stra­te­gi­che nel­l'am­bi­to della Business In­tel­li­gen­ce (BI).

  • Dati operativi: i dati operativi sono in­for­ma­zio­ni tran­sa­zio­na­li generate dai sistemi am­mi­ni­stra­ti­vi e contabili nel corso delle attività quo­ti­dia­ne delle aziende. Le fonti tipiche di questi dati sono i sistemi operativi come i programmi contabili e di gestione merci, l'En­ter­pri­se resource planning (ERP, in italiano "pia­ni­fi­ca­zio­ne delle risorse d'impresa"), i sistemi in­for­ma­ti­vi aziendali e i software di or­di­na­zio­ne.
     
  • Dati pia­ni­fi­ca­ti: i dati pia­ni­fi­ca­ti sono i dati operativi ottenuti in seguito al processo di raccolta, ar­chi­via­zio­ne e or­ga­niz­za­zio­ne per l'analisi.

Un DWH offre agli analisti una visione completa di dati ete­ro­ge­nei e consente l'ag­gre­ga­zio­ne di numeri operativi chiave nel campo dell'On-Line Ana­ly­ti­cal Pro­ces­sing (OLAP), fungendo da punto di raccolta centrale di tutti i dati che servono al knowledge ma­na­ge­ment. Di norma agli utenti viene au­to­riz­za­to l'accesso in sola lettura. Un magazzino di dati funziona inoltre come base per il data mining e come ri­fe­ri­men­to per tutte le con­si­de­ra­zio­ni di gestione della per­for­man­ce e di orien­ta­men­to stra­te­gi­co del­l'im­pre­sa.

L'ar­chi­tet­tu­ra di un data warehouse

Il processo di gestione e va­lu­ta­zio­ne dei dati da parte di un DWH si chiama data ware­hou­sing e comprende le seguenti fasi:

  1. Ac­qui­si­zio­ne e in­te­gra­zio­ne dei dati
  2. Ar­chi­via­zio­ne dei dati
  3. Va­lu­ta­zio­ne e analisi dei dati

Le fasi del data ware­hou­sing si ri­flet­to­no nella struttura ideale dei sistemi di data warehouse, la co­sid­det­ta ar­chi­tet­tu­ra di ri­fe­ri­men­to. Sebbene questa possa differire a seconda del software e dello svi­lup­pa­to­re, la struttura tecnica si basa so­stan­zial­men­te su un modello modulare che si può sud­di­vi­de­re in tre livelli:

  • Livello di ac­qui­si­zio­ne dei dati
  • Livello di ar­chi­via­zio­ne dei dati
  • Livello di pre­sen­ta­zio­ne dei dati

È presente inoltre una com­po­nen­te di controllo centrale: il data warehouse manager, che assegna funzioni speciali di am­mi­ni­stra­zio­ne a ogni livello del DWH. È im­por­tan­te notare che i singoli com­po­nen­ti di un data warehouse non devono ne­ces­sa­ria­men­te provenire da un unico fornitore.

Il grafico che segue rap­pre­sen­ta sche­ma­ti­ca­men­te l'ar­chi­tet­tu­ra di ri­fe­ri­men­to di un DWH:

Ac­qui­si­zio­ne dei dati

Prima di caricare i dati nel DWH, è ne­ces­sa­rio co­di­fi­car­li in modo uniforme. Un data warehouse si alimenta dei dati pro­ve­nien­ti sia da fonti interne al­l'a­zien­da sia da fonti esterne:

  • Dati interni: sistemi di En­ter­pri­se resource planning (ERP), Customer re­la­tion­ship ma­na­ge­ment (CRM) e Content ma­na­ge­ment (CMS), banche dati operative, flat file (es. Excel, CSV, file di testo), e-mail, etc.
  • Dati esterni: ap­pli­ca­zio­ni e sistemi di fornitori esterni, siti web/Internet, social media, servizi cloud, etc.

I sistemi a livello di data entry for­ni­sco­no in­ter­fac­ce per i sistemi operativi aziendali e vengono uti­liz­za­ti nella prima fase di im­ma­gaz­zi­na­men­to dei dati: le funzioni prin­ci­pa­li di questo com­po­nen­te del DWH sono l'ac­qui­si­zio­ne e l'in­te­gra­zio­ne dei dati.

Per la raccolta dei dati si uti­liz­za­no le seguenti tecniche di estra­zio­ne:

  • Trigger: nel caso in cui i sistemi operativi aziendali sup­por­ti­no trigger di database, questi possono essere uti­liz­za­ti per au­to­ma­tiz­za­re l'e­stra­zio­ne dei dati. I trigger con­sen­to­no di definire le ope­ra­zio­ni che verranno eseguite au­to­ma­ti­ca­men­te al ve­ri­fi­car­si di de­ter­mi­na­ti eventi. Gli eventi sca­te­nan­ti sono so­li­ta­men­te i cam­bia­men­ti nel set di dati dei sistemi sorgente che portano al­l'e­stra­zio­ne dei dati mo­di­fi­ca­ti nel DWH.
  • File di registro: se un sistema operativo non supporta la tec­no­lo­gia trigger, il livello di ac­qui­si­zio­ne dati di un DWH può contenere programmi in grado di valutare i file di registro (log) dei sistemi sorgente ed estrarre le ope­ra­zio­ni in esso re­gi­stra­te.
  • Programmi di mo­ni­to­rag­gio: se per l'e­stra­zio­ne non sono di­spo­ni­bi­li né trigger né file di registro, vengono di solito impiegati programmi di mo­ni­to­rag­gio. Questi estrag­go­no i cam­bia­men­ti nel set di dati di un sistema operativo uti­liz­zan­do algoritmi che generano istan­ta­nee dei dati da mo­ni­to­ra­re a in­ter­val­li regolari e li con­fron­ta­no con quelli pre­ce­den­ti.

Qualora non sia possibile uti­liz­za­re alcuna delle tecniche sopra men­zio­na­te, non essendo possibile accedere ai dati dei sistemi tran­sa­zio­na­li, sarà ne­ces­sa­rio re­gi­stra­re le modifiche in modo autonomo e tra­sfe­rir­le in seguito al warehouse.

La maggior parte dei DWH fornisce fun­zio­na­li­tà OLAP nel­l'am­bi­to del­l'in­te­gra­zio­ne dei dati, che con­sen­to­no di vi­sua­liz­za­re i dati in strutture mul­ti­di­men­sio­na­li. L'On-Line Ana­ly­ti­cal Pro­ces­sing (OLAP) è un metodo di analisi che serve a sin­te­tiz­za­re i dati aziendali rilevanti per la gestione. La procedura si basa sul processo ETL:

  • E = Ex­trac­tion (estra­zio­ne): l'e­stra­zio­ne dei dati comporta la selezione di in­for­ma­zio­ni rilevanti pro­ve­nien­ti da diverse fonti e può essere rea­liz­za­ta con la tecnica push o pull. Se l'e­stra­zio­ne dei dati segue la strategia push, le fonti vengono spinte a generare estratti a in­ter­val­li regolari e a tra­sfe­rir­li al DWH. Nel caso della strategia pull, è il DWH ad attivare l'e­stra­zio­ne dei dati.
  • T = Tran­sfor­ma­tion (tra­sfor­ma­zio­ne): i dati estratti vengono nor­ma­liz­za­ti e tradotti nel formato del database di de­sti­na­zio­ne.
  • L = Loading (ca­ri­ca­men­to): la fase di ca­ri­ca­men­to prevede il sal­va­tag­gio dei dati tra­sfor­ma­ti nei ri­spet­ti­vi database di de­sti­na­zio­ne del DWH.

Il livello di ac­qui­si­zio­ne dati di un DWH può contenere una staging area (detta anche area di lavoro). Si tratta di una sezione tem­po­ra­nea del database in cui i dati da caricare vengono pre-elaborati. Questa fase è ne­ces­sa­ria so­prat­tut­to in caso di processi ETL complessi.

Dal momento che il DWH combina dati pro­ve­nien­ti da un'ampia varietà di fonti, l'in­te­gra­zio­ne dei dati si basa su vari strumenti che con­sen­to­no la tra­sfor­ma­zio­ne e la pulizia dei dati estratti. Questi dati possono essere assegnati alle seguenti categorie:

  • Strumenti di mi­gra­zio­ne dei dati: i programmi per la mi­gra­zio­ne dei dati con­sen­to­no di definire semplici regole di tra­sfor­ma­zio­ne per con­ver­ti­re dati sorgente ete­ro­ge­nei in un unico formato di de­sti­na­zio­ne.
     
  • Strumenti di data scrubbing: lo scrubbing dei dati utilizza programmi basati sulla logica fuzzy e sulle reti neurali. L'o­biet­ti­vo è mi­glio­ra­re la qualità dei dati cor­reg­gen­do errori, lacune e ri­pe­ti­zio­ni mediante regole, algoritmi e lookup table (LUT) pre­de­fi­ni­ti. In questo casi si parla anche di quality ma­na­ge­ment (gestione della qualità).
     
  • Strumenti di data auditing: gli strumenti di data auditing vengono impiegati nel­l'in­te­gra­zio­ne dei dati per de­ter­mi­na­re le regole e le relazioni tra i dati stessi. Programmi di questo tipo per­met­to­no anche di iden­ti­fi­ca­re i dati che violano le regole pre­de­fi­ni­te e quindi possono contenere errori.

L'in­te­gra­zio­ne è seguita dal tra­sfe­ri­men­to dei dati estratti al database centrale, il co­sid­det­to core data warehouse. Questo passaggio è sup­por­ta­to da programmi re­spon­sa­bi­li delle seguenti funzioni:

  • Con­trol­la­re l'in­te­gri­tà dei dati
  • Rior­ga­niz­za­re i dati
  • Calcolare le ag­gre­ga­zio­ni dei dati
  • Calcolare le strutture di accesso
  • Ef­fet­tua­re la par­ti­zio­ne dei dati per un accesso ef­fi­cien­te

Ar­chi­via­zio­ne dei dati

Il livello di me­mo­riz­za­zio­ne dei dati è il cuore del DWH e include il co­sid­det­to core data warehouse. I dati estratti vengono so­li­ta­men­te me­mo­riz­za­ti nel DWH sotto forma di array mul­ti­di­men­sio­na­li (matrici), i co­sid­det­ti schemi a stella e a fiocco di neve, e con­ser­va­ti in modo per­ma­nen­te per le analisi future. Tuttavia questi si ri­fe­ri­sco­no raramente al­l'in­te­ro stock del DWH: per una va­lu­ta­zio­ne ef­fi­cien­te è quindi prassi comune creare estratti del­l'in­te­ro set di dati, co­no­sciu­ti come data mart.

Un data mart è una copia di un set di dati, im­ple­men­ta­to di regola come memoria tem­po­ra­nea. Tuttavia possono essere uti­liz­za­ti anche i co­sid­det­ti data mart in­di­pen­den­ti, che man­ten­go­no sempre di­spo­ni­bi­li delle spe­ci­fi­che sezioni di dati.

Uno schema a stella è un tipo di diagramma entità-as­so­cia­zio­ne (Entity-re­la­tion­ship diagram, ERD), una rap­pre­sen­ta­zio­ne grafica della struttura a tabelle di un database in cui sono il­lu­stra­te le diverse entità e le relazioni che tra esse in­ter­cor­ro­no. Lo schema a stella viene uti­liz­za­to per vi­sua­liz­za­re strutture di dati mul­ti­di­men­sio­na­li.

Ogni schema a stella è co­sti­tui­to da una tabella dei fatti intorno alla quale sono rag­grup­pa­te, a forma di stella, diverse tabelle delle di­men­sio­ni.

  • La tabella dei fatti contiene i co­sid­det­ti fatti: cifre chiave e risultati di un'a­zien­da re­gi­stra­ti su base con­ti­nua­ti­va (es. dati di vendita)
  • Le tabelle delle di­men­sio­ni con­ten­go­no gli attributi uti­liz­za­bi­li per de­scri­ve­re i dati presenti nella tabella dei fatti, vale a dire una raccolta di in­for­ma­zio­ni relative agli eventi me­mo­riz­za­ti.

In uno schema a stella (star schema), solo la tabella dei fatti è collegata a tutte le tabelle delle di­men­sio­ni at­tra­ver­so relazioni con chiavi esterne. Non vengono invece stabiliti col­le­ga­men­ti tra le tabelle delle di­men­sio­ni. Il grafico seguente rap­pre­sen­ta in modo sem­pli­fi­ca­to questa struttura di dati:

Nello schema sopra, il fatto "vendite" (sales) viene mostrato in relazione a uno specifico canale di vendita (sales channel), a un prodotto (product), a un venditore (seller), alla regione (region), al cliente (customer) o al periodo (date). Una domanda a tre di­men­sio­ni potrebbe essere ad esempio: quanto fatturato è stato rea­liz­za­to con un de­ter­mi­na­to prodotto nel 2016 at­tra­ver­so il canale di vendite online?

Un'e­sten­sio­ne dello schema a stella è lo schema a fiocco di neve (snowflake schema). Mentre le tabelle delle di­men­sio­ni di uno schema a stella hanno forma de­nor­ma­liz­za­ta, in uno schema a fiocco di neve le in­for­ma­zio­ni sono pre­sen­ta­te secondo la terza forma normale (3NF). Si dà luogo quindi a una clas­si­fi­ca­zio­ne e ge­rar­chiz­za­zio­ne dei dati, in cui le in­for­ma­zio­ni ri­don­dan­ti vengono tra­sfe­ri­te in nuove tabelle. Ne risulta la ca­rat­te­ri­sti­ca ra­mi­fi­ca­zio­ne, che ricorda appunto un fiocco di neve.

Rispetto ai modelli a stella, i modelli a fiocco di neve sono ca­rat­te­riz­za­ti da un minore consumo di spazio di ar­chi­via­zio­ne, con­se­guen­za della me­mo­riz­za­zio­ne nor­ma­liz­za­ta dei dati. La nor­ma­liz­za­zio­ne consiste nella rimozione dalle tabelle di colonne ri­don­dan­ti, al fine di evitare la du­pli­ca­zio­ne delle voci. La riduzione delle ri­don­dan­ze riduce anche lo sforzo ne­ces­sa­rio per la ma­nu­ten­zio­ne dei dati: nella migliore delle ipotesi, ogni in­for­ma­zio­ne è presente solo una volta e, se ne­ces­sa­rio, mo­di­fi­ca­ta solo una volta nell’intero sistema.

La con­ser­va­zio­ne dei dati in tabelle nor­ma­liz­za­te conduce ine­vi­ta­bil­men­te a strutture di dati più complesse, che allungano so­li­ta­men­te tempi necessari per un’in­ter­ro­ga­zio­ne. Se gli analisti vogliono accedere ai dati in uno schema a fiocco di neve, le tabelle di­men­sio­na­li mul­ti­li­vel­lo devono prima essere collegate in un join (gruppo).

Fatto

Un join è un'o­pe­ra­zio­ne che permette di collegare at­tra­ver­so chiavi esterne le tabelle di un database a de­ter­mi­na­te con­di­zio­ni.

In pratica la struttura dei dati di un DWH si basa sullo schema a fiocco di neve, mentre i singoli data mart sono rea­liz­za­ti come schemi a stella.

I diagrammi a stella e a fiocco di neve sono chiamati tabelle delle di­men­sio­ni, poiché ogni tabella può essere rap­pre­sen­ta­ta come una di­men­sio­ne di un cubo OLAP mul­ti­di­men­sio­na­le. Ciò consente agli analisti di con­fron­ta­re i fatti me­mo­riz­za­ti nel DWH in base a tutti i criteri di ri­fe­ri­men­to di­spo­ni­bi­li, al fine di ana­liz­za­re le in­for­ma­zio­ni chiave dell’attività com­mer­cia­le, come ad esempio le vendite, in maniera mul­ti­di­men­sio­na­le da diversi punti di vista e con diversi gradi di dettaglio.

La figura seguente rap­pre­sen­ta sche­ma­ti­ca­men­te un cubo OLAP tri­di­men­sio­na­le i cui lati delineano le di­men­sio­ni Product (prodotto), sales channel (canale di vendita) e Time period (periodo di tempo). La lunghezza dei lati del cubo dipende dal numero di celle. Ogni cella cubica contiene esat­ta­men­te un valore, ad esempio il fatturato del­l'as­si­cu­ra­zio­ne sulla salute nel 2016 at­tra­ver­so il canale delle vendite in filiale (evi­den­zia­to in bianco nel grafico).

Il metodo OLAP non è limitato alle tre di­men­sio­ni. Questo cubo di dati è n-di­men­sio­na­le e può, in linea di principio, essere co­sti­tui­to da un numero il­li­mi­ta­to di di­men­sio­ni.

Fatto

A seconda della tec­no­lo­gia su cui si basa il data warehouse centrale, si distingue fra tre metodi OLAP diversi. Se il cubo accede ai dati in un database re­la­zio­na­le, si chiama ROLA (OLAP re­la­zio­na­le). I cubi che invece si basano su database mul­ti­di­men­sio­na­li sono chiamati MOLAP (OLAP mul­ti­di­men­sio­na­li).

Livello di pre­sen­ta­zio­ne dei dati

Il livello di pre­sen­ta­zio­ne dei dati funziona da in­ter­fac­cia per le ap­pli­ca­zio­ni finali e gli strumenti di pre­sen­ta­zio­ne. I metodi per la va­lu­ta­zio­ne e l'analisi dei dati vengono messi a di­spo­si­zio­ne del­l'u­ten­te finale con vari strumenti. In questo modo è possibile estrarre le in­for­ma­zio­ni dal data pool del DWH e pre­pa­rar­le per gli utenti in formati di vi­sua­liz­za­zio­ne diversi. Lo spettro va dai tool di reporting e in­ter­ro­ga­zio­ne agli strumenti di col­la­bo­ra­zio­ne, data mining, di ela­bo­ra­zio­ne analitica online (OLAP) fino ai sistemi in­for­ma­ti­vi esecutivi (EIS) e gli strumenti di pre­vi­sio­ne e si­mu­la­zio­ne.

Strumenti di reporting e in­ter­ro­ga­zio­ne

Gli strumenti di reporting for­ni­sco­no agli utenti finali varie funzioni per la creazione di report standard pre­de­fi­ni­ti (pre­de­fi­ned re­por­tings). Questo può essere fatto in au­to­ma­ti­co a in­ter­val­li regolari o su richiesta. Per rendere l'in­ter­ro­ga­zio­ne del DWH più facile per gli utenti, è anche possibile pre­de­fi­ni­re gli strumenti di reporting at­tra­ver­so sistemi di richiesta.

Strumenti di col­la­bo­ra­zio­ne

Gli strumenti di col­la­bo­ra­zio­ne sup­por­ta­no la co­mu­ni­ca­zio­ne e la col­la­bo­ra­zio­ne degli utenti finali nel campo del­l'a­na­li­si dei dati. Lo spettro fun­zio­na­le di questi tool include, ad esempio, la me­mo­riz­za­zio­ne delle note e lo scambio dei risultati delle analisi.

Strumenti di data mining

Con il termine data mining si intendono tutti i metodi di analisi non di­re­zio­na­li, par­zial­men­te au­to­ma­tiz­za­ti, che mirano a iden­ti­fi­ca­re i modelli, i trend e le relazioni più im­por­tan­ti al­l'in­ter­no di un database.

Gli strumenti di data mining si basano su metodi sta­ti­sti­ci e ma­te­ma­ti­ci, nonché su tecniche di in­tel­li­gen­za ar­ti­fi­cia­le (AI) di machine learning. Il volume di dati che le aziende generano, elaborano e rac­col­go­no nei DWH a fini di analisi sta crescendo in modo espo­nen­zia­le – a livello mondiale, raddoppia ogni due anni. Ne risulta l'im­por­tan­za che il data mining ha assunto nel campo del data ware­hou­sing.

Strumenti di Online Ana­ly­ti­cal Pro­ces­sing (OLAP)

Tra gli strumenti di­spo­ni­bi­li per la va­lu­ta­zio­ne e l'analisi dei dati nel campo del data ware­hou­sing, le ap­pli­ca­zio­ni OLAP si sono affermate come in­ter­fac­ce utente standard. Queste mettono a di­spo­si­zio­ne degli utenti diverse funzioni uti­liz­za­bi­li per formulare richieste ad hoc al DWH e vengono uti­liz­za­te per navigare at­tra­ver­so il set mul­ti­di­men­sio­na­le di dati. Gli strumenti di Online Ana­ly­ti­cal Pro­ces­sing sono in grado di pre­sen­ta­re i dati secondo un qualsiasi numero di di­men­sio­ni pre­de­fi­ni­te: esistono infatti alcune ope­ra­zio­ni di base per mo­di­fi­ca­re un cubo OLAP.

  • Slicing: lo slicing è un processo in cui una di­men­sio­ne di un cubo OLAP viene ridotta a sot­toin­sie­me per essere vi­sua­liz­za­ta e ana­liz­za­ta se­pa­ra­ta­men­te.
    Nella figura seguente, la di­men­sio­ne Time Period viene limitata al 2015 e la sezione che ne risulta mostra le vendite in questo arco temporale di tutti i pacchetti as­si­cu­ra­ti­vi, at­tra­ver­so tutti i canali di vendita.
  • Dicing: il dicing consiste nel taglio di un cubo OLAP at­tra­ver­so più ope­ra­zio­ni di slicing si­mul­ta­nee che in­te­res­sa­no più di­men­sio­ni. In questo processo viene prodotto un cubo più piccolo rap­pre­sen­tan­te un sot­toin­sie­me del cubo originale.

    La figura seguente mostra un'o­pe­ra­zio­ne di dicing, at­tra­ver­so la quale dal cubo integrale viene estratto un cubo più piccolo.
  • Pivoting: il pivoting consiste nel ruotare il cubo OLAP in modo che almeno un'altra di­men­sio­ne diventi visibile.
  • Drill-down/Roll-Up: se si vogliono sud­di­vi­de­re le ag­gre­ga­zio­ni di un oggetto in­for­ma­ti­vo in valori più det­ta­glia­ti, entra in gioco l'o­pe­ra­zio­ne del drill-down. Essa consente agli analisti di in­gran­di­re un cubo OLAP, au­men­tan­do in questo modo la gra­nu­la­ri­tà dei dati. L'o­pe­ra­zio­ne inversa si chiama roll-up e consiste nel rias­su­me­re le in­for­ma­zio­ni in livelli ge­rar­chi­ca­men­te superiori. Drill-down e roll-up sono uti­liz­za­ti per la na­vi­ga­zio­ne in strutture ge­rar­chi­che mul­ti­di­men­sio­na­li.

    Il grafico seguente mostra un drill-down della di­men­sio­ne Products nel­l'am­bi­to delle vendite. La gra­nu­la­ri­tà è aumentata in modo che i dati sulle vendite me­mo­riz­za­ti nel DWH possano essere in­ter­pre­ta­ti in relazione ai singoli prodotti.
  • Drill-out/Split: Con questa ope­ra­zio­ne gli analisti sono in grado di ag­giun­ge­re un'ul­te­rio­re di­men­sio­ne al cubo OLAP, da cui ri­sul­te­ran­no dati più specifici. A dif­fe­ren­za del drill-down, il grado di dettaglio non aumenta in termini di gra­nu­la­ri­tà: piuttosto, le in­for­ma­zio­ni ri­sul­tan­ti dalle di­men­sio­ni aggiunte con­tri­bui­sco­no ad aumentare la quantità dei dati di­spo­ni­bi­li.
     
  • Drill-in/Merge: Ope­ra­zio­ne opposta al drill-out, il drill-in di un cubo OLAP ne riduce il livello di dettaglio ri­muo­ven­do una o più di­men­sio­ni. A dif­fe­ren­za del roll-up, in questo caso la riduzione di in­for­ma­zio­ni non è una con­se­guen­za della modifica del­l'os­ser­va­zio­ne, ma della rimozione delle di­men­sio­ni. La gra­nu­la­ri­tà rimane inal­te­ra­ta.
     
  • Drill-across: Anche l'o­pe­ra­zio­ne drill-across viene uti­liz­za­ta nel­l'a­na­li­si del set di dati. Mentre tuttavia le ope­ra­zio­ni viste sinora si ri­fe­ri­sco­no sempre ad un unico cubo OLAP, il drill-across viene applicato a più cubi di dati correlati al fine di ottenere un'a­na­li­si globale. Un numero qualsiasi di tabelle fattuali vengono ana­liz­za­te allo stesso livello ge­rar­chi­co e gra­nu­lo­me­tri­co (cioè man­te­nen­do inal­te­ra­to il livello di os­ser­va­zio­ne).
     
  • Drill-through: Il drill-through consiste nella selezione di una singola cella di un cubo di dati e nella sua analisi con il massimo livello di dettaglio. A dif­fe­ren­za del drill-down, questa ope­ra­zio­ne consente di accedere ai dati sorgente della cella cubica se­le­zio­na­ta. Il risultato deriva quindi dalle celle della tabella sulle quali si basa il calcolo delle celle se­le­zio­na­te.

Executive In­for­ma­tion Systems (EIS)

Gli strumenti EIS, si­mil­men­te a quelli OLAP, offrono agli utenti diverse opzioni per la for­mu­la­zio­ne di query ad hoc e la mo­del­la­zio­ne dei dati. La dif­fe­ren­za consiste nel fatto che il termine EIS è legato prin­ci­pal­men­te a sistemi ap­pli­ca­ti­vi pronti all'uso, che for­ni­sco­no rapporti pre­de­fi­ni­ti per spe­ci­fi­che aree di attività come le vendite, il marketing e la pia­ni­fi­ca­zio­ne fi­nan­zia­ria.

Strumenti di fo­re­ca­sting e si­mu­la­zio­ne

Gli strumenti di fo­re­ca­sting e si­mu­la­zio­ne con­sen­to­no agli utenti finali di impiegare i dati me­mo­riz­za­ti nel DWH per creare dei modelli di pre­vi­sio­ne.

Gestione di un data warehouse

Su tutti i livelli di un DWH sono attivi strumenti speciali, tutti ap­par­te­nen­ti al­l'am­bi­to della gestione del magazzino (warehouse ma­na­ge­ment). Queste com­po­nen­ti si occupano del­l'ar­chi­tet­tu­ra, della ma­nu­ten­zio­ne e della gestione delle funzioni am­mi­ni­stra­ti­ve ne­ces­sa­rie per l’im­ma­gaz­zi­na­men­to dei dati. I compiti prin­ci­pa­li di un DWH manager sono la pia­ni­fi­ca­zio­ne dei processi del magazzino di dati e il controllo del fun­zio­na­men­to dei metadati, della sicurezza e del sistema.

  • Sche­du­ling: lo sche­du­ling (pia­ni­fi­ca­zio­ne) è il controllo dei processi di un DWH. Le funzioni am­mi­ni­stra­ti­ve nel­l'am­bi­to della pia­ni­fi­ca­zio­ne possono essere ca­te­go­riz­za­te nel modo seguente in relazione ai livelli del­l'ar­chi­tet­tu­ra del data warehouse:
    • Ac­qui­si­zio­ne e in­te­gra­zio­ne dei dati: a livello di ac­qui­si­zio­ne dati, il DWH manager è re­spon­sa­bi­le della pro­get­ta­zio­ne e del­l'a­dat­ta­men­to dei processi ETL. Inoltre sono di­spo­ni­bi­li funzioni di am­mi­ni­stra­zio­ne per mo­ni­to­ra­re gli ag­gior­na­men­ti e per il controllo qualità.
       
    • Me­mo­riz­za­zio­ne dei dati: a livello di me­mo­riz­za­zio­ne dei dati, il DWH manager controlla che la memoria sia sfruttata al massimo, crea le tabelle di ag­gre­ga­zio­ne e gestisce le ope­ra­zio­ni di ar­chi­via­zio­ne e backup.
       
    • Pre­sen­ta­zio­ne dei dati: a questo livello, le funzioni del DWH manager includono la gestione degli utenti e il mo­ni­to­rag­gio dei tempi di ese­cu­zio­ne delle richieste.
       
  • Gestione dei metadati: Il re­po­si­to­ry dei metadati è una com­po­nen­te fon­da­men­ta­le del DWH manager. Esso contiene tutte le in­for­ma­zio­ni ne­ces­sa­rie per la co­stru­zio­ne e il fun­zio­na­men­to del DWH. I metadati me­mo­riz­za­ti nel re­po­si­to­ry includono, ad esempio, la de­fi­ni­zio­ne dello schema del database, le in­for­ma­zio­ni sulle strutture di memoria, i percorsi di accesso e le di­men­sio­ni dei file, i metadati che de­scri­vo­no le fonti dei dati e i tempi di ag­gior­na­men­to, le regole di pulizia e tra­sfor­ma­zio­ne dei dati, gli indici e le tabelle di par­ti­zio­ne. Inoltre, il DWH Manager assicura lo scambio di metadati tra i singoli com­po­nen­ti del DWH e fornisce quindi una base di metadati omogenea.
     
  • Gestione della sicurezza: la gestione della sicurezza comprende diversi servizi di au­ten­ti­ca­zio­ne degli utenti, au­to­riz­za­zio­ne e crit­to­gra­fia.
     
  • Gestione del sistema: Nel­l'am­bi­to della gestione del sistema, il DWH manager offre diverse funzioni am­mi­ni­stra­ti­ve che servono al fun­zio­na­men­to del data warehouse. Queste includono, ad esempio, il mo­ni­to­rag­gio (per­for­man­ce, sfrut­ta­men­to massimo, etc.), l'ar­chi­via­zio­ne dei dati e il backup.

Data Ware­hou­sing e pro­te­zio­ne dei dati

L'ag­gre­ga­zio­ne su larga scala di dati operativi, aziendali o relativi ai clienti, nonché l'analisi di enormi quantità di dati con il supporto dei metodi di data mining o delle ap­pli­ca­zio­ni OLAP, sono per le imprese un'ottima occasione di ot­ti­miz­za­re i processi interni in maniera duratura. Ma oltre agli in­di­scu­ti­bi­li vantaggi che l'analisi dei big data comporta in termini di processi de­ci­sio­na­li, non mancano le pre­oc­cu­pa­zio­ni sollevate dagli esperti in materia di pro­te­zio­ne dei dati e dovute ai rischi connessi a tale analisi, in par­ti­co­la­re per quanto concerne il diritto fon­da­men­ta­le al­l'au­to­de­ter­mi­na­zio­ne in­for­ma­ti­va e la tutela della privacy.

Le critiche ri­guar­da­no so­prat­tut­to questioni delicate come la pos­si­bi­li­tà, offerta dal­l'a­na­li­si dei dati, di creare profili della per­so­na­li­tà degli utenti e pre­ve­der­ne i com­por­ta­men­ti futuri. Il dibattito si concentra anche sul po­ten­zia­le di ma­ni­po­la­zio­ne delle in­for­ma­zio­ni ottenute dall’analisi dei dati.

A partire da maggio 2018 è entrato in vigore il nuovo Re­go­la­men­to Europeo relativo al trat­ta­men­to dei dati personali, che regolano in modo re­strit­ti­vo l’ar­chi­via­zio­ne e il trat­ta­men­to dei dati, ponendo l’accento sul consenso informato dell’utente e sulla pos­si­bi­li­tà da parte dell’utente di eliminare questi dati. Con questo nuovo re­go­la­men­to si prende atto del fatto che i dati personali sono un nuovo e re­mu­ne­ra­ti­vo oggetto di mercato, e ci si preoccupa di tutelare l’individuo dai possibili attacchi alla libertà personale connessi a questo nuovo mercato.

Questi i punti fon­da­men­ta­li:

  • Principio di ac­coun­ta­bi­li­ty: chi raccoglie i dati è ora ritenuto “ac­coun­ta­ble”, cioè re­spon­sa­bi­le delle misure opportune per tutelare i diritti dell’utente e per evitare vio­la­zio­ni. Queste misure possono com­pren­de­re ad esempio la cifratura dei dati;
  • L’utente deve sempre poter dare il proprio consenso esplicito e ha diritto a sapere chi uti­liz­ze­rà i suoi dati, per quanto tempo e per quali scopi;
  • L’utente deve poter revocare il proprio consenso in qualsiasi momento

L’in­tro­du­zio­ne di un re­spon­sa­bi­le pro­te­zio­ne dati e le multe previste per ina­dem­pien­ze te­sti­mo­nia­no la serietà con cui l’argomento è preso in con­si­de­ra­zio­ne.

Software di data warehouse

Di data ware­houe­sing non si discute più soltanto ai piani alti delle grandi aziende: anche le piccole e medie imprese (PMI) hanno l'op­por­tu­ni­tà di ot­ti­miz­za­re i processi at­tra­ver­so l'analisi dei big data. Oltre alle costose suite BI e alle soluzioni DHW integrate, sono da qualche anno di­spo­ni­bi­li sul mercato prodotti entry level a basso costo, servizi cloud fles­si­bi­li e ap­pli­ca­zio­ni open source complete che si adattano so­prat­tut­to alle esigenze delle imprese di medie di­men­sio­ni.

Prodotti a pagamento per il data ware­hou­sing

Un software BI è ge­ne­ral­men­te ca­rat­te­riz­za­to da elevata af­fi­da­bi­li­tà, da una gamma di servizi con­cor­da­ti sulla base di un service level agreement (SLA) e da un'as­si­sten­za pro­fes­sio­na­le. Gli ac­qui­ren­ti devono con­si­de­ra­re la va­ria­bi­li­tà dei costi in base al fatto che il prodotto venga ac­qui­sta­to o uti­liz­za­to di­ret­ta­men­te su cloud.

L'elenco seguente è una pa­no­ra­mi­ca sui prodotti a pagamento per il data ware­hou­sing: si tratta dei software dei prin­ci­pa­li provider, pre­sen­ta­ti in ordine al­fa­be­ti­co.

Fornitori del software pro­prie­ta­rio Prodotti di data ware­ho­sing
Amazon Web Services Amazon Redshift
Cloudera Cloudera En­ter­pri­se
Hewlett Packard En­ter­pri­se HP Vertica, HP ArcSight Data-Platform, HP Haven OnDemand, HP IDOL, HP Key View
IBM IBM Netezza, IBM PureData System, IBM In­fo­Sphe­re DataStage
Microsoft SQL Server, Microsoft Analytics Platform System, Azure HDInsight for Hadoop
Oracle Oracle Business In­tel­li­gen­ce, Oracle Database, Oracle Exadata Database Machine, Oracle NoSQL Database,Oracle TimesTen In-Memory Database, Oracle Big Data Appliance
Pivotal Software Pivotal Greenplum, Pivotal Big Data Suite, Pivotal HDB (powered by Apache HAWQ), Pivotal HDP (OEM Hor­ton­sworks Data Platform)
SAP SAP NetWeaver Business In­tel­li­gen­ce, SAP IQ, SAP HANA En­ter­pri­se Cloud
SAS SAS Data Ma­na­ge­ment, SAS Access Interface to Hadoop, SAS Fe­de­ra­tion Server, SAS Data Loader for Hadoop, SAS Event Stream Pro­ces­sing
Snowflake Computing Snowflake
Teradata Teradata Active En­ter­pri­se Data Warehouse, Teradata Data Warehouse Appliance, Teradata Appliance for Hadoop, Teradata In­te­gra­ted Big Data Platform, Teradata Aster Big Analytics Appliance

Soluzioni open source

Oltre ai prodotti a pagamento, sono di­spo­ni­bi­li sul mercato alcuni software di business in­tel­li­gen­ce open source che offrono soluzioni gratuite per il data ware­hou­sing. Nella pa­no­ra­mi­ca che segue, tratta da una pub­bli­ca­zio­ne tedesca dal titolo “Strumenti di Business In­tel­li­gen­ce: pa­no­ra­mi­ca di mercato di strumenti open source nel settore della Business In­tel­li­gen­ce”, sono riportati i programmi di BI open source più comuni e le ri­spet­ti­ve aree di ap­pli­ca­zio­ne.

BI Software Estra­zio­ne dati grezzi Tra­sfor­ma­zio­ne dati grezzi Ca­ri­ca­men­to dati tra­sfor­ma­ti OLAP Data Mining Dash-boards Report
Pentaho DI - - - -
Talend OS - - - -
Jasper ETL - - - -
Pentaho Mondrian - - - -
Jedox - - -
BIRT - - - -
SQL Power Wabit - - -
KNIME -
Ra­pid­Mi­ner
Weka -   -
Ja­sper­Soft  
Pentaho
SpagoBI

I software open source elencati possono essere assegnati alle aree di ap­pli­ca­zio­ne ETL, OLAP, data mining e reporting. Inoltre sono di­spo­ni­bi­li soluzioni di BI integrate che coprono tutti gli ambiti indicati.

Software ETL

Per la raccolta e l'in­te­gra­zio­ne dei dati nel­l'am­bi­to dei processi ETL si può usufruire dei servizi open source di Pentaho DI, Talend OS e Jasper ETL.

  • Pentaho D: anche noto come Kettle, lo strumento ETL Pentaho Data In­te­gra­tion (DI) è parte della suite Pentaho BI, ma può essere uti­liz­za­to come ap­pli­ca­zio­ne in­di­pen­den­te nelle ar­chi­tet­tu­re di data warehouse. Il tool di ac­qui­si­zio­ne e in­te­gra­zio­ne dati è dotato di un'in­ter­fac­cia grafica che non richiede agli utenti com­pe­ten­ze pregresse nel campo della pro­gram­ma­zio­ne. Pentaho DI offre un'ampia scelta di moduli con i quali è possibile definire le singole fasi del processo ETL e supporta tutti i comuni sistemi di banche dati. Fonti di dati possono anche essere flat file come CSV, Excel o file di testo. Inoltre questo strumento fornisce in­ter­fac­ce per suite di BI pro­prie­ta­rie di SAS e SAP, oltre che per software di analisi come Google Analytics.
  • Talend OS: pa­ra­go­na­bi­le a Pentaho DI è lo strumento open source ETL di Talend. Talend Open Studio (OS) consente in aggiunta di definire i processi di ac­qui­si­zio­ne e in­te­gra­zio­ne dei dati mediante moduli pa­ra­me­triz­za­ti (i co­sid­det­ti jobs). Il programma mette a di­spo­si­zio­ne in­ter­fac­ce per tutte le fonti di dati più comuni e varie funzioni di tra­sfor­ma­zio­ne dei dati. Un editor di mappe consente agli utenti di tra­sfe­ri­re dati grezzi ete­ro­ge­nei in una struttura di de­sti­na­zio­ne pre­de­fi­ni­ta. Come nel caso di Pentaho DI, gli utenti di Talend senza com­pe­ten­ze di pro­gram­ma­zio­ne possono be­ne­fi­cia­re di un'in­ter­fac­cia utente grafica.
     
  • Jasper ETL: Jasper ETL è il risultato di una col­la­bo­ra­zio­ne tra Ja­sper­soft e Talend. Lo strumento ETL si basa es­sen­zial­men­te su Talend OS, il leader tra i programmi open source per l'in­te­gra­zio­ne dei dati. È par­ti­co­lar­men­te adatto se si uti­liz­za­no altri prodotti BI Ja­sper­soft nel­l'am­bi­to del­l'ar­chi­tet­tu­ra DWH.

Ap­pli­ca­zio­ni OLAP

Pentaho Mondrian und Jedox sono strumenti OLAP con­so­li­da­ti a licenza open source.

  • Pentaho Mondrian: Mondrian è un server OLAP basato su java. Ini­zial­men­te svi­lup­pa­to come progetto open source a se stante, Mondrian dal 2006 è parte della Pentaho BI Suite, pur rimanendo comunque a di­spo­si­zio­ne degli utenti come ap­pli­ca­zio­ne stan­da­lo­ne. Inoltre Mondrian viene uti­liz­za­to nelle soluzioni BI di altri fornitori open source come Ja­sper­soft. Gli utenti be­ne­fi­cia­no del rag­grup­pa­men­to delle risorse open source, che consente progetti col­la­bo­ra­ti­vi come il Mondrian Schema Workbench o l’in­ter­fac­cia OLAP4J. Il progetto Mondrian segue un approccio re­la­zio­na­le (ROLAP): sulla base dei dati forma un database re­la­zio­na­le le cui tabelle sono or­ga­niz­za­te in schemi a stella o a fiocco di neve.
     
  • Jedox: il pro­dut­to­re di software offre con la suite BI omonima una soluzione completa per le ap­pli­ca­zio­ni di business in­tel­li­gen­ce e per­for­man­ce ma­na­ge­ment. Punto focale del software è un potente server OLAP in-memory che si può integrare anche in altri ambienti software at­tra­ver­so le in­ter­fac­ce per Java, PHP, C/C++ o .NET. Si presta so­prat­tut­to per utenti in ambito KMU a causa dell’add-in di Excel, at­tra­ver­so il quale il server OLAP può essere uti­liz­za­to anche con il celebre software di fogli di calcolo. 

Data Mining

Anche per quanto riguarda il data mining sono di­spo­ni­bi­li prodotti a licenza open source. Tra questi con­si­glia­mo KNIME, Ra­pid­Mi­ner e Weka.

  • KNIME: KNIME sta per “Konstanz In­for­ma­tion Miner”, uno strumento per il data mining svi­lup­pa­to dall’Uni­ver­si­tà di Costanza. Si tratta di un software libero che offre agli utenti metodi di analisi di vasta portata e diverse opzioni di in­te­gra­zio­ne per diversi algoritmi di data mining e machine learning grazie ad un concetto di pipeline modulare. Le singole fasi di pre­e­la­bo­ra­zio­ne dei dati (ETL), mo­del­la­zio­ne, analisi e vir­tua­liz­za­zio­ne si possono definire tramite un’in­ter­fac­cia utente grafica tra­sci­nan­do i blocchi con Drag&Drop nello spazio di lavoro e unendoli tra loro. KNIME.com, con sede a Zurigo, offre la pos­si­bi­li­tà di dowload gratuito del software. Se lo de­si­de­ra­no, gli utenti possono usufruire anche di un’as­si­sten­za tecnica pro­fes­sio­na­le e di servizi di con­su­len­za. Il programma scritto in Java è offerto come plug-in per lo strumento di pro­gram­ma­zio­ne Eclipse (IDE).
     
  • Ra­pid­Mi­ner: la piat­ta­for­ma di analisi Ra­pid­Mi­ner dell’azienda omonima offre agli utenti un ambiente integrato per l’ap­pren­di­men­to au­to­ma­ti­co, per il mining di dati, testi e web, e per analisi umorali e temporali, nonché modelli di pre­vi­sio­ne in un modello open core. L’as­si­sten­za abbraccia tutte le fasi del processo di data mining, incluse la pre­pa­ra­zio­ne, la vi­sua­liz­za­zio­ne, la va­li­da­zio­ne e l’ot­ti­miz­za­zio­ne dei dati. Se qualche utente dovesse ritenere in­suf­fi­cien­te la versione Community gratuita con soltanto un pro­ces­so­re logico e un’ampiezza di analisi di massimo 10.000 record, può optare per un upgrade alla licenza a pagamento En­ter­pri­se. Il programma è scritto in Java e offre un’in­ter­fac­cia utente grafica con la quale si può definire ed eseguire co­mo­da­men­te il workflow dell’analisi con un clic del mouse.
     
  • Weka: Weka (Waikato En­vi­ron­ment for Knowledge Analysis) è un progetto open source dell’uni­ver­si­tà di Waikato, Nuova Zelanda. Lo strumento di analisi offre agli utenti diversi algoritmi nell’ambito del machine learning. Accanto ai classici metodi di data mining come clas­si­fi­ca­zio­ne, as­so­cia­zio­ne e analisi della re­gres­sio­ne o dei cluster, Weka contiene diversi moduli per la pre­pa­ra­zio­ne e vir­tua­liz­za­zio­ne dei dati. Il programma scritto in Java offre un’in­ter­fac­cia utente grafica e tutte le funzioni del software si possono eseguire tramite riga di comando. Se ne­ces­sa­rio, Weka si può inoltre integrare at­tra­ver­so un’in­ter­fac­cia Java nelle proprie soluzioni software.

Modalità per i report

Nell’ambito delle modalità dei report si con­si­glia­no strumenti open source come BIRT e SQL Power Wabit, che offrono accanto alle classiche funzioni di report mensile, tri­me­stra­le e annuale anche funzioni ad hoc che for­ni­sco­no in­for­ma­zio­ni rilevanti in tempo reale.

  • BIRT: BIRT (Business In­tel­li­gen­ce and Reporting Tools) è un progetto open source senza scopo di lucro di Eclipse Foun­da­tion che mette a di­spo­si­zio­ne funzioni di BI reporting per rich client e ap­pli­ca­zio­ni web. Il software è adatto ad ap­pli­ca­zio­ni basate su java e copre ampi settori della vi­sua­liz­za­zio­ne dei dati e del reporting. I design per i report BIRT vengono creati in un’in­ter­fac­cia utente grafica basata sullo strumento open source di pro­gram­ma­zio­ne Eclipse e salvati come file XML.
     
  • SQL Power Wabit: con lo strumento di reporting SQL Power Wabit gli utenti creano report sulla base delle classiche in­ter­ro­ga­zio­ni ai database. I cubi OLAP vengono sup­por­ta­ti soltanto se è presente una de­scri­zio­ne della struttura dei dati. Il tool supporta report standard, domande ad hoc, pagine di riepilogo per­so­na­liz­za­te e ope­ra­zio­ni di drill-down nell’ambito dell’On-line Ana­ly­ti­cal Pro­ces­sing. Con fun­zio­na­li­tà come il comando drag&drop, l’at­tua­liz­za­zio­ne dei report in tempo reale, una funzione di ricerca globale e un editor WYSIWYG per la pro­get­ta­zio­ne dei report, SQL Power Wabit è adatto anche per utenti senza co­no­scen­ze SQL. I report vengono creati co­mo­da­men­te con un clic e si possono per­so­na­liz­za­re per quanto riguarda il carattere, il colore e il layout.

Soluzioni BI integrate

Accanto alle suite BI a pagamento di fornitori affermati come SAP, Oracle, IBM, SAS, HP o Microsoft, nel mercato open source si trovano anche progetti software che for­ni­sco­no soluzioni di data ware­hou­sing come raccolte di programmi integrate. Si con­si­glia­no Pentaho CE, Ja­sper­soft e SpagoBI.

  • Pentaho Communit Edition (CE): La Suite Pentaho BI comprende oltre agli sviluppi propri anche una serie di progetti open source esistenti che sono stati gra­dual­men­te ac­qui­sta­ti e integrati nel por­ta­fo­glio prodotti. I punti di forza del progetto risiedono nell’in­te­gra­zio­ne dei dati e nell’au­to­ma­tiz­za­zio­ne dei report. La raccolta dei programmi comprende:
     
    • Pentaho Business Analytics Platform: La BA Platform è un’ap­pli­ca­zio­ne web che permette agli utenti di con­giun­ge­re tutte le in­for­ma­zio­ni in una piat­ta­for­ma centrale.
    • Pentaho Data In­te­gra­tion. Pentaho DI è il tool ETL descritto sopra.
    • Pentaho Report Designer (PRD): PRD è un am­plia­men­to del progetto JFree­Re­port. La soluzione di reporting open source supporta diversi formati di output come ad esempio PDF, Excel, HTML, Text, Rich Text File, XML e CSV.
    • Pentaho Mar­ket­pla­ce: Il mar­ket­pla­ce permette agli utenti di ag­giun­ge­re plug-in alla piat­ta­for­ma Pentaho con un clic.
    • Pentaho Ag­gre­ga­tion Designer (PAD): Con PAD gli utenti possono creare e ot­ti­miz­za­re i contenuti di un database. Il cuore del tool è rap­pre­sen­ta­to dal server OLAP Mondrian.
    • Pentaho Schema Workbench (PSW): PSW è un’in­ter­fac­cia grafica di design che consente agli utenti di creare e testare schemi per cubi OLAP Mondrian.
    • Pentaho Metadata Editor (PME): PME offre una de­scri­zio­ne det­ta­glia­ta delle strutture dei dati che stanno alla base con l’aiuto di un file XML.

Con Pentaho En­ter­pri­se Edition (EE) si offre una versione a pagamento della Suite BI con uno spettro di funzioni ampliato nonché un’as­si­sten­za pro­fes­sio­na­le.

  • Ja­sper­soft: anche Ja­sper­soft offre diverse ap­pli­ca­zio­ni DWH in una soluzione BI integrata. L’insieme dei programmi comprende:
    • Ja­sper­Re­ports Server: il Ja­sper­Re­ports Server è un server per report che mette a di­spo­si­zio­ne le fun­zio­na­li­tà OLAP at­tra­ver­so un server Mondrian adattato.
    • Ja­sper­Re­ports Library: i report vengono creati grazie a una bi­blio­te­ca Java.
    • Ja­sper­soft Studio: Ja­sper­soft Studio è un editor per la pre­pa­ra­zio­ne dei report, incluso nella Suite BI
    • Ja­sper­soft ETL: questo strumento ETL basato su Talend OS è stato am­pia­men­te descritto sopra.
    • Mobile BI: Mobile BI è un’app nativa per iPhone e Android che permette l’accesso da di­spo­si­ti­vi mobili a report e dashboard.

Anche Ja­sper­soft si trova con uno spettro di funzioni ampliate in una versione com­mer­cia­le e a pagamento.

  • SpagoBI: a dif­fe­ren­za di Pentaho e Ja­sper­soft, che offrono i propri prodotti con due modalità, una gratuita ed una a pagamento, Spa­go­World mette a di­spo­si­zio­ne esclu­si­va­men­te soluzioni open source, anche per la Suite BI. Gli utenti com­mer­cia­li possono sempre con­si­de­ra­re una con­fi­gu­ra­zio­ne pro­fes­sio­na­le nonché la per­so­na­liz­za­zio­ne del software come servizio a pagamento. L’insieme dei programmi include le seguenti com­po­nen­ti:
    • SpagoBI Server: il server SpagoBI è il vero e proprio cuore della Suite BI open source, che fornisce tutti gli strumenti e le fun­zio­na­li­tà di analisi.
    • SpagoBI Studio: SpagoBI Studio è un ambiente di sviluppo integrato.
    • SpagoBI Meta: SpagoBI Meta offre agli utenti un ambiente per la gestione dei metadati.
    • SpagoBI SDK: con SpagoBI SDK la suite SpagoBI dispone di un livello di in­te­gra­zio­ne che consente di collegare diversi tool esterni: per esempio Talend OS (ETL), Jedox o Mondrian (OLAP), Weka o R (Da­ta­mi­ning) così come BIRT o Ja­sper­Re­ports Library (modalità di report).

Data ma­na­ge­ment

Anche nell’ambito del data ma­na­ge­ment, gli utenti hanno diverse al­ter­na­ti­ve ai sistemi pro­prie­ta­ri, come ad esempio Microsoft SQL Server, IBM DB2 o soluzioni di Oracle e Teradata, che sono di­spo­ni­bi­li come progetti di software open source. Come memoria dati centrale i sistemi di database re­la­zio­na­li MySQL e MariaDB  o il DBMS object-re­la­tio­nal Post­gre­SQL. Quest’ultimo è offerto da Pivotal sotto il nome di Greenplum Database come mi­glio­ra­men­to ot­ti­miz­za­to spe­ci­fi­ca­men­te per le ar­chi­tet­tu­re di data warehouse open source.

Con­clu­sio­ne: Data ware­hou­sing nelle medie imprese

Il data ware­hou­sing è arrivato nella media impresa. Il mercato delle soluzioni di BI e dei sistemi di data warehouse offre costose soluzioni aziendali ma anche una vasta gamma di utili progetti open source. Per piccole e medie aziende cala quindi l’ostacolo fi­nan­zia­rio ir­ri­me­dia­bil­men­te associato all’analisi dei big data.

Le piccole e medie imprese (PMI) nell’in­tro­dur­re soluzioni di BI do­vreb­be­ro in­nan­zi­tut­to prendere in con­si­de­ra­zio­ne le modalità di report. Gli im­pren­di­to­ri possono ottenere un primo valore aggiunto facendo in­con­tra­re i dati esistenti con spese facili da gestire. Se nel corso della va­lu­ta­zio­ne emergono lacune nel set di dati, il passo suc­ces­si­vo dovrebbe essere con­cen­trar­si sulla rior­ga­niz­za­zio­ne della raccolta di dati uti­liz­zan­do gli strumenti ETL o OLAP qui pre­sen­ta­ti. Il com­ple­ta­men­to dell’in­te­gra­zio­ne di un’ar­chi­tet­tu­ra di data warehouse nella relativa in­fra­strut­tu­ra IT è co­sti­tui­to dagli strumenti di data mining, che at­tra­ver­so analisi avanzate (per esempio analisi del carrello) iden­ti­fi­ca­no nuovi trend e con­nes­sio­ni e for­ni­sco­no in tal modo un input im­por­tan­te per decisioni stra­te­gi­che.

Le medie imprese che de­si­de­ra­no creare un data warehouse do­vreb­be­ro porre at­ten­zio­ne fin dall’inizio all’im­ple­men­ta­zio­ne della strategia di BI in con­for­mi­tà ai nuovi re­go­la­men­ti sulla pro­te­zio­ne dei dati.

Vai al menu prin­ci­pa­le