Software ETL
Per la raccolta e l'integrazione dei dati nell'ambito dei processi ETL si può usufruire dei servizi open source di Pentaho DI, Talend OS e Jasper ETL.
- Pentaho D:anche noto come Kettle, lo strumento ETL Pentaho Data Integration (DI) è parte della suite Pentaho BI, ma può essere utilizzato come applicazione indipendente nelle architetture di data warehouse. Il tool di acquisizione e integrazione dati è dotato di un'interfaccia grafica che non richiede agli utenti competenze pregresse nel campo della programmazione. Pentaho DI offre un'ampia scelta di moduli con i quali è possibile definire le singole fasi del processo ETL e supporta tutti i comuni sistemi di banche dati. Fonti di dati possono anche essere flat file come CSV, Excel o file di testo. Inoltre questo strumento fornisce interfacce per suite di BI proprietarie di SAS e SAP, oltre che per software di analisi come Google Analytics.
- Talend OS: paragonabile a Pentaho DI è lo strumento open source ETL di Talend. Talend Open Studio (OS) consente in aggiunta di definire i processi di acquisizione e integrazione dei dati mediante moduli parametrizzati (i cosiddetti jobs). Il programma mette a disposizione interfacce per tutte le fonti di dati più comuni e varie funzioni di trasformazione dei dati. Un editor di mappe consente agli utenti di trasferire dati grezzi eterogenei in una struttura di destinazione predefinita. Come nel caso di Pentaho DI, gli utenti di Talend senza competenze di programmazione possono beneficiare di un'interfaccia utente grafica.
- Jasper ETL:Jasper ETL è il risultato di una collaborazione tra Jaspersoft e Talend. Lo strumento ETL si basa essenzialmente su Talend OS, il leader tra i programmi open source per l'integrazione dei dati. È particolarmente adatto se si utilizzano altri prodotti BI Jaspersoft nell'ambito dell'architettura DWH.
Applicazioni OLAP
Pentaho Mondrian und Jedox sono strumenti OLAP consolidati a licenza open source.
- Pentaho Mondrian: Mondrian è un server OLAP basato su java. Inizialmente sviluppato come progetto open source a se stante, Mondrian dal 2006 è parte della Pentaho BI Suite, pur rimanendo comunque a disposizione degli utenti come applicazione standalone. Inoltre Mondrian viene utilizzato nelle soluzioni BI di altri fornitori open source come Jaspersoft. Gli utenti beneficiano del raggruppamento delle risorse open source, che consente progetti collaborativi come il Mondrian Schema Workbench o l’interfaccia OLAP4J. Il progetto Mondrian segue un approccio relazionale (ROLAP): sulla base dei dati forma un database relazionale le cui tabelle sono organizzate in schemi a stella o a fiocco di neve.
- Jedox:il produttore di software offre con la suite BI omonima una soluzione completa per le applicazioni di business intelligence e performance management. Punto focale del software è un potente server OLAP in-memory che si può integrare anche in altri ambienti software attraverso le interfacce per Java, PHP, C/C++ o .NET. Si presta soprattutto per utenti in ambito KMU a causa dell’add-in di Excel, attraverso il quale il server OLAP può essere utilizzato anche con il celebre software di fogli di calcolo.
Data Mining
Anche per quanto riguarda il data mining sono disponibili prodotti a licenza open source. Tra questi consigliamo KNIME, RapidMiner e Weka.
- KNIME:KNIME sta per “Konstanz Information Miner”, uno strumento per il data mining sviluppato dall’Università di Costanza. Si tratta di un software libero che offre agli utenti metodi di analisi di vasta portata e diverse opzioni di integrazione per diversi algoritmi di data mining e machine learning grazie ad un concetto di pipeline modulare. Le singole fasi di preelaborazione dei dati (ETL), modellazione, analisi e virtualizzazione si possono definire tramite un’interfaccia utente grafica trascinando i blocchi con Drag&Drop nello spazio di lavoro e unendoli tra loro. KNIME.com, con sede a Zurigo, offre la possibilità di dowload gratuito del software. Se lo desiderano, gli utenti possono usufruire anche di un’assistenza tecnica professionale e di servizi di consulenza. Il programma scritto in Java è offerto come plug-in per lo strumento di programmazione Eclipse (IDE).
- RapidMiner:la piattaforma di analisi RapidMiner dell’azienda omonima offre agli utenti un ambiente integrato per l’apprendimento automatico, per il mining di dati, testi e web, e per analisi umorali e temporali, nonché modelli di previsione in un modello open core. L’assistenza abbraccia tutte le fasi del processo di data mining, incluse la preparazione, la visualizzazione, la validazione e l’ottimizzazione dei dati. Se qualche utente dovesse ritenere insufficiente la versione Community gratuita con soltanto un processore logico e un’ampiezza di analisi di massimo 10.000 record, può optare per un upgrade alla licenza a pagamento Enterprise. Il programma è scritto in Java e offre un’interfaccia utente grafica con la quale si può definire ed eseguire comodamente il workflow dell’analisi con un clic del mouse.
- Weka:Weka (Waikato Environment for Knowledge Analysis) è un progetto open source dell’università di Waikato, Nuova Zelanda. Lo strumento di analisi offre agli utenti diversi algoritmi nell’ambito del machine learning. Accanto ai classici metodi di data mining come classificazione, associazione e analisi della regressione o dei cluster, Weka contiene diversi moduli per la preparazione e virtualizzazione dei dati. Il programma scritto in Java offre un’interfaccia utente grafica e tutte le funzioni del software si possono eseguire tramite riga di comando. Se necessario, Weka si può inoltre integrare attraverso un’interfaccia Java nelle proprie soluzioni software.
Modalità per i report
Nell’ambito delle modalità dei report si consigliano strumenti open source come BIRT e SQL Power Wabit, che offrono accanto alle classiche funzioni di report mensile, trimestrale e annuale anche funzioni ad hoc che forniscono informazioni rilevanti in tempo reale.
- BIRT: BIRT (Business Intelligence and Reporting Tools) è un progetto open source senza scopo di lucro di Eclipse Foundation che mette a disposizione funzioni di BI reporting per rich client e applicazioni web. Il software è adatto ad applicazioni basate su java e copre ampi settori della visualizzazione dei dati e del reporting. I design per i report BIRT vengono creati in un’interfaccia utente grafica basata sullo strumento open source di programmazione Eclipse e salvati come file XML.
- SQL Power Wabit: con lo strumento di reporting SQL Power Wabit gli utenti creano report sulla base delle classiche interrogazioni ai database. I cubi OLAP vengono supportati soltanto se è presente una descrizione della struttura dei dati. Il tool supporta report standard, domande ad hoc, pagine di riepilogo personalizzate e operazioni di drill-down nell’ambito dell’On-line Analytical Processing. Con funzionalità come il comando drag&drop, l’attualizzazione dei report in tempo reale, una funzione di ricerca globale e un editor WYSIWYG per la progettazione dei report, SQL Power Wabit è adatto anche per utenti senza conoscenze SQL. I report vengono creati comodamente con un clic e si possono personalizzare per quanto riguarda il carattere, il colore e il layout.
Soluzioni BI integrate
Accanto alle suite BI a pagamento di fornitori affermati come SAP, Oracle, IBM, SAS, HP o Microsoft, nel mercato open source si trovano anche progetti software che forniscono soluzioni di data warehousing come raccolte di programmi integrate. Si consigliano Pentaho CE, Jaspersoft e SpagoBI.
- Pentaho Communit Edition (CE): La Suite Pentaho BI comprende oltre agli sviluppi propri anche una serie di progetti open source esistenti che sono stati gradualmente acquistati e integrati nel portafoglio prodotti. I punti di forza del progetto risiedono nell’integrazione dei dati e nell’automatizzazione dei report. La raccolta dei programmi comprende:
- Pentaho Business Analytics Platform: La BA Platform è un’applicazione web che permette agli utenti di congiungere tutte le informazioni in una piattaforma centrale.
- Pentaho Data Integration. Pentaho DI è il tool ETL descritto sopra.
- Pentaho Report Designer (PRD): PRD è un ampliamento del progetto JFreeReport. La soluzione di reporting open source supporta diversi formati di output come ad esempio PDF, Excel, HTML, Text, Rich Text File, XML e CSV.
- Pentaho Marketplace: Il marketplace permette agli utenti di aggiungere plug-in alla piattaforma Pentaho con un clic.
- Pentaho Aggregation Designer (PAD): Con PAD gli utenti possono creare e ottimizzare i contenuti di un database. Il cuore del tool è rappresentato dal server OLAP Mondrian.
- Pentaho Schema Workbench (PSW): PSW è un’interfaccia grafica di design che consente agli utenti di creare e testare schemi per cubi OLAP Mondrian.
- Pentaho Metadata Editor (PME): PME offre una descrizione dettagliata delle strutture dei dati che stanno alla base con l’aiuto di un file XML.
Con Pentaho Enterprise Edition (EE) si offre una versione a pagamento della Suite BI con uno spettro di funzioni ampliato nonché un’assistenza professionale.
- Jaspersoft: anche Jaspersoft offre diverse applicazioni DWH in una soluzione BI integrata. L’insieme dei programmi comprende:
- JasperReports Server: il JasperReports Server è un server per report che mette a disposizione le funzionalità OLAP attraverso un server Mondrian adattato.
- JasperReports Library: i report vengono creati grazie a una biblioteca Java.
- Jaspersoft Studio: Jaspersoft Studio è un editor per la preparazione dei report, incluso nella Suite BI
- Jaspersoft ETL: questo strumento ETL basato su Talend OS è stato ampiamente descritto sopra.
- Mobile BI: Mobile BI è un’app nativa per iPhone e Android che permette l’accesso da dispositivi mobili a report e dashboard.
Anche Jaspersoft si trova con uno spettro di funzioni ampliate in una versione commerciale e a pagamento.
- SpagoBI: a differenza di Pentaho e Jaspersoft, che offrono i propri prodotti con due modalità, una gratuita ed una a pagamento, SpagoWorld mette a disposizione esclusivamente soluzioni open source, anche per la Suite BI. Gli utenti commerciali possono sempre considerare una configurazione professionale nonché la personalizzazione del software come servizio a pagamento. L’insieme dei programmi include le seguenti componenti:
- SpagoBI Server: il server SpagoBI è il vero e proprio cuore della Suite BI open source, che fornisce tutti gli strumenti e le funzionalità di analisi.
- SpagoBI Studio: SpagoBI Studio è un ambiente di sviluppo integrato.
- SpagoBI Meta: SpagoBI Meta offre agli utenti un ambiente per la gestione dei metadati.
- SpagoBI SDK: con SpagoBI SDK la suite SpagoBI dispone di un livello di integrazione che consente di collegare diversi tool esterni: per esempio Talend OS (ETL), Jedox o Mondrian (OLAP), Weka o R (Datamining) così come BIRT o JasperReports Library (modalità di report).
Data management
Anche nell’ambito del data management, gli utenti hanno diverse alternative ai sistemi proprietari, come ad esempio Microsoft SQL Server, IBM DB2 o soluzioni di Oracle e Teradata, che sono disponibili come progetti di software open source. Come memoria dati centrale i sistemi di database relazionali MySQL e MariaDB o il DBMS object-relational PostgreSQL. Quest’ultimo è offerto da Pivotal sotto il nome di Greenplum Database come miglioramento ottimizzato specificamente per le architetture di data warehouse open source.