Sempre più aziende di­spon­go­no di una grande quantità di dati, i co­sid­det­ti big data, che sono risorse preziose per la seg­men­ta­zio­ne dei clienti, la gestione della di­stri­bu­zio­ne e il target marketing. Tuttavia finché questi set di dati non vengono ana­liz­za­ti e valutati ade­gua­ta­men­te, ri­mar­ran­no senza valore per l’azienda. C’è una grande quantità di in­for­ma­zio­ni, ma solo chi sa come uti­liz­zar­la ne ricaverà qualcosa. Si riferisce a questo stesso concetto anche il ri­cer­ca­to­re dei trend e fu­tu­ro­lo­go John Naisbitt con la sua famosa frase:

Citazione

“We are drowning in in­for­ma­tion, but starving for knowledge.“

“Stiamo affogando in un mare di in­for­ma­zio­ni, ma siamo affamati di co­no­scen­za”.

– il ri­cer­ca­to­re dei trend e fu­tu­ro­lo­go John Naisbitt sulla quantità crescente di dati digitali

I tool di data mining vi aiutano a gestire i dati e a ri­co­no­sce­re i possibili trend e schemi decisivi che vi sono contenuti. Per questo motivo i software di data mining diventano sempre più complessi e la scelta di tool è sempre più vasta. Per aiutarvi a mantenere una visione di insieme, mettiamo a confronto i programmi più im­por­tan­ti di data mining.

Tecniche, compiti e com­po­nen­ti del data mining

Con data mining si intendono dei metodi al­go­rit­mi­ci di va­lu­ta­zio­ne dei dati che vengono applicati a set di dati par­ti­co­lar­men­te grandi e complessi. Il data mining dovrebbe ricavare le in­for­ma­zio­ni nascoste da grandi set di dati (in par­ti­co­la­re dai big data, i dati di massa) e ri­co­no­sce­re così relazioni, trend e schemi nascosti che vi sono ri­pro­dot­ti all’interno. Per fare ciò sono di grande aiuto i tool di data mining. Il termine “Data mining“ si riferisce esclu­si­va­men­te alla pratica dell’analisi dei dati, esulando dalla ge­ne­ra­zio­ne dei dati e dai set di dati in sé. Molti dei pro­ce­di­men­ti derivano dalla sta­ti­sti­ca; il data mining non è un semplice processo sta­ti­sti­co, ma si tratta piuttosto di un pro­ce­di­men­to in­ter­di­sci­pli­na­re che collega le co­no­scen­ze dell’in­for­ma­ti­ca e della ma­te­ma­ti­ca con le tecniche dell’ap­pren­di­men­to au­to­ma­ti­co (in par­ti­co­lar modo dell’ap­pren­di­men­to non su­per­vi­sio­na­to) e dell’in­tel­li­gen­za ar­ti­fi­cia­le. Questi metodi efficaci vengono integrati nel software di data mining per con­sen­ti­re la va­lu­ta­zio­ne dei big data.

Fatto

Il text mining è una forma specifica di data mining che ottiene una notevole im­por­tan­za data dalla dif­fu­sio­ne dei software e della tec­no­lo­gia vocali. Le in­for­ma­zio­ni ottenute non si ri­fe­ri­sco­no qui ai set di dati, bensì ai documenti testuali. Da grandi quantità di testi (articoli spe­cia­li­sti o documenti di un’azienda) vengono estratte le frasi prin­ci­pa­li. Perciò il text mining è utile per le aziende, ad esempio per fare ricerche su nuovi progetti.

Vale sempre la regola che anche per un data mining di successo gli utenti devono avere una buona com­pren­sio­ne dei set di dati, perché solo in questo caso possono uti­liz­za­re gli strumenti di data mining in modo sensato ed efficace per ri­co­no­sce­re relazioni implicite, fare dei pro­no­sti­ci sui volumi di vendita o ana­liz­za­re il com­por­ta­men­to di acquisto. Co­no­scen­ze di pro­gram­ma­zio­ne non sono richieste in questo frangente.

Singoli compiti del data mining:

  • Clas­si­fi­ca­zio­ne: assegna singoli oggetti di dati di precise classi pre­de­fi­ni­te (ad esempio gatti o ciclisti) che non rien­tra­va­no finora in queste classi; per la clas­si­fi­ca­zio­ne si adatta par­ti­co­lar­men­te l’analisi con l’albero di decisione.

  • Analisi della va­ria­zio­ne o delle anomalie: iden­ti­fi­ca oggetti che non cor­ri­spon­do­no alle regole della su­bor­di­na­zio­ne negli oggetti im­pa­ren­ta­ti; in questo modo si possono trovare le cause per le va­ria­zio­ni.

  • Analisi dei gruppi: iden­ti­fi­ca gli elementi simili e crea dopo dei gruppi di oggetti che si as­so­mi­glia­no per dei precisi aspetti rispetto agli altri gruppi; al contrario della clas­si­fi­ca­zio­ne i gruppi (o cluster) non sono pre­de­fi­ni­ti e possono assumere diverse forme a seconda dei dati ana­liz­za­ti.

  • Analisi tramite regole di as­so­cia­zio­ne: riscontra cor­re­la­zio­ni tra due o più elementi in­di­pen­den­ti che non si trovano in una relazione diretta ma che compaiono spesso insieme.

  • Analisi della re­gres­sio­ne: rivela le relazioni tra una variabile di­pen­den­te (ad esempio la vendita del prodotto) e una o più variabili in­di­pen­den­ti (ad esempio il prezzo del prodotto o il reddito del cliente); viene anche uti­liz­za­to per fare pro­no­sti­ci sulla variabile di­pen­den­te (ad esempio un pro­no­sti­co di vendita).

  • Analisi pre­dit­ti­va: si tratta in realtà di un compito so­vraor­di­na­to che mira a far delle pre­vi­sio­ni sui trend futuri; si serve così del data mining e lavora con una variabile (pre­di­ca­to­re) che è misurata per le singole persone o per entità più grandi.
Fatto

Grazie all’analisi tramite le regole di as­so­cia­zio­ne sono state create relazioni il­lu­mi­nan­ti nelle decisioni di acquisto di diversi prodotti, con cui è stata mi­glio­ra­ta no­te­vol­men­te l’analisi dei carrelli. Con questo metodo vengono in­di­vi­dua­ti i consigli di acquisto nei negozi online.

I diversi pro­ce­di­men­ti possono essere suddivisi in maniera ap­pros­si­ma­ti­va in co­sid­det­ti problemi di os­ser­va­zio­ne (analisi della va­ria­zio­ne, analisi dei gruppi) e problemi di pro­no­sti­ci (analisi della re­gres­sio­ne, clas­si­fi­ca­zio­ne).

I tool di data mining a confronto

Vi pre­sen­tia­mo ora un confronto dei migliori tool di data mining tra cui rientrano gli strumenti Ra­pid­Mi­ner, WEKA, Orange, KNIME e SAS. È emerso che gli utenti uti­liz­za­no vari tool con­tem­po­ra­nea­men­te: ognuno di loro offre infatti punti di forza diversi e permette quindi di essere combinato con altri strumenti; infatti i tool di data mining sono spesso com­pa­ti­bi­li tra loro. No­no­stan­te ciò un unico tool completo consente una grande libertà, anche a chi è alle prime armi.

Ra­pid­Mi­ner

Ra­pid­Mi­ner (prima co­no­sciu­to come YALE, “Yet Another Learning En­vi­ron­ment“) è uno dei tool di data mining più famoso. Secondo un sondaggio di KDnuggets ef­fet­tua­to nel 2014 questo tool era il più uti­liz­za­to tra i software di data mining, superando lo strumento R. È ac­ces­si­bi­le gra­tui­ta­men­te e si utilizza fa­cil­men­te anche senza par­ti­co­la­ri co­no­scen­ze di pro­gram­ma­zio­ne. No­no­stan­te ciò mette a di­spo­si­zio­ne un’ampia scelta di operatori. In par­ti­co­la­re le start-up ricorrono spesso a questo tool.

Ra­pid­Mi­ner è stato scritto in Java e comprende più di 500 operatori con diversi approcci per mostrare le relazioni nei dati; ci sono anche opzioni per il data mining, il text mining e il web mining, ma anche per l’analisi del sentiment (Sentiment Analysis, Opinion Mining). Inoltre il programma importa tabelle Excel, file SPSS e record di molti database, in­te­gran­do anche tool di data mining come WEKA e R. Per questo motivo è uno strumento completo a tutto tondo.

Ra­pid­Mi­ner supporta tutti i passaggi del processo di data mining, com­pren­den­do anche la vi­sua­liz­za­zio­ne dei risultati. Il tool è composto da tre grandi moduli: Ra­pid­Mi­ner Studio, Ra­pid­Mi­ner Server e Ra­pid­Mi­ner Radoop che eseguono ri­spet­ti­va­men­te diverse tecniche del data mining. Inoltre il software prepara i dati prima dell’analisi e li ottimizza per una rie­la­bo­ra­zio­ne veloce. Per ognuno di questi tre moduli sono di­spo­ni­bi­li una versione gratuita e diverse versioni a pagamento.

La forza par­ti­co­la­re di Ra­pid­Mi­ner risiede nell’analisi pre­dit­ti­va, quindi nella pre­vi­sio­ne degli sviluppi futuri sulla base dei dati raccolti. Se si con­fron­ta­no i diversi software di data mining, Ra­pid­Mi­ner risulta uno dei tool più potenti tra quelli pre­sen­ta­ti.

WEKA

WEKA (Waikato En­vi­ron­ment for Knowledge Analysis) è un software open source svi­lup­pa­to dall’uni­ver­si­tà di Waikato, in Nuova Zelanda. Il tool di data mining si basa su Java e può essere uti­liz­za­to su Windows, macOS e Linux. È famoso per le sue funzioni complete di ap­pren­di­men­to au­to­ma­ti­co e supporta tutti i compiti più im­por­tan­ti di data mining come il clu­ste­ring, l’as­so­cia­zio­ne, la re­gres­sio­ne e la clas­si­fi­ca­zio­ne. L’in­ter­fac­cia utente facilita l’accesso al software. Inoltre WEKA si collega ai database SQL dove può elaborare i dati richiesti. Il punto di forza di WEKA risiede nella clas­si­fi­ca­zio­ne: lo strumento di data mining è co­no­sciu­to per le sue molte clas­si­fi­ca­zio­ni, tra cui le reti neurali ar­ti­fi­cia­li, gli alberi di decisione e gli algoritmi ID3 o C4.5. Invece risulta meno efficace nelle altre tecniche, come l’analisi dei gruppi: in questo caso vengono offerti solo i prin­ci­pa­li pro­ce­di­men­ti. Un altro svan­tag­gio: WEKA può avere problemi di ela­bo­ra­zio­ne quando deve gestire grandi quantità di dati, visto che il tool di data mining cerca di caricarli tutti insieme nella RAM. Una soluzione è offerta quindi dalla riga di comando facile (CLI) che permette di elaborare meglio le grandi quantità di dati.

Fatto

WEKA è stata premiata nel 2005 con il “SIGKDD Service Award“ dell’As­so­cia­tion for Computing Machinery per il suo elevato con­tri­bu­to alla ricerca. L’opera sull’ap­pren­di­men­to autonomo di Eibe Frank e Ian H. Witten, pub­bli­ca­ta per la prima volta nel 1999 e di­spo­ni­bi­le in inglese con il nome di “Data Mining: Practical Machine Learning Tools and Tech­ni­ques”, si riferisce in buona parte a questo software. A confronto con gli altri strumenti di data mining WEKA si è affermato in par­ti­co­la­re per scopi di ricerca e in­se­gna­men­to.    

Orange

Il tool di data mining Orange esiste da più di 20 anni ed è un progetto dell’uni­ver­si­tà di Lubiana, in Slovenia. La base del software ori­gi­na­ria­men­te era stata scritta in C++, ma è stata poi presto ampliata con il lin­guag­gio di pro­gram­ma­zio­ne Python, che viene ora uti­liz­za­to come lin­guag­gio per l’accesso ai dati. Le ope­ra­zio­ni com­pli­ca­te vengono invece sempre eseguite in C++. Orange è un software di data mining vasto che dimostra la grande libertà di im­po­sta­zio­ne con­sen­ti­ta da Python: offre ap­pli­ca­zio­ni utili per l’analisi dei dati e dei testi, oltre che funzioni per l’ap­pren­di­men­to au­to­ma­ti­co, e nell’ambito del data mining lavora con gli operatori per la clas­si­fi­ca­zio­ne, la re­gres­sio­ne, il clu­ste­ring e molti altri. Inoltre questo tool di data mining integra una pro­gram­ma­zio­ne visuale.

La par­ti­co­la­ri­tà di questo tool è il fatto che gli utenti sot­to­li­nea­no sempre come si divertono a uti­liz­za­re questo software di data mining. Sia i nuovi utenti che quelli avanzati sono sempre più af­fa­sci­na­ti da Orange. Questa sua po­po­la­ri­tà deriva da due fattori: il primo riguarda l’ac­cat­ti­van­te vi­sua­liz­za­zio­ne dei dati; il secondo prende in con­si­de­ra­zio­ne la velocità e la facilità con cui avviene questa vi­sua­liz­za­zio­ne. Il programma prepara i dati immessi subito sotto forma visuale. Non solo la com­pren­sio­ne di questi grafici, ma anche l’ela­bo­ra­zio­ne delle analisi dei dati avviene in modo facile rispetto agli altri software e consente di prendere decisioni relative alla propria attività in modo veloce. Tutto questo rende Orange il tool ideale per av­vi­ci­nar­si al data mining.

Un altro vantaggio per i nuovi utenti è che sono di­spo­ni­bi­li mol­tis­si­mi tutorial online per il tool. Oltre a ciò Orange impara a conoscere con il tempo le pre­fe­ren­ze dei suoi utenti e si regola di con­se­guen­za, rendendo l’utilizzo dello strumento di data mining ancora più piacevole.

KNIME

KNIME (Konstanz In­for­ma­tion Miner) è stato svi­lup­pa­to dall’uni­ver­si­tà di Costanza, in Germania, ed è diventato popolare nella grande comunità in­ter­na­zio­na­le di svi­lup­pa­to­ri. In realtà KNIME era pensato sin dall’inizio per un uso com­mer­cia­le, ma è di­spo­ni­bi­le come software open source. È stato scritto in Java ed elaborato con Eclipse. Con­fron­tan­do questo software di data mining con gli altri, balza subito agli occhi la sua varietà di funzioni: con più di 1000 moduli e pacchetti di ap­pli­ca­zio­ni pre­im­po­sta­ti questo tool aiuta am­pia­men­te a scoprire le strutture nascoste dei dati. I moduli si possono ampliare con altre funzioni com­mer­cia­li. Tra le feature convince so­prat­tut­to l’analisi dei dati in­te­gra­ti­va: in questo settore KNIME è uno degli strumenti più potenti e consente l’in­te­gra­zio­ne di in­nu­me­re­vo­li pro­ce­di­men­ti dell’ap­pren­di­men­to au­to­ma­ti­co e del data mining. Inoltre è par­ti­co­lar­men­te efficace nella pre­e­la­bo­ra­zio­ne dei dati, quindi nell’estra­zio­ne, nella tra­sfor­ma­zio­ne e nel ca­ri­ca­men­to dei dati. Grazie ad una pipeline di dati modulare, il software si configura so­prat­tut­to come uno strumento di data mining orientato al flusso di dati. A partire dal 2006 KNIME è uti­liz­za­to nella ricerca far­ma­ceu­ti­ca ed è un potente tool di data mining anche per il settore dei dati fi­nan­zia­ri. Ma è usato spesso anche nel settore della Business In­tel­li­gen­ce (BI). Là KNIME si è affermato come il tool che ha reso ac­ces­si­bi­le l’analisi pre­dit­ti­va anche agli utenti poco esperti. Inoltre anche per i nuovi utenti lo strumento è in­te­res­san­te, visto che malgrado le sue molte funzioni ha bisogno solo di un tempo re­la­ti­va­men­te breve di orien­ta­men­to. KNIME è di­spo­ni­bi­le come programma gratuito e a pagamento.

SAS

SAS (Sta­ti­sti­cal Analysis System) è un prodotto dell’Istituto SAS, una delle aziende private di software più grandi al mondo. SAS è il tool di data mining leader per le analisi di business e anche il più costoso dei programmi qui pre­sen­ta­ti. In compenso però è l’unico mag­gior­men­te adatto a un utilizzo nelle grandi aziende. SAS dà prova della sua ec­cel­len­za so­prat­tut­to nel settore delle pre­vi­sio­ni e della vi­sua­liz­za­zio­ne in­te­rat­ti­va dei dati, la quale è par­ti­co­lar­men­te adatta in modo ottimale per le grandi pre­sen­ta­zio­ni. Es­sen­zial­men­te con questo software di data mining si dispone di uno strumento completo a tutto tondo. Così il tool si con­trad­di­stin­gue per un’elevata sca­la­bi­li­tà, infatti è in grado di aumentare le sue pre­sta­zio­ni con l’aggiunta di hardware o altre risorse in pro­por­zio­ne. Anche questo lo rende uno strumento potente per soluzioni business di alta qualità. Infine un’in­ter­fac­cia grafica facile da usare e ben strut­tu­ra­ta viene in aiuto dei meno affini alle nuove tec­no­lo­gie. Inoltre il software si può uti­liz­za­re gra­tui­ta­men­te solo se si è ricevuta la ri­spet­ti­va licenza da un’isti­tu­zio­ne pubblica, per cui SAS è es­sen­zial­men­te sempre a pagamento. I costi vengono regolati su richiesta; sono possibili delle con­di­zio­ni speciali, ad esempio per le autorità o gli istituti di istru­zio­ne. In concreto si può ac­qui­sta­re una licenza utente a circa 5.500 euro all’anno, motivo per cui SAS risulta anche il più caro tra i tool com­mer­cia­li. È però possibile per­so­na­liz­za­re la varietà delle funzioni e in­fluen­zar­ne così il prezzo.  SAS viene so­prat­tut­to uti­liz­za­to nelle aziende far­ma­ceu­ti­che, dove si è potuto affermare come standard. Viene usato spesso anche nel settore bancario e offre delle soluzioni ottimali per i settori della BI e del web mining. Per questo motivo dispone anche di un proprio software di Business In­tel­li­gen­ce. Risulta perciò uno dei tool di data mining più potenti sul mercato.

Tool di data mining a confronto

Dopo il confronto det­ta­glia­to dei software di data mining rie­pi­lo­ghia­mo in una tabella tutte le ca­rat­te­ri­sti­che più im­por­tan­ti di questi tool:

  Ca­rat­te­ri­sti­che Lin­guag­gio di pro­gram­ma­zio­ne Sistemi operativi Costi/licenze
Ra­pid­Mi­ner Strumento completo e potente, eccelle so­prat­tut­to nell’analisi pre­dit­ti­va Java Windows, macOS, Linux Freeware, diversi versioni a pagamento
WEKA Numerosi metodi di clas­si­fi­ca­zio­ne Java Windows, macOS, Linux Software libero (GPL)
Orange Crea vi­sua­liz­za­zio­ni dei dati par­ti­co­lar­men­te ac­cat­ti­van­ti e in­te­res­san­ti senza che siano ne­ces­sa­rie molte pre­co­no­scen­ze Base del software: C++, esten­sio­ni e lin­guag­gio per l’accesso ai dati: Python Windows, macOS, Linux Software libero (GPL)
KNIME Il leader del settore tra i tool open source di data mining, che ha reso uni­ver­sal­men­te ac­ces­si­bi­le l’analisi pre­dit­ti­va Java Windows, macOS, Linux Software libero (GPL) (a partire dalla versione 2.1)
SAS Il software di data mining più potente, anche se costoso, adatto per le grandi aziende SAS Language Windows, macOS, Linux Versione limitata freeware per gli istituti di istru­zio­ne, prezzo su richiesta, diversi modelli completi
Vai al menu prin­ci­pa­le