Il termine “data mining” si riferisce all’analisi mirata di grandi quantità di dati per ottenere nuove in­for­ma­zio­ni po­ten­zial­men­te utili. Ti il­lu­stria­mo il termine in modo più det­ta­glia­to spie­gan­do­ti alcuni dei metodi di analisi associati.

Il data mining in breve

Per dare una de­fi­ni­zio­ne di data mining, è utile decifrare la metafora su cui si basa e scoprirne il metodo di analisi alla base. Se si tende a con­si­de­ra­re l’output che deriva dal trac­cia­men­to costante delle attività dei vi­si­ta­to­ri e delle vi­si­ta­tri­ci su internet come una montagna di dati inutile, con il data mining (let­te­ral­men­te “estra­zio­ne dei dati”) si avranno gli strumenti necessari per com­pren­de­re i risultati raccolti e accedere alle in­for­ma­zio­ni rilevanti. Al contrario di quanto avvenga in miniera (il classico luogo dedicato alle estra­zio­ni), qui vengono applicati dei metodi sta­ti­sti­ci, che con­sen­to­no di iden­ti­fi­ca­re le tendenze e i col­le­ga­men­ti tra­sver­sa­li.

Ge­ne­ral­men­te, il data mining è stret­ta­men­te connesso ai big data, cioè delle banche dati che non possono essere comprese ma­nual­men­te e ri­chie­do­no quindi un’analisi ef­fet­tua­ta con l’aiuto del computer. In linea di massima, però, i metodi di data mining si applicano su qualsiasi quantità di dati. Le co­no­scen­ze che vengono acquisite tramite il data mining vengono usate nella strategia impiegata per un business online e nelle varie decisioni di marketing. Ugual­men­te ete­ro­ge­nei sono i campi di ap­pli­ca­zio­ne.

Campi di ap­pli­ca­zio­ne del data mining

Il data mining offre la pos­si­bi­li­tà di ot­ti­miz­za­re l’e-commerce su base scien­ti­fi­ca. Infatti, i grandi database, uti­liz­za­ti nel business online, sono alla base di spie­ga­zio­ni e pro­no­sti­ci. Elaborati sta­ti­sti­ca­men­te e vi­sua­liz­za­ti sotto forma di sta­ti­sti­che, con­sen­to­no a chi gestisce un negozio online di iden­ti­fi­ca­re i fattori per un business online di successo e di calcolare le strategie di marketing di un negozio online sulla base di modelli. Il data mining viene applicato per:

  • seg­men­ta­re i mercati;
  • ana­liz­za­re i carrelli;
  • delineare i profili dei com­pra­to­ri;
  • calcolare i prezzi dei prodotti;
  • formulare i pro­no­sti­ci sulla durata dei contratti;
  • ana­liz­za­re la domanda;
  • iden­ti­fi­ca­re gli errori nel processo di vendita.
I software IA di IONOS
Scopri la potenza del­l'in­tel­li­gen­za ar­ti­fi­cia­le
  • Siti web in tempo record
  • Soluzioni IA per il tuo business
  • Risparmio di tempo e risultati ec­cel­len­ti

Come funziona il data mining?

Il data mining è con­si­de­ra­to una sottofase del Knowledge Discovery in Data (KDD), che comprende le seguenti fasi:

  • Definire gli obiettivi: in primo luogo, è ne­ces­sa­rio de­ter­mi­na­re le domande spe­ci­fi­che a cui si vuole ri­spon­de­re con l’analisi dei dati. In questo modo è più facile per i pro­fes­sio­ni­sti del settore ri­co­no­sce­re i dati per­ti­nen­ti e i metodi di analisi ap­pro­pria­ti.
  • Pre-ela­bo­ra­zio­ne dei dati: la qualità dei dati di base è decisiva per la natura delle in­for­ma­zio­ni ottenute at­tra­ver­so il data mining. I dati rilevanti devono quindi essere ripuliti prima di essere ana­liz­za­ti, al fine di rimuovere duplicati, valori anomali e altre di­stor­sio­ni. I dati ripuliti possono anche dover essere con­ver­ti­ti nel formato richiesto dalla procedura di analisi.
  • Analisi dei dati: a questo punto ha luogo l’analisi ma­te­ma­ti­ca vera e propria dei dati. I metodi di analisi da uti­liz­za­re dipendono in larga misura dagli obiettivi se­le­zio­na­ti e dalle ca­rat­te­ri­sti­che dei dati. Si possono uti­liz­za­re sia gli algoritmi classici sia i più recenti algoritmi di deep learning basati sulle reti neurali.
  • In­ter­pre­ta­zio­ne dei risultati: prima di tutto, è ne­ces­sa­rio valutare i risultati dell’analisi. Se i risultati sono com­pren­si­bi­li e in­for­ma­ti­vi, è possibile iden­ti­fi­ca­re nuove cor­re­la­zio­ni e ottenere ap­pro­fon­di­men­ti che possono a loro volta in­fluen­za­re le future strategie aziendali.

I metodi del data mining

Per poter estrarre le in­for­ma­zio­ni rilevanti per il proprio business dai database di grandi di­men­sio­ni, si sono affermati diversi metodi, che si basano sull’iden­ti­fi­ca­zio­ne di relazioni im­por­tan­ti, schemi, tendenze e si servono di pro­ce­di­men­ti sta­ti­sti­ci.

  • Iden­ti­fi­ca­zio­ne delle anomalie (Outlier Detection): con anomalia si indicano i valori assoluti che emergono dal resto dei dati com­ples­si­vi, visto che si al­lon­ta­na­no dalla tendenza generale della sequenza di mi­su­ra­zio­ne. Nel data mining viene applicata l’iden­ti­fi­ca­zio­ne delle anomalie per in­di­vi­dua­re serie di dati non comuni. Nella pratica questo metodo di data mining si utilizza per sma­sche­ra­re delle tran­sa­zio­ni sospette nel caso di fal­si­fi­ca­zio­ni di carte di credito.
  • Analisi del cluster: con cluster si indica un rag­grup­pa­men­to di oggetti, che si basa sulle si­mi­li­tu­di­ni dei membri del gruppo. Lo scopo di questo metodo di analisi è la seg­men­ta­zio­ne dei dati non strut­tu­ra­ti. Per questo si applicano gli algoritmi come K-nearest neighbor (KNN) che ricercano nei database di grandi di­men­sio­ni le strutture simili per iden­ti­fi­ca­re dei nuovi cluster. Se non si riesce ad assegnare una serie di dati a un cluster, questa viene in­ter­pre­ta­ta come un’anomalia. Un classico caso di ap­pli­ca­zio­ne per l’analisi del cluster è l’iden­ti­fi­ca­zio­ne di gruppi di vi­si­ta­to­ri.
  • Clas­si­fi­ca­zio­ne: mentre nel caso dell’analisi del cluster l’iden­ti­fi­ca­zio­ne dei nuovi gruppi rimane in primo piano, con la clas­si­fi­ca­zio­ne vengono applicate delle classi pre­de­fi­ni­te. La di­stri­bu­zio­ne avviene in base a proprietà con­cor­dan­ti dei singoli dati dal database com­ples­si­vo. Un metodo comune di clas­si­fi­ca­zio­ne au­to­ma­ti­ca dei dati è rap­pre­sen­ta­to dall’albero de­ci­sio­na­le (“decision tree”). A ogni nodo viene richiesta una proprietà dell’oggetto, la cui presenza o assenza determina la scelta del nodo suc­ces­si­vo. Nel settore dell’e-commerce si applica questo pro­ce­di­men­to per sud­di­vi­de­re i clienti in diversi segmenti.
  • Analisi di as­so­cia­zio­ne: un’analisi di as­so­cia­zio­ne mira all’iden­ti­fi­ca­zio­ne delle relazioni in un database, che sono for­mu­la­bi­li come regole finali. Nell’e-commerce si ricorre a questo metodo per iden­ti­fi­ca­re le cor­re­la­zio­ni dei singoli prodotti presenti nei carrelli, secondo lo schema “se viene comprato un prodotto A, allora viene ac­qui­sta­to anche il prodotto B”.
  • Analisi di re­gres­sio­ne: grazie alle analisi di re­gres­sio­ne vengono creati dei modelli di data mining, che hanno il compito di chiarire una variabile di­pen­den­te tramite diverse in­di­pen­den­ti. Di norma si può creare, ad esempio, un pro­no­sti­co per la vendita di un prodotto, in­stau­ran­do una relazione tra il prezzo del prodotto e il reddito medio di un cliente basandosi su un modello di re­gres­sio­ne.

Limiti del data mining

Nel data mining si applicano pro­ce­di­men­ti sta­ti­sti­ci che con­sen­to­no un’analisi so­stan­zial­men­te oggettiva dei database di­spo­ni­bi­li. Tuttavia, la scelta sog­get­ti­va del processo di analisi, come pure di diversi algoritmi e parametri sulla base di de­ter­mi­na­te pre­vi­sio­ni, può portare alla fal­si­fi­ca­zio­ne dei risultati (pro­ba­bil­men­te voluta). È possibile aggirare questi effetti affidando i processi di data mining a servizi esterni.

Per con­clu­de­re, è da notare che il data mining fornisce risultati solo sotto forma di schemi e col­le­ga­men­ti tra­sver­sa­li. Si ottengono delle risposte solo quando i risultati dell’analisi vengono in­ter­pre­ta­ti in relazione alle domande pre­ce­den­ti e agli obiettivi preposti.

Vai al menu prin­ci­pa­le