Per dare una definizione di Data Mining, è utile decifrare la metafora su cui si basa e scoprirne il metodo di analisi alla base. Se si tende a considerare l’output notevole che deriva dal tracking costante delle attività dei visitatori su Internet come una montagna di dati inutile, con il Data Mining (letteralmente “estrazione dei dati”) si avranno gli strumenti necessari per comprendere i risultati raccolti e accedere alle informazioni rilevanti. Al contrario di quanto avvenga in miniera (il classico luogo dedicato alle estrazioni), vengono applicati dei metodi statistici, che consentono di identificare le tendenze e i collegamenti trasversali.
Generalmente il Data Mining è strettamente connesso ai Big Data, cioè delle banche dati che non possono essere comprese manualmente e richiedono quindi un’analisi effettuata con l’aiuto del computer. In linea di massima, però, i metodi di Data Mining si applicano su qualsiasi quantità di dati.
Il Data Mining è parte integrante del Knowledge Discovery in Databases (KDD), che comprende i seguenti processi:
- scelta dei database;
- preelaborazione con l’obiettivo di normalizzare i dati;
- trasformazione nella forma necessaria per il processo di analisi;
- analisi per mezzo di processi matematici (Data Mining);
- interpretazione dei risultati dell’analisi.
Le conoscenze che vengono acquisite tramite KDD vengono impiegate nella strategia del business e nelle varie decisioni di marketing. Ugualmente eterogenei sono i campi di applicazione.