Nell’era dell’in­for­ma­zio­ne, le or­ga­niz­za­zio­ni rac­col­go­no co­stan­te­men­te grandi quantità di dati. Ma nella maggior parte dei casi, i dati raccolti vengono ar­chi­via­ti senza essere ana­liz­za­ti. Questi dati, che esistono ma non vengono uti­liz­za­ti, sono chiamati Dark Data.

Compute Engine
La soluzione IaaS ideale per i tuoi carichi di lavoro
  • vCPU estre­ma­men­te van­tag­gio­se e potenti core dedicati
  • Massima fles­si­bi­li­tà senza periodo con­trat­tua­le minimo
  • Servizio di as­si­sten­za tecnica 24 ore su 24, 7 giorni su 7

Cosa sono i Dark Data?

Per Dark Data si intendono tutti quei dati acquisiti e me­mo­riz­za­ti in vario modo da un’or­ga­niz­za­zio­ne, che però non sono né co­no­sciu­ti né sfruttati dall’azienda stessa. Questi dati possono essere in­com­ple­ti, non ana­liz­za­ti, segreti oppure non (ancora) raccolti. Per com­pren­de­re al meglio il termine, è es­sen­zia­le capire la sua re­la­ti­vi­tà. Infatti, l’oscurità di questi dati per un’azienda dipende fon­da­men­tal­men­te dalla relazione che questa or­ga­niz­za­zio­ne ha con essi.

I Dark Data hanno stret­ta­men­te a che fare con il Big Data Ma­na­ge­ment. La quantità di dati generati da un’azienda so­li­ta­men­te è talmente elevata che ela­bo­rar­li e ana­liz­zar­li tutti è sem­pli­ce­men­te im­pos­si­bi­le. Come affermato dallo sta­ti­sti­co bri­tan­ni­co David Hand:

Citazione

“In tempi di Big Data, è facile pensare di avere tutte le in­for­ma­zio­ni di cui abbiamo bisogno per prendere buone decisioni. Ma in realtà i dati non sono mai completi e possono rap­pre­sen­ta­re solo la punta dell’iceberg.”

(“In the era of big data, it is easy to imagine that we have all the in­for­ma­tion we need to make good decisions. But in fact the data we have are never complete, and may be only the tip of the iceberg.”)

- David Hand

Ma cosa sono esat­ta­men­te i Dark Data? Ana­liz­zia­mo­li all’interno di quattro scenari dif­fe­ren­ti:

  1. dati di cui non si conosce ancora l’esistenza;
  2. dati che sono soggetti a in­cer­tez­ze;
  3. dati che vengono me­mo­riz­za­ti ma mai uti­liz­za­ti;
  4. dati che non sono stati ancora re­gi­stra­ti.

In tutti e quattro gli scenari, possiamo fare di­stin­zio­ne tra due casi distinti:

  1. l’or­ga­niz­za­zio­ne è con­sa­pe­vo­le che i dati sono mancanti, in­com­ple­ti o soggetti a in­cer­tez­za.

Questo caso è il meno pro­ble­ma­ti­co. Se c’è la con­sa­pe­vo­lez­za che i dati di­spo­ni­bi­li possano essere solo la punta di un iceberg, l’or­ga­niz­za­zio­ne può prendere delle con­tro­mi­su­re, come ad esempio cercare di ottenere dati più completi o valutare i dati di­spo­ni­bi­li in relazione alle in­cer­tez­ze. Adesso il secondo caso:

  1. l’or­ga­niz­za­zio­ne non sa che mancano dei dati o si presume che i dati di­spo­ni­bi­li siano completi.

Questo caso è più pro­ble­ma­ti­co. Pre­su­men­do di avere un quadro completo della si­tua­zio­ne sulla base dei dati di­spo­ni­bi­li, l’or­ga­niz­za­zio­ne sta operando con­tra­ria­men­te alla realtà dei fatti. Le con­clu­sio­ni tratte da dati in­com­ple­ti possono portare a decisioni non ottimali.

In tempi di Big Data e Data Mining i dati possono essere di vitale im­por­tan­za per le or­ga­niz­za­zio­ni, che fanno di tutto per sfrut­tar­li nel modo più pro­fit­te­vo­le possibile.

Cosa si intende con “dati”?

Il termine dati esiste da quando esiste l’in­for­ma­ti­ca. Ne parlano i politici, così come gli im­pren­di­to­ri e gli scien­zia­ti. No­no­stan­te ciò, il suo si­gni­fi­ca­to risulta difficile da com­pren­de­re per molte persone. Questo perché i dati non hanno una natura fisica. Si tratta infatti di un concetto astratto.

I dati non sono uguali alle in­for­ma­zio­ni

Prima di tutto, bisogna ricordare che i dati sono una rap­pre­sen­ta­zio­ne dell’in­for­ma­zio­ne. In pratica, i dati sono i più piccoli elementi co­sti­tu­ti­vi dell’in­for­ma­zio­ne, allo stesso modo in cui gli atomi lo sono della materia, o i fotoni dell’energia.

N.B.

Qui usiamo il termine “in­for­ma­zio­ne” come un concetto astratto, come la materia e l’energia. Quando si parla di “in­for­ma­zio­ni”, al plurale, si intendono invece espres­sio­ni concrete.

Ogni dato preso sin­go­lar­men­te è privo di si­gni­fi­ca­to. Solo l’in­ter­pre­ta­zio­ne di diversi dati dà come risultato un’in­for­ma­zio­ne uti­liz­za­bi­le. Per capirlo, pensate ai dati come a lettere in­di­vi­dua­li. Una singola lettera, per esempio la lettera ‘A’, non ha alcun si­gni­fi­ca­to in sé. Solo quando si combinano diverse lettere si ottiene una parola, per esempio “mela”. In questo caso, inoltre, è im­por­tan­te anche l’ordine in cui le lettere vengono disposte.

Le in­for­ma­zio­ni non sono quindi altro che dati, riassunti in strutture e de­li­mi­ta­ti gli uni dagli altri. Il processo di in­ter­pre­ta­zio­ne dipende dal contesto. Ciò significa che una serie di dati può essere in­ter­pre­ta­ta in modo diverso, e può risultare in diversi si­gni­fi­ca­ti. Pensate di nuovo alla parola “mela”: invece di combinare le singole lettere in una parola, potremmo contare le lettere. Il risultato sarebbe un’in­for­ma­zio­ne diversa basata sugli stessi dati.

Im­ma­gi­nia­mo la totalità dei dati di un’or­ga­niz­za­zio­ne come una montagna. La sfida per un’azienda è quindi proprio estrarre in­for­ma­zio­ni utili da questa montagna di dati. In contrasto con una montagna fisica, dove i materiali di valore vengono estratti e quindi rimossi, le in­for­ma­zio­ni utili possono in linea di principio essere estratte da una montagna di dati più volte. Dipende dal contesto e dalla pro­spet­ti­va.

La gerarchia dell’in­for­ma­zio­ne

Se l’in­for­ma­zio­ne è composta da dati, come la materia è composta da atomi, è naturale supporre che esistano ulteriori strutture superiori. In effetti, esiste una gerarchia dell’in­for­ma­zio­ne: i dati sono in fondo, seguiti dall’in­for­ma­zio­ne e infine dalla co­no­scen­za.

La co­no­scen­za non è altro che una serie di in­for­ma­zio­ni collegate fra loro. Ogni singola in­for­ma­zio­ne ha una diversa im­por­tan­za: alcune sono primarie, altre se­con­da­rie. Cruciale per la co­no­scen­za è il concetto di ri­fe­ri­men­to, che in in­for­ma­ti­ca cor­ri­spon­de a un (hyper)link: un’in­for­ma­zio­ne che riporta a un’altra unità di co­no­scen­za. Esempi di co­no­scen­za sono voci di Wikipedia, ricette o processi do­cu­men­ta­ti.

Dalla co­no­scen­za consegue l’in­tel­li­gen­za, che ci permette di trarre con­clu­sio­ni e ri­co­no­sce­re dinamiche ri­cor­ren­ti dalla co­no­scen­za appresa e dall’espe­rien­za ac­cu­mu­la­ta. Le nuove co­no­scen­ze vengono ricavate creando e testando delle ipotesi. Cruciale per l’in­tel­li­gen­za è l’in­for­ma­zio­ne ese­gui­bi­le, o in altre parole: il codice. Questi possono essere algoritmi o eu­ri­sti­che. Mentre i dati, le in­for­ma­zio­ni e la co­no­scen­za sono inerti, l’in­tel­li­gen­za richiede un ambiente di ese­cu­zio­ne. Cellule, organismi, computer e reti sono tutti sistemi dotati di in­tel­li­gen­za.

Il livello più alto nella gerarchia dell’in­for­ma­zio­ne è la saggezza. La saggezza è la somma della co­no­scen­za e dell’in­tel­li­gen­za, e permette di valutare diversi modi per trovare una soluzione equi­li­bra­ta. Le domande in­te­res­san­ti non sono tanto “cosa” (dati, in­for­ma­zio­ni) o “come” (co­no­scen­za, in­tel­li­gen­za), ma “perché” e “per cosa”. Un buon esempio di saggezza è una bi­blio­te­ca, che include non solo la co­no­scen­za sotto forma di libri e altri media, ma anche l’in­tel­li­gen­za sotto forma di personale e sistemi di ca­ta­lo­ga­zio­ne.

Managed Nextcloud di IONOS Cloud
Lavora con il tuo team sul cloud
  • Massima sicurezza dei tuoi dati
  • Strumenti di col­la­bo­ra­zio­ne per lavorare in team
  • Ag­gior­na­men­ti au­to­ma­ti­ci

Come vengono creati i Dark Data?

I processi or­ga­niz­za­ti­vi, che sono sup­por­ta­ti da metodi moderni di ela­bo­ra­zio­ne delle in­for­ma­zio­ni, producono con­ti­nua­men­te dati. Una certa parte dei dati è co­sti­tui­ta da Dark Data. Nei Dark Data, o l’in­for­ma­zio­ne che i dati esistono viene persa, o manca fin dall’inizio, oppure la co­no­scen­za di come i dati possono essere ana­liz­za­ti non è di­spo­ni­bi­le.

I Dark Data si pre­sen­ta­no in diverse forme. Come ha di­chia­ra­to l’esperto di marketing Sky Cassidy:

Citazione

“I Dark Data sono tutti i dati che le aziende rac­col­go­no e con­ser­va­no come parte dei normali processi aziendali, senza l’in­ten­zio­ne di ana­liz­zar­li. Questo include file di log, sta­ti­sti­che di un sito web, filmati di te­le­ca­me­re di sor­ve­glian­za, cor­ri­spon­den­za e-mail di ex di­pen­den­ti e molto altro ancora.”

(“So as for Dark Data, it’s all the in­for­ma­tion companies collect in their regular business processes, don’t use, have no plans to use, but will never throw out. It’s web logs, visitor tracking data, sur­veil­lan­ce footage, email cor­re­spon­den­ces from past employees, and so much more.”)

- Sky Cassidy

Dark Data generati da dati di­men­ti­ca­ti o non più ac­ces­si­bi­li

Una grande categoria di Dark Data è composta da dati a cui, per vari motivi, non è più possibile accedere.

I di­pen­den­ti con­ser­va­no con­ti­nua­men­te dati sui loro di­spo­si­ti­vi privati e aziendali. Succede fa­cil­men­te che questi dati vengano di­men­ti­ca­ti e diventino Dark Data. Ne fanno parte anche i dati su chiavette USB e dischi rigidi portatili, così come i supporti dati interni di di­spo­si­ti­vi desktop e mobili dismessi, ma anche i dati negli allegati di posta elet­tro­ni­ca e nei database inu­ti­liz­za­ti.

La sca­la­bi­li­tà quasi infinita è uno dei vantaggi del cloud, ma allo stesso tempo anche una condanna. Questo perché il cloud storage permette di con­ti­nua­re ad ac­cu­mu­la­re dati senza limite, spingendo quindi le persone a farlo. Se l’ac­cu­mu­la­zio­ne di dati avviene al di fuori di processi stret­ta­men­te re­go­la­men­ta­ti, come risultato si avrà la pro­du­zio­ne di Dark Data.

I dati ar­chi­via­ti di­gi­tal­men­te devono essere me­mo­riz­za­ti tenendo conto della loro sicurezza e pro­te­zio­ne. A questo proposito, i dati vengono criptati e l’accesso ai sistemi protetto tramite au­to­riz­za­zio­ni. Ma se le cre­den­zia­li di accesso vengono smarrite o di­men­ti­ca­te, si perde l’accesso ai dati e di con­se­guen­za alle in­for­ma­zio­ni da essi contenute.

Un’altra modalità di perdita dei dati può ve­ri­fi­car­si quando questi sono di­spo­ni­bi­li in un formato a cui non è più possibile accedere. Nel caso di un formato di file pro­prie­ta­rio, per esempio, potrebbe essere ne­ces­sa­rio un programma specifico per leggerlo. Tuttavia, può essere che il programma non possa più essere uti­liz­za­to o che non sia più di­spo­ni­bi­le nella versione richiesta. In questo caso, i dati rimangono in­trap­po­la­ti nel Vendor Lock-In.

Dark Data derivanti da dati in­com­ple­ti o non ag­gior­na­ti

Con Dark Data non si intendono sono solo i dati non più ac­ces­si­bi­li, ma anche dati in­com­ple­ti o non ag­gior­na­ti. Di nuovo con le parole dello sta­ti­sti­co David Hand:

Citazione

“I Dark Data sono dati mancanti. Può essere che tu voglia i dati di oggi, ma hai solo quelli di ieri. Forse c’è un campione distorto, magari mancano alcuni tipi di casi, oppure i valori misurati sono imprecisi - d’altronde, non esistono strumenti di misura perfetti.”

(“Dark Data are data you don’t have. This might be because you want today’s data, but all you have is yesterday’s. It might be because your sample is distorted, perhaps certain types of cases are missing. It might be because the recorded values are inac­cu­ra­te – after all, no mea­su­re­ment in­stru­ment is perfect.”)

- David Hand

Ricordate che i dati sono il livello più basso della gerarchia dell’in­for­ma­zio­ne. Le im­pre­ci­sio­ni e le de­via­zio­ni nei dati si ma­ni­fe­sta­no nei livelli di in­for­ma­zio­ne più alti. Questo di solito si traduce in effetti a cascata: piccole de­via­zio­ni portano a grandi cam­bia­men­ti. Allo stesso modo, pochi dati in­com­ple­ti possono avere grandi con­se­guen­ze.

Dark Data derivanti da dati che non sono stati ana­liz­za­ti.

Una grande categoria di Dark Data consiste in quei dati che sono stati raccolti e im­ma­gaz­zi­na­ti ma mai ana­liz­za­ti. Un volume par­ti­co­lar­men­te elevato di questi dati proviene da fonti che ne generano au­to­ma­ti­ca­men­te. Questo include i sensori, i file di log e le sta­ti­sti­che dei siti web. I dati generati vengono spesso im­ma­gaz­zi­na­ti per lunghi periodi di tempo senza che le in­for­ma­zio­ni che con­ten­go­no siano estratte e ana­liz­za­te.

Alcuni dati sono di­spo­ni­bi­li in formati che ri­chie­do­no procedure complesse per essere ana­liz­za­te. Questo include testi contenuti in file di immagini e parole contenute in file audio. In generale, le immagini digitali con­ten­go­no in­for­ma­zio­ni che possono essere re­cu­pe­ra­te in maniera au­to­ma­tiz­za­ta solo con metodi moderni di in­tel­li­gen­za ar­ti­fi­cia­le. Per iden­ti­fi­ca­re e assegnare gli oggetti raf­fi­gu­ra­ti nei dati dell’immagine vengono uti­liz­za­te tec­no­lo­gie per il ri­co­no­sci­men­to e la clas­si­fi­ca­zio­ne dei modelli. Dato che questi metodi sono ancora re­la­ti­va­men­te nuovi, è probabile che la maggior parte del materiale d’immagine im­ma­gaz­zi­na­to in tutto il mondo contenga una certa quantità di Dark Data.

Un altro scenario è quello in cui i Dark Data derivano da dati esistenti ma non ana­liz­za­ti. Ovvero, quando i dati vengono im­ma­gaz­zi­na­ti e con­ser­va­ti nel corso di security audit, senza l’in­ten­zio­ne di ana­liz­zar­li. Il problema è ben spiegato dallo sta­ti­sti­co David Hand:

Citazione

“Può anche accadere che i dati esistano e siano ac­ces­si­bi­li, ma rimangano ignorati. Dati raccolti solo per motivi di con­for­mi­tà, destinati a rimanere sepolti in un enorme magazzino di dati.”

(„It might even be that the data are available, but une­xa­mi­ned, gently decaying in a giant data warehouse, unlooked at because they were collected purely for com­plian­ce reasons.”)

- David Hand

Dark Data derivanti da dati che non sono ancora stati raccolti

I Dark Data possono assumere anche un’altra forma. In questo caso di natura più teorica, perché si tratta di dati che non sono ancora stati raccolti. Na­tu­ral­men­te, questi dati (che non esistono ancora) sono al di fuori della visione dell’or­ga­niz­za­zio­ne. Pertanto, possono anche loro essere con­si­de­ra­ti Dark Data.

Lo sta­ti­sti­co David Hand si rifà all’astro­fi­si­ca pro­po­nen­do un’analogia con il famoso concetto di “materia oscura”:

Citazione

“Proprio come gran parte dell’universo è composto da materia oscura, in­vi­si­bi­le per noi ma comunque presente, l’universo dell’in­for­ma­zio­ne è pieno di dati oscuri, che tra­scu­ria­mo a nostro rischio e pericolo.”

(„Just as much of the universe is composed of dark matter, invisible to us but no­ne­the­less present, the universe of in­for­ma­tion is full of Dark Data that we overlook at our peril.”)

-David Hand

Perché i Dark Data sono un problema?

I Dark Data sono un problema per le aziende e altre or­ga­niz­za­zio­ni. Le ragioni sono diverse. Qui di seguito di­scu­tia­mo solo i casi in cui i dati esistono realmente, esclu­den­do quei casi in cui i dati non esistono ancora.

Con­ser­va­re i Dark Data è inef­fi­cien­te

L’im­ma­gaz­zi­na­men­to di qualsiasi dato richiede risorse. Questo include, in par­ti­co­la­re, lo spazio di ar­chi­via­zio­ne e l’energia da parte del gestore dello spazio, che com­por­ta­no dei costi da parte dell’or­ga­niz­za­zio­ne.

L’ef­fi­cien­za è definita come il quoziente tra il beneficio e le energie spese. Se si ottiene un alto beneficio con un basso dispendio di energia, si parla di alta ef­fi­cien­za. Invece, un basso beneficio con un alto dispendio di energia significa che l’ef­fi­cien­za è bassa.

Efficienza = beneficio / energia spesa

I dati do­vreb­be­ro essere utili. Invece, l’utilità effettiva dei Dark Data è limitata. Cio­no­no­stan­te, è ne­ces­sa­rio un dispendio di energie continuo per con­ser­va­re questi dati. Di con­se­guen­za, l’ar­chi­via­zio­ne dei Dark Data è inef­fi­cien­te.

La dif­fi­col­tà di trovare l’ago delle in­for­ma­zio­ni nel pagliaio dei Dark Data

Im­ma­gi­nia­mo l’insieme dei dati di un’or­ga­niz­za­zio­ne come un iceberg. La maggior parte dei dati sono Dark Data. Purtroppo però, i dati utili non si ac­cu­mu­la­no in su­per­fi­cie, ma si mescolano con i Dark Data, e separarli spesso può rivelarsi piuttosto com­pli­ca­to. Per trovare dati utili, bisogna cercare in nell’intero iceberg, dalla punta alla base.

A causa dell’enorme massa di Dark Data, le in­for­ma­zio­ni utili spesso rimangono nascoste. A volte non è chiaro se i dati abbiano un qualche valore. Inoltre, dati mancanti o errati portano a in­for­ma­zio­ni errate. I Dark Data in­fluen­za­no quindi quali con­clu­sio­ni vengono tratte dalle in­for­ma­zio­ni di­spo­ni­bi­li. Questo limita il com­por­ta­men­to “in­tel­li­gen­te” dell’or­ga­niz­za­zio­ne.

Nessuno sa cosa con­ten­ga­no esat­ta­men­te i Dark Data

I Dark Data sono per de­fi­ni­zio­ne oscuri. Non si può mai essere sicuri che con­ten­ga­no in­for­ma­zio­ni utili, ma non si può nemmeno escludere che i dati con­ten­ga­no in­for­ma­zio­ni sensibili, che non devono cadere nelle mani sbagliate.

I dati sono di solito con­ser­va­ti per lunghi periodi di tempo. Ed essendo i Dark Data so­li­ta­men­te poco utili per le or­ga­niz­za­zio­ni, spesso manca la mo­ti­va­zio­ne per metterli al sicuro, e una volta me­mo­riz­za­ti rimangono inu­ti­liz­za­ti e presto di­men­ti­ca­ti. Per questo non è im­pro­ba­bi­le che ci siano Dark Data non ade­gua­ta­men­te protetti.

In linea di principio, i dati possono sempre contenere in­for­ma­zio­ni soggette a una pro­te­zio­ne speciale. Nella maggior parte dei casi, i dati in­di­vi­dua­li sono innocui. D’altra parte, però, non è im­pro­ba­bi­le che da grandi volumi di dati possano essere estratte in­for­ma­zio­ni sensibili. Per esempio, dai dati di lo­ca­liz­za­zio­ne raccolti su lunghi periodi di tempo possono essere ri­co­strui­ti i movimenti di una persona. Un’eventuale perdita di Dark Data può quindi com­por­ta­re rischi non in­dif­fe­ren­ti.

Oltre alla perdita di dati sensibili, c’è un altro rischio associato ai Dark Data: dopo un guasto, questi dati po­treb­be­ro non essere re­cu­pe­ra­ti durante un Disaster Recovery. Facciamo un esempio: im­ma­gi­nia­mo un sistema per­fet­ta­men­te fun­zio­nan­te, di cui si pensa di conoscere tutte le com­po­nen­ti, op­por­tu­na­men­te salvate tramite backup cloud. Nessuno sapeva però che una di queste com­po­nen­ti com­pren­de­va dei Dark Data. Una volta ri­pri­sti­na­to il sistema tramite disaster recovery, ci si accorge che una parte fon­da­men­ta­le di quel sistema è andata perduta. Nel peggiore dei casi, questo sistema non potrà più essere ri­pri­sti­na­to.

Managed Nextcloud di IONOS Cloud
Lavora con il tuo team sul cloud
  • Massima sicurezza dei tuoi dati
  • Strumenti di col­la­bo­ra­zio­ne per lavorare in team
  • Ag­gior­na­men­ti au­to­ma­ti­ci

I Dark Data sono difficili da smaltire

Una montagna di dati è difficile da tenere sotto controllo. I Dark Data po­treb­be­ro contenere in­for­ma­zio­ni utili o sensibili. A volte le or­ga­niz­za­zio­ni sono tenuta a con­ser­va­re questi dati per un certo periodo di tempo. Questo significa che non è possibile eli­mi­nar­li fa­cil­men­te.

Questa con­di­zio­ne è ap­pros­si­ma­ti­va­men­te pa­ra­go­na­bi­le ai rifiuti tossici, che sono difficili o im­pos­si­bi­li da separare e smaltire. Se una ton­nel­la­ta di rifiuti contiene un grammo di materiale altamente tossico, l’intera ton­nel­la­ta viene trattata come rifiuto pe­ri­co­lo­so. Così i dati con­ti­nua­no ad essere im­ma­gaz­zi­na­ti, la montagna di dati continua a aumentare, e con essa aumentano anche i costi per il loro stoc­cag­gio.

Vai al menu prin­ci­pa­le