Per poter comprendere meglio il termine metadati, immaginate un semplice esempio: si invia una lettera per posta. Ora, il documento contenuto nella busta corrisponde ai dati reali e primari. Questi dati sono privati e protetti dalla legge contro l’accesso di terzi per cui si applica il principio di libertà e segretezza della corrispondenza.
La busta contiene i metadati della lettera, ovvero dei dati aggiuntivi che accompagnano i dati primari:
- Indirizzo e mittente
- Timbro postale e francobollo
- Se necessario, identificatori supplementari come i codici a barre
Come potete vedere, tutto sommato i dati secondari sono quelli che rendono possibile l’invio della lettera in primo luogo. I metadati della lettera sono però visibili a chiunque. Ciò significa che non sono particolarmente protetti dal principio di segretezza della corrispondenza, anche se si applica il segreto postale.
Detto ciò, qual è il pericolo rappresentato dai metadati? Non è un problema se i singoli metadati possono essere letti. Se, ad esempio, una terza parte venisse a conoscenza dell’esistenza di una singola busta, di solito non ci sarebbe da preoccuparsi. Tuttavia, quando vi sono in gioco più dati ciò cambia, come nel caso dell’archiviazione massiccia dei dati e della loro valutazione. Su una scala più ampia, emergono modelli che rivelano molto sul comportamento di una persona: ad esempio, chi ha comunicato con chi e quando? Attraverso questi modelli è infatti possibile identificare reti e catene di comunicazione.
La distinzione tra dati e metadati è chiara. La classificazione dipende dal contesto e dalla prospettiva. Vi proponiamo un altro esempio: un libro contiene dei dati primari, quali il titolo del libro e il suo contenuto. Inoltre, è disponibile un insieme di metadati utile per la pubblicazione del libro stesso:
- Autore
- Editore
- Tempo e luogo in cui il libro è stato pubblicato
- Edizione
- Codice ISBN
Immaginiamo che i metadati di diverse pubblicazioni siano raccolti in un database. Per quanto riguarda questo tipo di database, le informazioni sulla pubblicazione rappresentano dei dati primari. Inoltre, vi sarebbe una nuova serie di metadati per ogni pubblicazione. Ad esempio, per ogni pubblicazione, il database potrebbe memorizzare quando una voce è stata aggiunta e da quale utente.