Cosa sono i metadati?

Da qualche anno ormai, il termine metadati è sulla bocca di tutti. Oggi, miliardi di persone in tutto il mondo utilizzano i media digitali e in questo processo vengono costantemente generate grandi quantità di metadati. Il termine “cittadino trasparente” è talvolta usato per descrivere il rischio alla protezione dei dati che ne deriva.

La valutazione dei metadati da parte dell’intelligenza artificiale fornisce previsioni sul comportamento degli utenti. In prospettiva, questo rappresenta una seria minaccia alla privacy dei cittadini e in senso più ampio alla democrazia. Eppure, i metadati non sono una cosa negativa. In questo articolo, vi spieghiamo cosa sono in realtà i metadati.

Qual è la differenza tra dati e metadati?

Definizione

Metadati: Il termine si riferisce alle informazioni che integrano i dati reali. Spesso, i metadati forniscono maggiori dettagli sul contesto del contenuto di un file o danno istruzioni su come gestire i dati stessi. In questo modo, i metadati giocano un ruolo importante sia nell’informatica che nell’elaborazione tradizionale dei dati (comprese cose come i cataloghi delle biblioteche o il sistema postale).

Per poter comprendere meglio il termine metadati, immaginate un semplice esempio: si invia una lettera per posta. Ora, il documento contenuto nella busta corrisponde ai dati reali e primari. Questi dati sono privati e protetti dalla legge contro l’accesso di terzi per cui si applica il principio di libertà e segretezza della corrispondenza.

La busta contiene i metadati della lettera, ovvero dei dati aggiuntivi che accompagnano i dati primari:

  • Indirizzo e mittente
  • Timbro postale e francobollo
  • Se necessario, identificatori supplementari come i codici a barre

Come potete vedere, tutto sommato i dati secondari sono quelli che rendono possibile l’invio della lettera in primo luogo. I metadati della lettera sono però visibili a chiunque. Ciò significa che non sono particolarmente protetti dal principio di segretezza della corrispondenza, anche se si applica il segreto postale.

Detto ciò, qual è il pericolo rappresentato dai metadati? Non è un problema se i singoli metadati possono essere letti. Se, ad esempio, una terza parte venisse a conoscenza dell’esistenza di una singola busta, di solito non ci sarebbe da preoccuparsi. Tuttavia, quando vi sono in gioco più dati ciò cambia, come nel caso dell’archiviazione massiccia dei dati e della loro valutazione. Su una scala più ampia, emergono modelli che rivelano molto sul comportamento di una persona: ad esempio, chi ha comunicato con chi e quando? Attraverso questi modelli è infatti possibile identificare reti e catene di comunicazione.

La distinzione tra dati e metadati è chiara. La classificazione dipende dal contesto e dalla prospettiva. Vi proponiamo un altro esempio: un libro contiene dei dati primari, quali il titolo del libro e il suo contenuto. Inoltre, è disponibile un insieme di metadati utile per la pubblicazione del libro stesso:

  • Autore
  • Editore
  • Tempo e luogo in cui il libro è stato pubblicato
  • Edizione
  • Codice ISBN

Immaginiamo che i metadati di diverse pubblicazioni siano raccolti in un database. Per quanto riguarda questo tipo di database, le informazioni sulla pubblicazione rappresentano dei dati primari. Inoltre, vi sarebbe una nuova serie di metadati per ogni pubblicazione. Ad esempio, per ogni pubblicazione, il database potrebbe memorizzare quando una voce è stata aggiunta e da quale utente.

Che tipi di metadati esistono e come vengono utilizzati?

I metadati si trovano in tutte le aree di archiviazione ed elaborazione dei dati. L’utilizzo dei metadati non può essere descritto in modo definitivo. Vi sono tuttavia tre aree principali di utilizzo:

1. Per fornire il contesto delle informazioni.

I metadati spesso descrivono il processo che ha portato alla creazione delle informazioni. Si pensi, ad esempio, alle coordinate geografiche con cui vengono etichettate le foto digitali. Questo contesto una volta perso non può essere ricostruito e quindi viene conservato.

2. Per fornire informazioni che sarebbero altrimenti difficili da reperire.

Considerate ad esempio la lunghezza di un video. Questa lunghezza è incorporata sottoforma di timer nel file video. Senza salvare la durata di un video, la lunghezza andrebbe calcolata manualmente. Un possibile approccio sarebbe quello di contare il numero di fotogrammi e dividerlo per il frame rate, il che rappresenterebbe uno sforzo relativamente alto.

3. Collegare le informazioni, rendendole facilmente recuperabili e ricercabili.

L’obiettivo principale in questo caso è quello di supportare le informazioni leggibili dall’uomo con dei dati leggibili dalla macchina. Lo scopo è di usare dei processi automatizzati per stabilire relazioni tra pezzi di informazione. In particolare, consideriamo i dati strutturati che, quando vengono collegati, creano un cosiddetto “web semantico”.

Metadati che descrivono immagini

Le immagini scattate con fotocamere digitali e smartphone contengono una grande quantità di metadati. Da un lato, si tratta di dati tecnici, quali le dimensioni dell’immagine, la fotocamera utilizzata, la lunghezza focale, ecc. Questi fattori sono definiti dallo standard EXIF e vengono creati automaticamente dalla fotocamera. Inoltre, lo standard IPTC definisce i metadati che descrivono il contenuto della foto e vengono inseriti dall’utente.

Standard Metadati d’immagine Creazione
EXIF Informazioni sull’immagine quali dimensioni, spazio di colore, canali di colore, ecc.; informazioni fotografiche, quali tempo di esposizione, apertura, ISO, ecc. Automatico durante la registrazione
IPTC Parole chiave, diritti d’autore, informazioni su luogo e ora, descrizione dei contenuti, ecc. Inseriti manualmente dall’utente

Quando si condividono delle immagini digitali, bisogna fare attenzione. Ciò perché i metadati dell’immagine possono contenere informazioni private sull’autore. Molte app e social network cancellano automaticamente questi dati dalle immagini quando vengono caricate. Tuttavia, è meglio non affidarsi esclusivamente a questi meccanismi. In certi casi, è meglio usare uno strumento apposito per cancellare le informazioni dell’immagine.

Metadati incorporati nei video digitali

Un file video consiste tipicamente in un contenitore che racchiude vari dati. I dati primari di un video includono il contenuto e l’audio del video, codificati. I metadati aggiuntivi che sono incorporati includono:

  • Lunghezza del video
  • Velocità di trasferimento dati e dimensioni dell’immagine
  • Dettagli dei codec audio e video utilizzati
  • Sottotitoli, se applicabili in diverse lingue

Metadati assegnati ai file

Un file in un sistema digitale include due dati principali: il contenuto del file e il nome. Inoltre, ogni file presenta una serie di metadati associati. I metadati del file sono gestiti dal sistema operativo e sono anche conosciuti come “attributi del file”. Di seguito vi presentiamo una panoramica di alcuni metadati dei file più comuni:

Metadati dei file Descrizione
Marca temporale Per la creazione, la modifica e l’ultimo accesso al file
Posizione salvata Percorso del file nel sistema di dati
Proprietà Proprietario e gruppo
Permessi sul file Lettura, diritto, esecuzione: per utenti, gruppi e altri

Oltre agli attributi dei file, alcuni tipi di file includono metadati specifici gestiti dalla rispettiva applicazione. Anche con questi metadati, c’è il rischio di rivelare informazioni riservate quando si condividono.

Metadati creati quando viene inviata un’e-mail

Un’e-mail include due parti fondamentali, così come la classica lettera postale:

Il corpo dell’e-mail contiene il messaggio vero e proprio, che corrisponde nel caso della lettera al documento nella busta. Analogamente alla busta, l’header contiene gli indirizzi del mittente e del destinatario. Anche in questo caso, alcune informazioni nell’header possono essere facilmente falsificate. Al destinatario, può quindi sembrare che un’e-mail provenga da un mittente diverso. Questo è un trucco che è spesso usato negli attacchi di spoofing.

L’header dell’e-mail contiene generalmente molti altri metadati, come:

  • Varie marche temporali
  • Informazioni sulla formattazione e la codifica del messaggio
  • Informazioni sulle fasi compiute dall’email durante la trasmissione
  • Valutazione dell’e-mail da parte dei filtri antispam
  • Nota indicante se l’e-mail è stata controllata da un antivirus

I metadati dell’header dell’e-mail sono scritti e letti dal software del server e dai programmi di applicazione. Le informazioni generate nel processo rivelano molto su un’e-mail e sul percorso che ha compiuto su Internet. Inoltre, si possono fare affermazioni sull’autenticità e la riservatezza di un’e-mail. L’header può contenere il nome host del dispositivo dell’utente e rivelare il luogo da cui è stata inviata un’e-mail.

Metadati generati quando si visita un sito web

Da un punto di vista tecnico, visitare un sito web significa recuperare un documento HTML. Il browser dell’utente recupera il documento da un server all’indirizzo specificato. Per questa operazione viene utilizzato il protocollo HTTP o HTTPS.

Oltre all’effettivo documento HTML che viene visualizzato nel browser, vengono trasmessi metadati noti quali gli header HTTP, paragonabili ai campi dell’header delle e-mail. Questi contengono informazioni sulla codifica, la trasmissione, la crittografia e la compressione della connessione HTTP.

Inoltre, durante il trasferimento vengono generati dei metadati che si accumulano sul server. Questi includono i file log in cui vengono registrati gli accessi al server, e che sono necessari per le analisi dei log. Per ogni accesso, viene scritta un’altra riga nel file log. Inoltre, il browser di solito invia ulteriori richieste al server DNS. Anche i metadati vengono generati ed eventualmente memorizzati e analizzati dal gestore del server.

Oltre all’header HTTP già menzionato, c’è anche l’header HTML. Mentre il primo si riferisce alla connessione, il secondo contiene metadati che descrivono il contenuto del documento. Di seguito riportiamo una panoramica di una tipica risposta del server HTTP. Le righe introduttive corrispondono all’header HTTP. Questo è seguito dal codice sorgente HTML con elementi HTML head e body:

HTTP/1.1 200 OK
Date: Mon, 01 Feb 2021 12:13:34 GMT
Content-Type: text/html; charset=UTF-8
Content-Length: 148
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
Server: Apache/1.3.3.7 (Unix) (Red-Hat/Linux)
Accept-Ranges: bytes
Connection: close

<html>
  <head>
    <title>Pagina di esempio</title>
  </head>
  <body>
    <p>Il testo leggibile dall’occhio umano è contenuto nel corpo del documento</p>
  </body>
</html>

Cosa significano i metadati per il marketing online e l’ottimizzazione per i motori di ricerca

In questa sezione, ci concentriamo sui metadati che sono incorporati in un documento HTML. Tralasceremo i metadati HTTP già menzionati, così come i metadati del server quali ad esempio i file log. Di solito, i metadati HTML sono incorporati nella sezione head del documento HTML.

Molti degli elementi usati nell’header HTML sono direttamente utilizzati per l’ottimizzazione per i motori di ricerca. I bot dei motori di ricerca scansionano il contenuto di un documento HTML. La parte leggibile dall’uomo presente nel corpo HTML viene estratta e indicizzata. Inoltre, vi sono metadati speciali destinati esclusivamente ai bot. Tra questi un’ulteriore distinzione è necessaria tra le varianti “classiche” e “moderne”.

Metadati di un sito web illustrati con gli elementi classici dell’head HTML

Gli elementi head HTML classici includono il titolo e una manciata di meta tag fondamentali. Il titolo è anche visibile all’utente in varie forme. Ad esempio, è visualizzato nei segnalibri o nell’header della scheda del browser. Gli altri tag “” classici sono utilizzati esclusivamente per l’ottimizzazione per i motori di ricerca. Di seguito vi presentiamo i più importanti elementi classici dell’head HTML:

Tag Descrizione Importanza
<title> Titolo del documento, visualizzato nei risultati di ricerca Fondamentale
<meta name="description"> Descrizione del documento, visualizzata nei risultati di ricerca Fondamentale
<meta name="keywords"> Parole chiave del documento, non visualizzate nei risultati di ricerca Minima
<meta name="robots"> Indicazioni per i bot dei motori di ricerca per l’elaborazione del documento Fondamentale

Metadati del sito web visualizzati con elementi head HTML moderni

Oltre ai classici elementi head HTML, oggi viene utilizzata una varietà di altri elementi per includere metadati su un sito web. Gli operatori dei motori di ricerca e i grandi gruppi tecnologici definiscono costantemente nuovi metadati. Gli elementi “” e “<link>” sono perciò ideali, in quanto possono essere ampliati. Di seguito riportiamo una panoramica dei metadati moderni frequentemente usati sui siti web:

Tag

Descrizione

Importanza

<link rel="canonical">

Tag canonical per evitare il contenuto duplicato

Fondamentale, specialmente se è presente contenuto duplicato

<link rel="alternate" hreflang="it">

Fornisce delle versioni di lingua alternative per lo stesso documento tramite hreflang

Opzionale

<meta property="og:…">

Open Graph per la pubblicazione sui social media

Opzionale

Per l’elemento “<meta>”, l’attributo “name” è usato per specificare il tipo specifico di metadati. Per l’elemento “<link>”, l’attributo “rel” è usato in modo simile. A seconda dello standard di metadati utilizzato, è possibile trovare due notazioni alternative per l’elemento “<meta>”. Le riassumiamo qui:

Come viene scritto Metadati standard
<meta name=""> HTML5
<meta property=""> RDFa
<meta itemprop=""> Microdati HTML

Metadati di un sito web definiti con Open Graph

Open Graph è un protocollo sviluppato da Google per poter arricchire un documento web con dei metadati. I dati di Open Graph forniscono delle informazioni visualizzate come una panoramica quando il documento viene condiviso sui social network. In questo modo, immagini ottimizzate, titoli e testi descrittivi possono essere specificati. Questo è utile, poiché a seconda della piattaforma, vengono applicate delle restrizioni specifiche in termini di lunghezza dei testi, dimensioni delle immagini, ecc. Il protocollo è ampiamente utilizzato da Facebook e Twitter. Vi mostriamo una panoramica dei metadati Open Graph essenziali:

Metadati Open Graph Spiegazione
<meta property="og:title"> Titolo dell’oggetto
<meta property="og:type"> Tipologia dell’oggetto, ad esempio: immagine, documento web, video, ecc.
<meta property="og:image"> Un’immagine che rappresenta un oggetto
<meta property="og:url"> L’URL canonico di un oggetto
Consiglio

Se trovate errori nel vostro contenuto web quando condividete un contenuto su Facebook, il problema è spesso associato a delle voci Open Graph difettose. In questo caso, potete risolvere l’errore con un semplice trucco: accedete al vostro account Facebook e provate lo strumento Debugger di condivisione. In questo modo indicate a Facebook di leggere nuovamente le informazioni di Open Graph.

Metadati di un sito web definiti con Rich Cards

Oltre a Open Graph, un ulteriore standard di metadati sviluppato da Google è Rich Cards. Le Rich Cards arricchiscono un documento web con metadati strutturati. Ad esempio, il sito web di un ristorante può essere integrato con informazioni sulla posizione geografica, i prezzi, gli orari di apertura, ecc. Le informazioni Rich Card possono essere messe nella sezione head o body HTML.

Tecnicamente, le Rich Cards sono derivate dallo standard dei metadati Schema.org. Per contrassegnare i metadati vengono utilizzati vari formati. Oltre ai vecchi standard che includono RDFa e microdati, oggi è anche disponibile JSON-LD. L’uso di JSON-LD è persino raccomandato ufficialmente da Google.

Per offrirti una migliore esperienza di navigazione online questo sito web usa dei cookie, propri e di terze parti. Continuando a navigare sul sito acconsenti all’utilizzo dei cookie. Scopri di più sull’uso dei cookie e sulla possibilità di modificarne le impostazioni o negare il consenso.