Da qualche anno ormai, il termine metadati è sulla bocca di tutti. Oggi, miliardi di persone in tutto il mondo uti­liz­za­no i media digitali e in questo processo vengono co­stan­te­men­te generate grandi quantità di metadati. Il termine “cittadino tra­spa­ren­te” è talvolta usato per de­scri­ve­re il rischio alla pro­te­zio­ne dei dati che ne deriva.

La va­lu­ta­zio­ne dei metadati da parte dell’in­tel­li­gen­za ar­ti­fi­cia­le fornisce pre­vi­sio­ni sul com­por­ta­men­to degli utenti. In pro­spet­ti­va, questo rap­pre­sen­ta una seria minaccia alla privacy dei cittadini e in senso più ampio alla de­mo­cra­zia. Eppure, i metadati non sono una cosa negativa. In questo articolo, vi spie­ghia­mo cosa sono in realtà i metadati.

Qual è la dif­fe­ren­za tra dati e metadati?

De­fi­ni­zio­ne

Metadati: Il termine si riferisce alle in­for­ma­zio­ni che integrano i dati reali. Spesso, i metadati for­ni­sco­no maggiori dettagli sul contesto del contenuto di un file o danno istru­zio­ni su come gestire i dati stessi. In questo modo, i metadati giocano un ruolo im­por­tan­te sia nell’in­for­ma­ti­ca che nell’ela­bo­ra­zio­ne tra­di­zio­na­le dei dati (comprese cose come i cataloghi delle bi­blio­te­che o il sistema postale).

Per poter com­pren­de­re meglio il termine metadati, im­ma­gi­na­te un semplice esempio: si invia una lettera per posta. Ora, il documento contenuto nella busta cor­ri­spon­de ai dati reali e primari. Questi dati sono privati e protetti dalla legge contro l’accesso di terzi per cui si applica il principio di libertà e se­gre­tez­za della cor­ri­spon­den­za.

La busta contiene i metadati della lettera, ovvero dei dati ag­giun­ti­vi che ac­com­pa­gna­no i dati primari:

  • Indirizzo e mittente
  • Timbro postale e fran­co­bol­lo
  • Se ne­ces­sa­rio, iden­ti­fi­ca­to­ri sup­ple­men­ta­ri come i codici a barre

Come potete vedere, tutto sommato i dati secondari sono quelli che rendono possibile l’invio della lettera in primo luogo. I metadati della lettera sono però visibili a chiunque. Ciò significa che non sono par­ti­co­lar­men­te protetti dal principio di se­gre­tez­za della cor­ri­spon­den­za, anche se si applica il segreto postale.

Detto ciò, qual è il pericolo rap­pre­sen­ta­to dai metadati? Non è un problema se i singoli metadati possono essere letti. Se, ad esempio, una terza parte venisse a co­no­scen­za dell’esistenza di una singola busta, di solito non ci sarebbe da pre­oc­cu­par­si. Tuttavia, quando vi sono in gioco più dati ciò cambia, come nel caso dell’ar­chi­via­zio­ne massiccia dei dati e della loro va­lu­ta­zio­ne. Su una scala più ampia, emergono modelli che rivelano molto sul com­por­ta­men­to di una persona: ad esempio, chi ha co­mu­ni­ca­to con chi e quando? At­tra­ver­so questi modelli è infatti possibile iden­ti­fi­ca­re reti e catene di co­mu­ni­ca­zio­ne.

La di­stin­zio­ne tra dati e metadati è chiara. La clas­si­fi­ca­zio­ne dipende dal contesto e dalla pro­spet­ti­va. Vi pro­po­nia­mo un altro esempio: un libro contiene dei dati primari, quali il titolo del libro e il suo contenuto. Inoltre, è di­spo­ni­bi­le un insieme di metadati utile per la pub­bli­ca­zio­ne del libro stesso:

  • Autore
  • Editore
  • Tempo e luogo in cui il libro è stato pub­bli­ca­to
  • Edizione
  • Codice ISBN

Im­ma­gi­nia­mo che i metadati di diverse pub­bli­ca­zio­ni siano raccolti in un database. Per quanto riguarda questo tipo di database, le in­for­ma­zio­ni sulla pub­bli­ca­zio­ne rap­pre­sen­ta­no dei dati primari. Inoltre, vi sarebbe una nuova serie di metadati per ogni pub­bli­ca­zio­ne. Ad esempio, per ogni pub­bli­ca­zio­ne, il database potrebbe me­mo­riz­za­re quando una voce è stata aggiunta e da quale utente.

Che tipi di metadati esistono e come vengono uti­liz­za­ti?

I metadati si trovano in tutte le aree di ar­chi­via­zio­ne ed ela­bo­ra­zio­ne dei dati. L’utilizzo dei metadati non può essere descritto in modo de­fi­ni­ti­vo. Vi sono tuttavia tre aree prin­ci­pa­li di utilizzo:

1. Per fornire il contesto delle in­for­ma­zio­ni.

I metadati spesso de­scri­vo­no il processo che ha portato alla creazione delle in­for­ma­zio­ni. Si pensi, ad esempio, alle coor­di­na­te geo­gra­fi­che con cui vengono eti­chet­ta­te le foto digitali. Questo contesto una volta perso non può essere ri­co­strui­to e quindi viene con­ser­va­to.

2. Per fornire in­for­ma­zio­ni che sarebbero al­tri­men­ti difficili da reperire.

Con­si­de­ra­te ad esempio la lunghezza di un video. Questa lunghezza è in­cor­po­ra­ta sot­to­for­ma di timer nel file video. Senza salvare la durata di un video, la lunghezza andrebbe calcolata ma­nual­men­te. Un possibile approccio sarebbe quello di contare il numero di fo­to­gram­mi e dividerlo per il frame rate, il che rap­pre­sen­te­reb­be uno sforzo re­la­ti­va­men­te alto.

3. Collegare le in­for­ma­zio­ni, ren­den­do­le fa­cil­men­te re­cu­pe­ra­bi­li e ri­cer­ca­bi­li.

L’obiettivo prin­ci­pa­le in questo caso è quello di sup­por­ta­re le in­for­ma­zio­ni leggibili dall’uomo con dei dati leggibili dalla macchina. Lo scopo è di usare dei processi au­to­ma­tiz­za­ti per stabilire relazioni tra pezzi di in­for­ma­zio­ne. In par­ti­co­la­re, con­si­de­ria­mo i dati strut­tu­ra­ti che, quando vengono collegati, creano un co­sid­det­to “web semantico”.

Metadati che de­scri­vo­no immagini

Le immagini scattate con fo­to­ca­me­re digitali e smart­pho­ne con­ten­go­no una grande quantità di metadati. Da un lato, si tratta di dati tecnici, quali le di­men­sio­ni dell’immagine, la fo­to­ca­me­ra uti­liz­za­ta, la lunghezza focale, ecc. Questi fattori sono definiti dallo standard EXIF e vengono creati au­to­ma­ti­ca­men­te dalla fo­to­ca­me­ra. Inoltre, lo standard IPTC definisce i metadati che de­scri­vo­no il contenuto della foto e vengono inseriti dall’utente.

Standard Metadati d’immagine Creazione
EXIF In­for­ma­zio­ni sull’immagine quali di­men­sio­ni, spazio di colore, canali di colore, ecc.; in­for­ma­zio­ni fo­to­gra­fi­che, quali tempo di espo­si­zio­ne, apertura, ISO, ecc. Au­to­ma­ti­co durante la re­gi­stra­zio­ne
IPTC Parole chiave, diritti d’autore, in­for­ma­zio­ni su luogo e ora, de­scri­zio­ne dei contenuti, ecc. Inseriti ma­nual­men­te dall’utente

Quando si con­di­vi­do­no delle immagini digitali, bisogna fare at­ten­zio­ne. Ciò perché i metadati dell’immagine possono contenere in­for­ma­zio­ni private sull’autore. Molte app e social network can­cel­la­no au­to­ma­ti­ca­men­te questi dati dalle immagini quando vengono caricate. Tuttavia, è meglio non affidarsi esclu­si­va­men­te a questi mec­ca­ni­smi. In certi casi, è meglio usare uno strumento apposito per can­cel­la­re le in­for­ma­zio­ni dell’immagine.

Metadati in­cor­po­ra­ti nei video digitali

Un file video consiste ti­pi­ca­men­te in un con­te­ni­to­re che racchiude vari dati. I dati primari di un video includono il contenuto e l’audio del video, co­di­fi­ca­ti. I metadati ag­giun­ti­vi che sono in­cor­po­ra­ti includono:

  • Lunghezza del video
  • Velocità di tra­sfe­ri­men­to dati e di­men­sio­ni dell’immagine
  • Dettagli dei codec audio e video uti­liz­za­ti
  • Sot­to­ti­to­li, se ap­pli­ca­bi­li in diverse lingue

Metadati assegnati ai file

Un file in un sistema digitale include due dati prin­ci­pa­li: il contenuto del file e il nome. Inoltre, ogni file presenta una serie di metadati associati. I metadati del file sono gestiti dal sistema operativo e sono anche co­no­sciu­ti come “attributi del file”. Di seguito vi pre­sen­tia­mo una pa­no­ra­mi­ca di alcuni metadati dei file più comuni:

Metadati dei file De­scri­zio­ne
Marca temporale Per la creazione, la modifica e l’ultimo accesso al file
Posizione salvata Percorso del file nel sistema di dati
Proprietà Pro­prie­ta­rio e gruppo
Permessi sul file Lettura, diritto, ese­cu­zio­ne: per utenti, gruppi e altri

Oltre agli attributi dei file, alcuni tipi di file includono metadati specifici gestiti dalla ri­spet­ti­va ap­pli­ca­zio­ne. Anche con questi metadati, c’è il rischio di rivelare in­for­ma­zio­ni riservate quando si con­di­vi­do­no.

Metadati creati quando viene inviata un’e-mail

Un’e-mail include due parti fon­da­men­ta­li, così come la classica lettera postale:

Il corpo dell’e-mail contiene il messaggio vero e proprio, che cor­ri­spon­de nel caso della lettera al documento nella busta. Ana­lo­ga­men­te alla busta, l’header contiene gli indirizzi del mittente e del de­sti­na­ta­rio. Anche in questo caso, alcune in­for­ma­zio­ni nell’header possono essere fa­cil­men­te fal­si­fi­ca­te. Al de­sti­na­ta­rio, può quindi sembrare che un’e-mail provenga da un mittente diverso. Questo è un trucco che è spesso usato negli attacchi di spoofing.

L’header dell’e-mail contiene ge­ne­ral­men­te molti altri metadati, come:

  • Varie marche temporali
  • In­for­ma­zio­ni sulla for­mat­ta­zio­ne e la codifica del messaggio
  • In­for­ma­zio­ni sulle fasi compiute dall’email durante la tra­smis­sio­ne
  • Va­lu­ta­zio­ne dell’e-mail da parte dei filtri antispam
  • Nota indicante se l’e-mail è stata con­trol­la­ta da un antivirus

I metadati dell’header dell’e-mail sono scritti e letti dal software del server e dai programmi di ap­pli­ca­zio­ne. Le in­for­ma­zio­ni generate nel processo rivelano molto su un’e-mail e sul percorso che ha compiuto su Internet. Inoltre, si possono fare af­fer­ma­zio­ni sull’au­ten­ti­ci­tà e la ri­ser­va­tez­za di un’e-mail. L’header può contenere il nome host del di­spo­si­ti­vo dell’utente e rivelare il luogo da cui è stata inviata un’e-mail.

Metadati generati quando si visita un sito web

Da un punto di vista tecnico, visitare un sito web significa re­cu­pe­ra­re un documento HTML. Il browser dell’utente recupera il documento da un server all’indirizzo spe­ci­fi­ca­to. Per questa ope­ra­zio­ne viene uti­liz­za­to il pro­to­col­lo HTTP o HTTPS.

Oltre all’effettivo documento HTML che viene vi­sua­liz­za­to nel browser, vengono trasmessi metadati noti quali gli header HTTP, pa­ra­go­na­bi­li ai campi dell’header delle e-mail. Questi con­ten­go­no in­for­ma­zio­ni sulla codifica, la tra­smis­sio­ne, la crit­to­gra­fia e la com­pres­sio­ne della con­nes­sio­ne HTTP.

Inoltre, durante il tra­sfe­ri­men­to vengono generati dei metadati che si ac­cu­mu­la­no sul server. Questi includono i file log in cui vengono re­gi­stra­ti gli accessi al server, e che sono necessari per le analisi dei log. Per ogni accesso, viene scritta un’altra riga nel file log. Inoltre, il browser di solito invia ulteriori richieste al server DNS. Anche i metadati vengono generati ed even­tual­men­te me­mo­riz­za­ti e ana­liz­za­ti dal gestore del server.

Oltre all’header HTTP già men­zio­na­to, c’è anche l’header HTML. Mentre il primo si riferisce alla con­nes­sio­ne, il secondo contiene metadati che de­scri­vo­no il contenuto del documento. Di seguito ri­por­tia­mo una pa­no­ra­mi­ca di una tipica risposta del server HTTP. Le righe in­tro­dut­ti­ve cor­ri­spon­do­no all’header HTTP. Questo è seguito dal codice sorgente HTML con elementi HTML head e body:

HTTP/1.1 200 OK
Date: Mon, 01 Feb 2021 12:13:34 GMT
Content-Type: text/html; charset=UTF-8
Content-Length: 148
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
Server: Apache/1.3.3.7 (Unix) (Red-Hat/Linux)
Accept-Ranges: bytes
Connection: close
<html>
    <head>
        <title>Pagina di esempio</title>
    </head>
    <body>
        <p>Il testo leggibile dall’occhio umano è contenuto nel corpo del documento</p>
    </body>
</html>

Cosa si­gni­fi­ca­no i metadati per il marketing online e l’ot­ti­miz­za­zio­ne per i motori di ricerca

In questa sezione, ci con­cen­tria­mo sui metadati che sono in­cor­po­ra­ti in un documento HTML. Tra­la­sce­re­mo i metadati HTTP già men­zio­na­ti, così come i metadati del server quali ad esempio i file log. Di solito, i metadati HTML sono in­cor­po­ra­ti nella sezione head del documento HTML.

Molti degli elementi usati nell’header HTML sono di­ret­ta­men­te uti­liz­za­ti per l’ot­ti­miz­za­zio­ne per i motori di ricerca. I bot dei motori di ricerca scan­sio­na­no il contenuto di un documento HTML. La parte leggibile dall’uomo presente nel corpo HTML viene estratta e in­di­ciz­za­ta. Inoltre, vi sono metadati speciali destinati esclu­si­va­men­te ai bot. Tra questi un’ulteriore di­stin­zio­ne è ne­ces­sa­ria tra le varianti “classiche” e “moderne”.

Metadati di un sito web il­lu­stra­ti con gli elementi classici dell’head HTML

Gli elementi head HTML classici includono il titolo e una manciata di meta tag fon­da­men­ta­li. Il titolo è anche visibile all’utente in varie forme. Ad esempio, è vi­sua­liz­za­to nei se­gna­li­bri o nell’header della scheda del browser. Gli altri tag “<meta>” classici sono uti­liz­za­ti esclu­si­va­men­te per l’ot­ti­miz­za­zio­ne per i motori di ricerca. Di seguito vi pre­sen­tia­mo i più im­por­tan­ti elementi classici dell’head HTML:

Tag De­scri­zio­ne Im­por­tan­za
<title> Titolo del documento, vi­sua­liz­za­to nei risultati di ricerca Fon­da­men­ta­le
<meta name="de­scrip­tion"> De­scri­zio­ne del documento, vi­sua­liz­za­ta nei risultati di ricerca Fon­da­men­ta­le
<meta name="keywords"> Parole chiave del documento, non vi­sua­liz­za­te nei risultati di ricerca Minima
<meta name="robots"> In­di­ca­zio­ni per i bot dei motori di ricerca per l’ela­bo­ra­zio­ne del documento Fon­da­men­ta­le

Metadati del sito web vi­sua­liz­za­ti con elementi head HTML moderni

Oltre ai classici elementi head HTML, oggi viene uti­liz­za­ta una varietà di altri elementi per includere metadati su un sito web. Gli operatori dei motori di ricerca e i grandi gruppi tec­no­lo­gi­ci de­fi­ni­sco­no co­stan­te­men­te nuovi metadati. Gli elementi “” e “<link>” sono perciò ideali, in quanto possono essere ampliati. Di seguito ri­por­tia­mo una pa­no­ra­mi­ca dei metadati moderni fre­quen­te­men­te usati sui siti web:

Tag De­scri­zio­ne Im­por­tan­za
<link rel="canonical"> Tag canonical per evitare il contenuto duplicato Fon­da­men­ta­le, spe­cial­men­te se è presente contenuto duplicato
<link rel="alternate" hreflang="it"> Fornisce delle versioni di lingua al­ter­na­ti­ve per lo stesso documento tramite hreflang Opzionale
<meta property="og:…"> Open Graph per la pub­bli­ca­zio­ne sui social media Opzionale

Per l’elemento “<meta>”, l’attributo “name” è usato per spe­ci­fi­ca­re il tipo specifico di metadati. Per l’elemento “<link>”, l’attributo “rel” è usato in modo simile. A seconda dello standard di metadati uti­liz­za­to, è possibile trovare due notazioni al­ter­na­ti­ve per l’elemento “<meta>”. Le rias­su­mia­mo qui:

Come viene scritto Metadati standard
<meta name=""> HTML5
<meta property=""> RDFa
<meta itemprop=""> Microdati HTML

Metadati di un sito web definiti con Open Graph

Open Graph è un pro­to­col­lo svi­lup­pa­to da Google per poter ar­ric­chi­re un documento web con dei metadati. I dati di Open Graph for­ni­sco­no delle in­for­ma­zio­ni vi­sua­liz­za­te come una pa­no­ra­mi­ca quando il documento viene condiviso sui social network. In questo modo, immagini ot­ti­miz­za­te, titoli e testi de­scrit­ti­vi possono essere spe­ci­fi­ca­ti. Questo è utile, poiché a seconda della piat­ta­for­ma, vengono applicate delle re­stri­zio­ni spe­ci­fi­che in termini di lunghezza dei testi, di­men­sio­ni delle immagini, ecc. Il pro­to­col­lo è am­pia­men­te uti­liz­za­to da Facebook e Twitter. Vi mostriamo una pa­no­ra­mi­ca dei metadati Open Graph es­sen­zia­li:

Metadati Open Graph Spie­ga­zio­ne
<meta property="og:title"> Titolo dell’oggetto
<meta property="og:type"> Tipologia dell’oggetto, ad esempio: immagine, documento web, video, ecc.
<meta property="og:image"> Un’immagine che rap­pre­sen­ta un oggetto
<meta property="og:url"> L’URL canonico di un oggetto
Consiglio

Se trovate errori nel vostro contenuto web quando con­di­vi­de­te un contenuto su Facebook, il problema è spesso associato a delle voci Open Graph difettose. In questo caso, potete risolvere l’errore con un semplice trucco: accedete al vostro account Facebook e provate lo strumento Debugger di con­di­vi­sio­ne. In questo modo indicate a Facebook di leggere nuo­va­men­te le in­for­ma­zio­ni di Open Graph.

Metadati di un sito web definiti con Rich Cards

Oltre a Open Graph, un ulteriore standard di metadati svi­lup­pa­to da Google è Rich Cards. Le Rich Cards ar­ric­chi­sco­no un documento web con metadati strut­tu­ra­ti. Ad esempio, il sito web di un ri­sto­ran­te può essere integrato con in­for­ma­zio­ni sulla posizione geo­gra­fi­ca, i prezzi, gli orari di apertura, ecc. Le in­for­ma­zio­ni Rich Card possono essere messe nella sezione head o body HTML.

Tec­ni­ca­men­te, le Rich Cards sono derivate dallo standard dei metadati Schema.org. Per con­tras­se­gna­re i metadati vengono uti­liz­za­ti vari formati. Oltre ai vecchi standard che includono RDFa e microdati, oggi è anche di­spo­ni­bi­le JSON-LD. L’uso di JSON-LD è persino rac­co­man­da­to uf­fi­cial­men­te da Google.

Vai al menu prin­ci­pa­le