Da molti anni ormai infuria una vera e propria battaglia per as­si­cu­rar­si le migliori posizioni nei risultati di ricerca di Google e simili: se un tempo la SEO era un tipo di “sport popolare” che con­si­ste­va nell’inserire più parole chiave possibili nei diversi testi di un sito web, oggi l’arte dell’ot­ti­miz­za­zio­ne per i motori di ricerca risiede prin­ci­pal­men­te nella creazione di testi unici.

Non importa che si tratti di homepage o di pagine di prodotti o categorie: sono la rilevanza e l’esclu­si­vi­tà dei contenuti, che devono di­stin­guer­si dalle pagine con­cor­ren­ti, la chiave per ag­giu­di­car­si una posizione pri­vi­le­gia­ta tra i primi risultati di ricerca. Un termine che viene sempre più uti­liz­za­to in questo contesto è la co­sid­det­ta analisi o formula WDF*IDF.

Cosa significa WDF*IDF?

WDF*IDF è una modalità di analisi che si utilizza nell’ambito dell’ot­ti­miz­za­zio­ne per i motori di ricerca per stabilire parole chiave e concetti che possono aumentare nel lungo termine la rilevanza di testi pub­bli­ca­ti e in tal modo dell’intero progetto web. Si tratta di una formula nella quale vengono mol­ti­pli­ca­ti tra di loro i due valori WDF (Within Document Frequency) e IDF (Inverse Document Frequency). Il risultato è la frequenza relativa del termine in un documento (il “peso del termine”) in rapporto a tutti gli altri documenti presenti sul web che con­ten­go­no la stessa keyword con­si­de­ra­ta nell’analisi. Prima di poter condurre un’analisi WDF*IDF occorre in­nan­zi­tut­to esaminare i due fattori men­zio­na­ti.

Come stabilire il valore della Within Document Frequency (WDF)

La Within Document Frequency descrive appunto la frequenza con cui compare un de­ter­mi­na­to termine in un documento rispetto a tutti gli altri termini contenuti. Per aumentare la validità del valore de­ter­mi­na­to, la formula si basa su un logaritmo che impedisce l’as­se­gna­zio­ne di un peso troppo rilevante al termine centrale. Il concetto è comparso per la prima volta nel 1992 nei lavori di Donna Harman, che nell’articolo “Ranking al­go­ri­thms”|In­for­ma­tion Retrieval – Chapter 14: “Ranking Algorthms” descrive la WDF come una pos­si­bi­li­tà di dare alle parole di un de­ter­mi­na­to documento un valore di peso uti­liz­za­bi­le per le scienze in­for­ma­ti­che.

Nell’ot­ti­miz­za­zio­ne di un sito web il valore WDF è da lungo tempo uti­liz­za­to come al­ter­na­ti­va al valore meno fles­si­bi­le della densità della keyword (Keyword Density), che non fa altro che co­mu­ni­ca­re la frequenza relativa di un termine chiave.

La formula per stabilire la Within Document Frequency è la seguente:

Dove le singole com­po­nen­ti dell’equazione rivestono il si­gni­fi­ca­to chiarito in tabella:

i Termine per il quale bisogna stabilire la Within Document Frequency
j Documento da ana­liz­za­re
Lj Numero totale di parole nel documento “j”
Freq(i,j) Frequenza di una parola “i” nel documento “j”
log2 Logaritmo in base 2 (del valore espresso tra parentesi)

Il valore WDF per un termine “i” nel documento “j” viene così ottenuto ap­pli­can­do il logaritmo in base 2 alla frequenza del termine con l’aggiunta di un’unità e dividendo poi per il logaritmo in base 2 del numero di tutte le parole del documento. In questo modo si ottengono in­for­ma­zio­ni più si­gni­fi­ca­ti­ve riguardo alla rilevanza del termine rispetto al semplice metodo della densità relativa. Chiariamo questo concetto con un esempio:

Una parola sotto indagine che compare 50 volte in un documento di 1.000 parole ha una Within Document Frequency di circa 0,57. La frequenza relativa si attesta perciò intorno al 6% (frequenza molto simile a quella semplice della densità, che sarebbe appunto del 5%). Se la frequenza del concetto viene for­za­ta­men­te aumentata soltanto ai fini dell’ot­ti­miz­za­zio­ne, per esempio fino a 500, il valore di WDF è di circa 0,9, un valore circa 1,5 volte più grande di quello del testo ori­gi­na­rio. Se invece si sceglie di con­si­de­ra­re il valore relativo, che è salito al 50%, si trat­te­reb­be di un valore 10 volte più grande di quello del testo ori­gi­na­rio.

Come stabilire il valore dell’Inverse Document Frequency (IDF)

L’Inverse Document Frequency (IDF), ossia il valore di frequenza inversa nel documento è un valore che non considera il si­gni­fi­ca­to di un termine basandosi sulla sua frequenza in un de­ter­mi­na­to documento, ma che misura la sua dif­fu­sio­ne e utilizzo nel corpus totale dei documenti: più un termine ha po­ten­zia­le, più alta è l’Inverse Document Frequency. Il caso ottimale è quello che il termine compaia molto spesso in pochi documenti. Invece hanno poco valore le parole che compaiono pra­ti­ca­men­te in tutti i documenti o molto raramente. Così per fare un esempio la parola “In­for­ma­zio­ni” ha un valore IDF molto basso, poiché è uti­liz­za­ta pra­ti­ca­men­te in ogni progetto web.

Per calcolare il valore dell’Inverse Document Frequency, viene uti­liz­za­ta la seguente formula che si serve anch’essa di un logaritmo:

Le diverse com­po­nen­ti dell’equazione IDF sono spiegate in tabella:

i Termine per il quale si vuole stabilire il valore dell’Inverse Document Frequency
log Logaritmo del numero ottenuto dalle parentesi su base 10
ND Numero di tutti i documenti nel corpus dei documenti (che con­ten­go­no la parola con­si­de­ra­ta)
fi Numero di tutti i documenti nei quali compare il termine “i”

Per indagare il valore IDF di un termine “i” si divide il numero totale di tutti i documenti contenuti nel corpus (e rilevanti) per il numero dei documenti che con­ten­go­no il termine, e si aggiunge infine il valore 1. Dal risultato di questa ope­ra­zio­ne si estrae il logaritmo.

Come si calcola il numero di tutti i documenti rilevanti nel corpus?

Con ND, la formula IDF contiene una com­po­nen­te che non può essere stabilita in modo uniforme: si tratta più del risultato della frequenza di tutte le parole si­gni­fi­ca­ti­ve del documento con­si­de­ra­to, nonché del numero assoluto dei documenti.

Nell’ambito di un’analisi di documenti web ai fini SEO il po­ten­zia­le numero totale è tuttavia a dir poco enorme, poiché bisogna con­si­de­ra­re tutte le pagine in­di­ciz­za­te da Google o dagli altri motori di ricerca. Per poter arrivare comunque a un valore concreto si aggiunge il numero dei risultati di ricerca di tutti i termini per­ti­nen­ti nel documento. In un documento for­te­men­te sem­pli­fi­ca­to che contiene solamente le due parole “ot­ti­miz­za­zio­ne” (6.860.000 risultati di ricerca; novembre 2018) e “analisi” (93.200.000 risultati di ricerca; novembre 2018) ND ha il valore di 100.060.000.

WDF*IDF: la com­bi­na­zio­ne delle due formule

Poiché la Within Document Frequency rap­pre­sen­ta la rilevanza di un termine all’interno di un documento par­ti­co­la­re e l’Inverse Document Frequency ri­spec­chia il ruolo di un termine in rapporto a tutti i documenti di un corpus, la com­bi­na­zio­ne di entrambi i valori fornisce una visione ap­pro­fon­di­ta dell’effettiva frequenza del termine e del po­ten­zia­le della parola con­si­de­ra­ta per l’ot­ti­miz­za­zio­ne dei contenuti del testo con­si­de­ra­to. A questo scopo occorre sem­pli­ce­men­te mol­ti­pli­ca­re i valori l’uno per l’altro, per cui la formula generale per l’analisi WDF*IDF e quindi per l’iden­ti­fi­ca­zio­ne del valore più esatto e più uti­liz­za­bi­le riguardo alla frequenza di una parola è espressa in questo modo:

Ten­den­zial­men­te si hanno in questo modo tutte le com­po­nen­ti ne­ces­sa­rie per stabilire il valore della parola uti­liz­za­ta nel testo con­si­de­ra­to. Bisogna però tener conto anche del fatto che più la base di dati è grande, mag­gior­men­te si­gni­fi­ca­ti­vi saranno i risultati.

Per fare in modo che l’analisi WDF*IDF sia davvero uti­liz­za­bi­le al fine dell’ot­ti­miz­za­zio­ne per i motori di ricerca deve essere però ef­fet­tua­ta per tutte le parole si­gni­fi­ca­ti­ve all’interno di un documento. Ma­nual­men­te ciò ri­chie­de­reb­be senza dubbio un grande dispendio di tempo ed energie, perciò un ap­pro­pria­to tool WDF*IDF è un must per il calcolo del peso di una parola. Questi programmi (vedi sotto) da un lato aiutano ad accertare la qualità del testo con­si­de­ra­to, mentre dall’altro danno anche sug­ge­ri­men­ti su quali termini manchino in un documento perché sia il più possibile unico e per­ti­nen­te.

In sintesi

La frequenza di un termine “i” nel documento “j” si può stabilire mol­ti­pli­can­do la Within Document Frequency del termine “i” nel documento “j” con l’Inverse Document Frequency del termine “i” nel corpus completo dei documenti.

I vantaggi di WDF*IDF per l’ot­ti­miz­za­zio­ne per i motori di ricerca

I vantaggi di un’analisi completa del WDF*IDF sono evidenti: i valori ottenuti per soppesare i termini centrali servono per­fet­ta­men­te come punti di ri­fe­ri­men­to per redigere testi che:

  • Pos­sie­da­no un’alta rilevanza per i motori di ricerca
  • Coprano campi tematici con poca con­cor­ren­za
  • Non facciano in alcun modo spam di keyword
  • E che siano inoltre il più possibile unici

Chi perciò non è sod­di­sfat­to del ranking del proprio sito web e vuole ot­ti­miz­zar­lo ha un potente alleato nei valori WDF*IDF. Sulla base dei dati ana­liz­za­ti si possono dare consigli concreti per ritoccare i testi, consigli che non mirano sem­pli­ce­men­te ad aumentare la densità delle keyword.

N.B.

Al di là dell’in­cre­di­bi­le aiuto che un’analisi WDF*IDF vi fornisce, non bisogna mai di­men­ti­ca­re che il contenuto è scritto prin­ci­pal­men­te per i lettori e non per i motori di ricerca. Poiché tra l’altro i motori di ricerca sono sempre più in grado di afferrare i testi a livello semantico, sul lungo periodo non c’è modo di aggirare la necessità di contenuti di qualità, in cui le parole chiave non hanno che un ruolo limitato.

Quali sono i punti deboli dell’analisi WDF*IDF?

Anche se di base i valori ri­sul­tan­ti dall’analisi WDF*IDF for­ni­sco­no input di grande valore per l’ot­ti­miz­za­zio­ne dei siti web, ci sono tuttavia un paio di punti da con­si­de­ra­re prima dell’analisi e anche nella suc­ces­si­va va­lu­ta­zio­ne dei risultati. Uno dei problemi fon­da­men­ta­li è che in un’analisi WDF*IDF vengono con­si­de­ra­ti sempre tutti gli elementi di testo di un documento, non importa che siano titoli, de­scri­zio­ni di prodotto o categorie o di­da­sca­lie delle immagini. Ciò preclude pertanto la disamina dei singoli com­po­nen­ti.

Anche nel caso in cui solo un de­ter­mi­na­to paragrafo sia troppo ap­pe­san­ti­to da un numero eccessivo di parole chiave o contenga troppi pochi termini ele­men­ta­ri, il metodo di analisi non fornisce una risposta sod­di­sfa­cen­te, poiché la va­lu­ta­zio­ne della frequenza viene sempre ef­fet­tua­ta sull’intero documento.

Consiglio

Prima di condurre un’analisi WDF*IDF per il vostro progetto web, dovreste in­nan­zi­tut­to ac­cer­tar­vi che il contenuto relativo sia adatto per il metodo di analisi basato sulla frequenza dei termini. Inoltre occorre ana­liz­za­re cri­ti­ca­men­te i risultati ottenuti in modo da evitare po­ten­zia­li errori (ad esempio a causa di una base di dati troppo limitata).

Un’ulteriore debolezza della formula WDF*IDF consiste nel fatto che diventa rilevante soltanto quando si considera un numero di parole elevato. Per brevi passaggi di testo quali possono essere le de­scri­zio­ni di prodotto, brevi post di un blog o articoli di attualità, l’analisi non dà alcun risultato di nota o uti­liz­za­bi­le, per cui non è adatta per progetti web come i negozi online o i portali di notizie.

Per quanto riguarda i siti web che, come appunto i portali di notizie, si basano prin­ci­pal­men­te sul lavoro edi­to­ria­le, c’è inoltre lo svan­tag­gio che l’analisi WDF*IDF si può applicare dif­fi­cil­men­te nei regolari processi di lavoro. Poiché in questi casi si ri­chie­do­no prin­ci­pal­men­te tem­pe­sti­vi­tà e ag­gior­na­men­ti ve­lo­cis­si­mi, l’ot­ti­miz­za­zio­ne sarebbe pra­ti­ca­bi­le soltanto a po­ste­rio­ri, cioè dopo la pub­bli­ca­zio­ne dei testi, rimanendo pur sempre molto di­spen­dio­sa in termini di tempo.

Pa­no­ra­mi­ca su vantaggi e svantaggi dell’analisi WDF*IDF

Vantaggi dell’analisi WDF*IDF Svantaggi dell’analisi WDF*IDF
Permette di portare alla luce eventuali spam di keyword Considera sempre il contenuto completo di testo di un documento
Considera la rilevanza e l’unicità come criteri decisivi per soppesare la frequenza Non fornisce in­for­ma­zio­ni su paragrafi par­ti­co­la­ri o porzioni di testo che varrebbe la pena ot­ti­miz­za­re
Valuta i termini con una con­cor­ren­za più bassa rispetto a quelli altamente com­pe­ti­ti­vi Non adatto a testi brevi con poche parole
Unifica le di­sci­pli­ne dell’analisi do­cu­men­ta­le e in­ter­di­sci­pli­na­re Difficile da inserire nei processi la­vo­ra­ti­vi dove sono im­por­tan­ti la tem­pe­sti­vi­tà e la reat­ti­vi­tà
Ap­piat­ti­sce i risultati at­tra­ver­so logaritmi per rag­giun­ge­re risultati più si­gni­fi­ca­ti­vi É difficile stabilire il numero preciso di tutti i documenti rilevanti

Che tool esistono per l’analisi WDF*IDF?

Ci sono diversi tool che aiutano a condurre un’analisi WDF*IDF. A tal proposito occorre di­stin­gue­re le ap­pli­ca­zio­ni che sono esclu­si­va­men­te parte di una suite SEO da quelle offerte come soluzioni a sé stanti. A seconda della gamma di funzioni e delle pos­si­bi­li­tà di utilizzo, i tool hanno prezzi dif­fe­ren­ti. Per dare una pa­no­ra­mi­ca sulle diverse ap­pli­ca­zio­ni, abbiamo creato per voi la seguente lista dei migliori tool WDF*IDF:

  • SEOlyze: con SEOlyze si possono condurre analisi se­man­ti­che e ricerche che si basano sul principio WDF*IDF. Il prodotto si concentra prin­ci­pal­men­te sul per­fe­zio­na­men­to dei contenuti del sito web e a tal fine offre diversi strumenti come un tool per le “W-questions”, un Duplicate Content Checker o l’analisi di leg­gi­bi­li­tà (secondo le formule di Flesch, basate però sulla lingua inglese). Tuttavia il fulcro è la funzione completa di analisi WDF*IDF, i cui risultati possono essere im­ple­men­ta­ti grazie all’editor integrato di­ret­ta­men­te nell’in­ter­fac­cia SEOlyze. Oltre al tool WDF*IDF la suite SEO contiene diverse feature per il rank tracking nonché ulteriori diversi strumenti per la generale ot­ti­miz­za­zio­ne on-page (analisi keyword, checker per metadati, immagini, link, ecc.).
  • XOVI: XOVI mette a di­spo­si­zio­ne dei propri clienti una suite SEO che ac­con­ten­ta anche i più esigenti. Il toolbox XOVI, di­spo­ni­bi­le in tre modalità di utilizzo (Pro, Business ed En­ter­pri­se), contiene tra l’altro strumenti per tenere sott’occhio annunci, traffico, keyword, backlink e segnali sociali. Con XOVI Tex­tOp­ti­mi­zer inoltre è contenuto anche un tool WDF*IDF per il testo che non soltanto calcola la rilevanza dei termini uti­liz­za­ti e sug­ge­ri­sce ulteriori parole basandosi sui primi dieci risultati di ricerca di Google, ma permette anche l’editing diretto.
  • Seobility: Seobility offre sulla propria pagina diversi tool SEO gratuiti, tra cui un semplice tool WDF*IDF. Questa ap­pli­ca­zio­ne web consente agli utenti di ana­liz­za­re il peso di un termine uti­liz­zan­do la formula WDF*IDF. Inoltre lo strumento sug­ge­ri­sce altri termini (compreso il valore di frequenza) che cor­ri­spon­do­no alla parola cercata. L’accesso al programma Seobility è però limitato a cinque utilizzi al giorno per utente. Gli utenti che creano un account possono uti­liz­za­re opzioni di ricerca avanzata e per esempio mo­di­fi­ca­re la base del logaritmo, alzare il numero dei risultati di ricerca con­si­de­ra­ti o scegliere la piat­ta­for­ma (desktop/mobile) per la quale si desidera ot­ti­miz­za­re.
Vai al menu prin­ci­pa­le