Una delle ca­rat­te­ri­sti­che più im­por­tan­ti di Fogli Google è la pos­si­bi­li­tà di importare contenuti di­ret­ta­men­te dai siti web: la funzione importXML() di Fogli Google legge, infatti, i contenuti strut­tu­ra­ti di un sito web e li tra­sfe­ri­sce nel foglio di lavoro Google de­si­de­ra­to.

Fatto

I due programmi di fogli di calcolo Fogli Google ed Excel hanno molti aspetti in comune, ma dif­fe­ri­sco­no in alcuni punti es­sen­zia­li, come evidenzia il nostro confronto tra Excel e Fogli Google.

La funzione di im­por­ta­zio­ne “XML to Google Sheets” è par­ti­co­lar­men­te utile quando si desidera creare tabelle da dati forniti online. In questo articolo im­pa­re­re­te come uti­liz­za­re e sfruttare al meglio questa utile opzione.

Fogli Google: breve spie­ga­zio­ne della funzione importXML()

La funzione importXML() legge dati strut­tu­ra­ti di progetti web e li inserisce nelle celle di un foglio di lavoro di Fogli Google.

Procedete nel modo seguente per eseguire la funzione nel software Google:

=importXML(URL, XPath)

importXML() di Fogli Google ha solo due parametri:

  • URL: l’indirizzo web da cui si desidera estrarre i dati. Il modo più semplice per farlo è copiarlo di­ret­ta­men­te dalla barra degli indirizzi del browser.
  • XPath: in­di­ca­zio­ne della posizione specifica in cui sono po­si­zio­na­ti i dati che si desidera importare.
Consiglio

In­for­ma­zio­ni det­ta­glia­te su XPath sono di­spo­ni­bi­li nel nostro tutorial su XPath.

Se spe­ci­fi­ca­te i parametri di­ret­ta­men­te nella funzione, è ne­ces­sa­rio rac­chiu­der­li tra vir­go­let­te. Per evitare di doverli inserire tra vir­go­let­te, è possibile scrivere i due parametri in due celle di una tabella e farvi quindi ri­fe­ri­men­to nella funzione della formula. In questo modo non è ne­ces­sa­rio inserire le vir­go­let­te.

Google Workspace (pre­ce­de­men­te noto come G Suite)
Adesso col­la­bo­ra­re è ancora più facile
  • Tutti gli strumenti di Google che conosci
  • Posta Gmail con indirizzo cor­ri­spon­den­te al tuo dominio
  • As­si­sten­za clienti per­so­na­liz­za­ta

Casi d’utilizzo di importXML di Fogli Google

importXML() è molto versatile. Di par­ti­co­la­re interesse sono le seguenti quattro possibili ap­pli­ca­zio­ni:

  • Creazione di liste di link
  • Analisi di dati strut­tu­ra­ti di siti web
  • Estra­zio­ne di contenuto testuale
  • Im­por­ta­zio­ne di tabelle HTML

Nelle sezioni seguenti vi spie­ghe­re­mo come uti­liz­za­re importXML in Fogli Google in base a questi quattro scenari d’utilizzo.

Consiglio

I fogli di lavoro di Google fanno parte della Google Workspace (ex G Suite) messa a di­spo­si­zio­ne da IONOS, incluso un dominio gratuito!

Creazione di liste di link

A volte si può avere la necessità di creare una lista ordinata di indirizzi web in­te­res­san­ti, che deve includere, tra l’altro, l’URL, il nome del sito web e una breve de­scri­zio­ne. Un buon punto di partenza per questo scenario d’uso è il sito Nodesign, ovvero una raccolta di link che presenta strumenti grafici per svi­lup­pa­to­ri che hanno poca o nessuna di­me­sti­chez­za con il design. I link vengono vi­sua­liz­za­ti in caselle con­te­nen­ti ciascuna un’immagine, un titolo e una breve de­scri­zio­ne. At­tual­men­te la raccolta contiene più di 140 voci.

A partire da questa raccolta, vogliamo creare una lista di link nei fogli di lavoro di Google con la funzione importXML(). Per farlo, pro­ce­dia­mo così:

  1. De­ter­mi­na­re i contenuti nel codice sorgente del sito web

In questo caso, abbiamo bisogno dell’URL, del testo di an­co­rag­gio (cioè il testo attivo del link) e di una breve de­scri­zio­ne. Vi­sua­liz­zia­mo quindi il codice sorgente di­ret­ta­men­te nel browser (tasto F12 o tasto destro del mouse e “Ispeziona”) e se­le­zio­nia­mo la prima scheda. Qui troviamo, sotto il tag <h5> le in­for­ma­zio­ni de­si­de­ra­te: l’URL (1), il testo di an­co­rag­gio al link (2) e una breve de­scri­zio­ne (3).

  1. Definire XPath

Nel secondo passaggio vengono definite le in­for­ma­zio­ni sul percorso (XPath) per le tre in­for­ma­zio­ni di cui abbiamo bisogno:

URL: l’URL è un attributo del tag <a> che è po­si­zio­na­to sotto il tag <h5>. L’XPath è quindi il seguente:

//h5/a/@href

Testo di an­co­rag­gio: il testo di an­co­rag­gio è il contenuto del tag <a> che abbiamo già definito sopra: //h5/a. Ri­pren­dia­mo l’XPath di sopra togliendo l’attributo @href.

De­scri­zio­ne breve: l’XPath è, in questo caso, un po’ più com­pli­ca­to perché non si trova allo stesso livello ge­rar­chi­co del tag <a>. Se pren­des­si­mo sem­pli­ce­men­te il paragrafo <p> come XPath, i testi non cor­ri­spon­de­reb­be­ro più all’URL. Pertanto, dobbiamo definire come paragrafo che contiene la de­scri­zio­ne breve l’elemento che si trova allo stesso livello ge­rar­chi­co dopo il tag <h5>:

//h5/following-sibling::p
  1. Applicare la funzione nel foglio di lavoro di Google

Ora scriviamo un’istru­zio­ne importXML() in una colonna per ciascuna delle tre voci. Dobbiamo inserirle solo sulla prima riga; il programma carica au­to­ma­ti­ca­men­te le righe rimanenti. Anche la formula stessa viene so­vra­scrit­ta con il contenuto.

Per non perdere la visione d’insieme, inseriamo una riga vuota in alto e im­met­tia­mo nuo­va­men­te la funzione come ri­fe­ri­men­to. Questa volta ag­giun­gia­mo però un apostrofo all’inizio, in modo che la formula non venga eseguita, ma trattata come testo semplice.

È possibile mo­di­fi­ca­re questa tabella nel modo consueto. Le singole celle con­ten­go­no i dati effettivi e non la formula.

Excel con Microsoft 365 per le aziende e IONOS!
L'Office che conosci, ma mi­glio­ra­to

Ottieni la posta elet­tro­ni­ca Exchange e tutte le ultime versioni delle tue ap­pli­ca­zio­ni preferite su tutti i tuoi di­spo­si­ti­vi.

Analisi di dati strut­tu­ra­ti di siti web

La lista di link appena generata può ora essere ana­liz­za­ta in diversi modi, se ne­ces­sa­rio. Ad esempio, potremmo ag­giun­ge­re il meta title, la meta de­scrip­tion, la lingua e la codifica per ogni URL in­di­vi­dua­to, che sono in­for­ma­zio­ni rilevanti ai fini SEO.

A tale scopo, scriviamo le in­for­ma­zio­ni XPath nella riga superiore e inseriamo la funzione nella seconda riga (seconda colonna nell’esempio):

=importXML($A2,B$1)

La formula prende l’URL dalla prima colonna e l’XPath dalla riga superiore. Per espandere la formula verso il basso e verso destra, im­po­stia­mo la prima colonna e la prima riga come ri­fe­ri­men­to assoluto (con il simbolo $).

N.B.

Le voci #NV indicano che le in­for­ma­zio­ni ricercate non sono state trovate nella pagina web.

Per scol­le­ga­re la tabella dai siti linkati, possiamo evi­den­ziar­la, copiarla e inserirla in un nuovo foglio di calcolo uti­liz­zan­do la com­bi­na­zio­ne di tasti [Shift] + [Ctrl] + [V].

Estra­zio­ne di contenuto testuale

Grazie ai progressi compiuti nel ri­co­no­sci­men­to testuale at­tra­ver­so l’in­tel­li­gen­za ar­ti­fi­cia­le, nota anche come Natural Language Pro­ces­sing, cresce la necessità di estrarre maggiori quantità di testo per fini di analisi dei siti web.

Un buon esempio sono i quo­ti­dia­ni, gli ag­gre­ga­to­ri di notizie e le pagine di rassegna stampa, che for­ni­sco­no in­for­ma­zio­ni preziose per l’analisi delle tendenze.

Per la nostra di­mo­stra­zio­ne ap­pli­ca­ti­va, scegliamo la rassegna stampa newstral.com. Il nostro scopo è sem­pli­ce­men­te quello di estrarre un elenco di tutti i co­mu­ni­ca­ti stampa (titoli). Per fare questo, pro­ce­dia­mo come segue:

  1. De­ter­mi­na­re i contenuti nel codice sorgente del sito web

Vi­sua­liz­zia­mo il codice sorgente (tasto funzione F12 o tasto destro “Ispeziona”), se­le­zio­nia­mo un titolo e guardiamo come è strut­tu­ra­to. In questo caso, la struttura è molto semplice: il titolo è il testo di an­co­rag­gio del link (linea inferiore):

  1. Definire XPath

Per estrarre solo i titoli e non tutti gli altri link sulla homepage, dobbiamo tuttavia definire l’XPath in modo più preciso: vogliamo trovare solo i tag <a> della classe “headline”, vale a dire solo quelli che si trovano all’interno della sezione della classe “headlines-container”.

//div[@class="headlines-container"]/ul/li/span/a[@class="headline"]
  1. Applicare la funzione nel foglio di lavoro di Google

Inseriamo l’URL e l’XPath in un foglio di lavoro Google vuoto nella prima colonna a sinistra. Da lì possiamo “re­cu­pe­rar­li” co­mo­da­men­te per scrivere la funzione:

(Cella B1) =importXML(A1,A2)
(Cella B2) =importXML(A1,A3)

Il risultato è una lista di titoli. Il vantaggio è che possiamo ag­gior­na­re questa lista in qualsiasi momento con F5 in modo che vi­sua­liz­zi sempre il contenuto più recente.

Consiglio

Volete imparare altri trucchi per Fogli Google? Scoprite qui come creare menu a tendina in Fogli Google.

Im­por­ta­zio­ne di tabelle HTML

Per tra­sfe­ri­re una tabella da un sito web a Fogli Google basta una singola formula. Per esempio, prendiamo una tabella sui modelli di Samsung Galaxy da un articolo di Wikipedia: per importare questa tabella, abbiamo bisogno soltanto del tag <table> nell’XPath. Tuttavia, dobbiamo capire quanti tag <table> appaiono davanti alla tabella di nostro interesse. La tabella che vogliamo importare è la terza della pagina web. La formula si presenta quindi così:

=importXML(“https://en.wikipedia.org/wiki/Samsung_Galaxy”, “//table[3]/tbody/*”)

Ecco qua! Con una singola formula nella cella B1, abbiamo importato cor­ret­ta­men­te nel foglio di calcolo l’intera tabella con tutte le righe e le colonne.

Come vedete, la funzione di im­por­ta­zio­ne “XML to Google Sheets” è estre­ma­men­te versatile e consente di ri­spar­mia­re molto tempo e lavoro.

N.B.

Molte piat­ta­for­me di social media e grandi ri­ven­di­to­ri online come Amazon vietano il web scraping. Ri­cor­da­te­vi quindi di leggere i termini di utilizzo prima di testare le vostre nuove com­pe­ten­ze di web scraping su queste piat­ta­for­me.

Vai al menu prin­ci­pa­le