Che cos’è il web scraping?

I motori di ricerca come Google utilizzano da tempo i cosiddetti crawler che cercano termini definiti dall’utente su Internet. I crawler sono bot speciali che visitano ciascun sito web singolarmente per creare associazioni tra termini di ricerca e classificarli. Il primo crawler è stato lanciato nel 1993, quando è stato introdotto il primo motore di ricerca, Jumpstation.

Il web scraping o web harvesting è una tecnica di crawling. Vi spieghiamo come funziona, a cosa serve esattamente e come bloccarlo se necessario.

Web scraping: una definizione

Il web scraping (scraping in inglese significa “raschiare/scalfire”) estrae e memorizza i dati dalle pagine web, ad esempio, per scopi di analisi o per altri tipi di valutazione. Durante lo scraping vengono raccolti molti tipi diversi di informazioni. Può trattarsi, ad esempio, di informazioni di contatto, come indirizzi di posta elettronica o numeri di telefono, ma anche di singoli termini di ricerca o URL. Questi vengono quindi raccolti in database o tabelle locali.

Definizione

Web scraping: Il web scraping estrae i testi dalle pagine web per ottenere e memorizzare informazioni. È paragonabile a un processo automatico di copia e incolla. Nel caso d’immagini, il processo è chiamato image scraping.

Come funziona il web scraping?

Esistono diverse tecniche di scraping, ma generalmente si distingue tra scraping manuale e automatico. Per scraping manuale s’intende il processo manuale di copia e incolla di informazioni e dati. Questo può essere paragonato all’attività di ritaglio e raccolta di articoli di giornale. Lo scraping manuale viene eseguito solo se si desidera trovare e memorizzare informazioni singole. È un processo molto impegnativo che viene utilizzato raramente per grandi quantità di dati.

Lo scraping automatico utilizza invece un software o un algoritmo che ricerca più pagine web per estrarre informazioni. Per questo esistono software specifici, a seconda del tipo di sito web e di contenuti ricercati. Nel caso dello scraping automatico, si distinguono diverse tecniche:

  • Parser: un parser (o traduttore) viene utilizzato per convertire il testo in una struttura nuova. Ad esempio, nell’analisi HTML, il software legge un documento HTML e memorizza le informazioni. Il parsing DOM utilizza la visualizzazione lato client del contenuto nel browser per estrarre i dati.
  • Bot: un bot è un software informatico dedicato a compiti specifici che vengono automatizzati. Il web harvesting utilizza i bot per navigare automaticamente nei siti web e raccogliere dati.
  • Text: se si ha familiarità con la riga di comando, è possibile utilizzare i comandi Unix grep per cercare termini specifici in Python o Perl sul web. Questo è un modo molto semplice per estrarre i dati, ma richiede più lavoro rispetto all’utilizzo di un software.
N.B.

Nel tutorial web Scraping con Python vi mostriamo a cosa prestare attenzione. Per raccogliere dati è possibile integrare facilmente anche Selenium WebDriver.

A cosa serve il web scraping?

Il web scraping viene utilizzato per diversi scopi. Ad esempio, permette di raccogliere rapidamente i dati di contatto o informazioni specifiche. Nel settore professionale, il processo di scraping viene spesso utilizzato per ottenere vantaggi competitivi rispetto ai concorrenti. La raccolta dei dati, conosciuta nel settore anche come “harvesting dei dati”, consente a un’azienda di visualizzare tutti i prodotti di un concorrente e confrontarli con i propri. Il web scraping apporta valore aggiunto anche in termini di dati finanziari: le informazioni vengono lette da un sito web esterno e trasferite sotto forma di tabella per poi essere analizzate e ulteriormente elaborate.

Un buon esempio di web scraping è Google. Il motore di ricerca utilizza questa tecnologia per visualizzare informazioni meteorologiche o confrontare i prezzi di hotel e voli. Anche molti portali di confronto dei prezzi utilizzano lo scraping per visualizzare informazioni di molti siti web e di diversi fornitori.

Il web scraping è legale?

Lo scraping non sempre è legale e gli scraper (coloro che praticano lo scraping) devono innanzitutto rispettare i diritti d’autore di un sito web. Il web scraping può avere conseguenze piuttosto negative per alcuni negozi e fornitori web, ad esempio, se questo influisce sul posizionamento del sito nei motori di ricerca tramite aggregatori. Non è raro quindi per un’azienda querelare un portale di confronto al fine di prevenire il web scraping. In Germania, ad esempio, la Corte d’Appello di Francoforte ha stabilito nel 2009, in un caso simile, che una compagnia aerea deve consentire lo scraping attraverso portali di confronto dal momento che le sue informazioni sono, in ultima analisi, liberamente accessibili. La compagnia aerea aveva, comunque, la possibilità di adottare misure tecniche per prevenire lo scraping.

La questione è stata affrontata anche dalla Corte di Giustizia dell’Unione Europea e dal Garante per la privacy (AGCOM) in tempi più recenti, dove è stato anche stabilito che se un sito in questione proibisce esplicitamente nelle sue condizioni l’uso di software di scraping o crawling, chi non rispetta queste indicazioni può incorrere in sanzioni.

Lo Scraping è quindi legale se i dati estratti sono liberamente accessibili a terzi sul web. Per essere al sicuro dal punto di vista legale quando si utilizza il web scraping è quindi necessario considerare quanto segue:

  • Verificare e rispettare i diritti d’autore. Se i dati sono protetti dal diritto d’autore, non devono essere pubblicati altrove.
  • Gli operatori del sito hanno il diritto di installare misure tecniche che impediscono il web scraping. Queste non devono essere aggirate.
  • Se l’utilizzo dei dati è correlato al login dell’utente o a un contratto di utilizzo, non devono essere sottoposti a scraping.
  • Non è consentito nascondere annunci pubblicitari, termini di utilizzo o disclaimer con la tecnologia di scraping.

Sebbene lo scraping sia in molti casi consentito, può certamente essere utilizzato in modo improprio per scopi distruttivi o addirittura illegali. La tecnologia viene, ad esempio, spesso utilizzata per lo spam. Gli spammer possono servirsene per raccogliere indirizzi e-mail e inviare e-mail di spam a questi destinatari.

Come bloccare il web scraping

I gestori di un sito web possono adottare varie misure per bloccare lo scraping. Il file robots.txt viene, ad esempio, utilizzato per bloccare i bot dei motori di ricerca. Di conseguenza, impediscono anche lo scraping automatico da parte dei bot software. Anche gli indirizzi IP dei bot possono essere bloccati. I dati di contatto e le informazioni personali possono essere nascosti in modo mirato. I dati sensibili, come i numeri di telefono, possono anche essere memorizzati sotto forma d’immagine o come CSS, contrastando lo scraping dei dati. Inoltre, ci sono numerosi fornitori a pagamento di servizi antibot che possono configurare un firewall. Anche Google Search Console può essere utilizzato per impostare notifiche che avvisano gli amministratori del sito web quando i loro dati sono stati sottoposti a scraping.

Vi preghiamo di osservare la nota legale relativa a questo articolo.


Abbiamo una proposta per te:
Web hosting a partire da 1 €/mese!

Dominio gratis
Certificato SSL Wildcard incluso
Assistenza clienti 24/7
A partire da 1 €/mese IVA escl. per un anno,
poi 8 €/ mese IVA escl.