Grazie ai progressi compiuti nel riconoscimento testuale attraverso l’intelligenza artificiale, nota anche come Natural Language Processing, cresce la necessità di estrarre maggiori quantità di testo per fini di analisi dei siti web.
Un buon esempio sono i quotidiani, gli aggregatori di notizie e le pagine di rassegna stampa, che forniscono informazioni preziose per l’analisi delle tendenze.
Per la nostra dimostrazione applicativa, scegliamo la rassegna stampa newstral.com. Il nostro scopo è semplicemente quello di estrarre un elenco di tutti i comunicati stampa (titoli). Per fare questo, procediamo come segue:
- Determinare i contenuti nel codice sorgente del sito web
Visualizziamo il codice sorgente (tasto funzione F12 o tasto destro “Ispeziona”), selezioniamo un titolo e guardiamo come è strutturato. In questo caso, la struttura è molto semplice: il titolo è il testo di ancoraggio del link (linea inferiore):