Sommario:
Definizione: cosa significa Web Crawler?
Un crawler Web è un bot Internet che aiuta nell'indicizzazione Web. Esplorano una pagina alla volta attraverso un sito Web fino a quando tutte le pagine non sono state indicizzate. I crawler Web aiutano a raccogliere informazioni su un sito Web e i collegamenti ad essi correlati e aiutano anche a convalidare il codice HTML e i collegamenti ipertestuali.
Un crawler Web è anche noto come Web spider, indicizzatore automatico o semplicemente crawler.
Techopedia spiega Web Crawler
I crawler Web raccolgono informazioni quali l'URL del sito Web, le informazioni sul meta tag, il contenuto della pagina Web, i collegamenti nella pagina Web e le destinazioni che conducono da tali collegamenti, il titolo della pagina Web e qualsiasi altra informazione pertinente. Tengono traccia degli URL che sono già stati scaricati per evitare di scaricare di nuovo la stessa pagina. Una combinazione di politiche come la politica di visita, la politica di selezione, la politica di parallelizzazione e la politica di cortesia determina il comportamento del crawler Web. Ci sono molte sfide per i web crawler, vale a dire il World Wide Web grande e in continua evoluzione, i compromessi nella selezione dei contenuti, gli obblighi sociali e la gestione degli avversari.
I crawler Web sono i componenti chiave dei motori di ricerca e dei sistemi Web che guardano nelle pagine Web. Aiutano a indicizzare le voci Web e consentono agli utenti di inviare query rispetto all'indice e forniscono anche le pagine Web corrispondenti alle query. Un altro uso dei crawler Web è l'archiviazione Web, che comporta la raccolta e l'archiviazione periodica di grandi serie di pagine Web. I crawler Web vengono utilizzati anche nel data mining, in cui le pagine vengono analizzate per proprietà diverse come le statistiche e quindi vengono eseguite analisi dei dati su di esse.