Sommario:
Definizione - Cosa significa Apache Nutch?
Apache Nutch è un prodotto software per crawler Web che può essere utilizzato per aggregare dati dal Web. È usato insieme ad altri strumenti Apache, come Hadoop, per l'analisi dei dati.
Techopedia spiega Apache Nutch
Apache Nutch è un prodotto open source concesso in licenza da Apache Software Foundation. Questa comunità di sviluppatori detiene licenze per una gamma di strumenti software Apache in grado di ordinare e analizzare i dati. Una delle tecnologie centrali è Apache Hadoop, uno strumento di analisi dei big data molto popolare nella comunità aziendale.
Insieme a strumenti come Apache Hadoop e funzionalità per l'archiviazione, l'analisi e altro del file, il ruolo di Nutch è quello di raccogliere e archiviare dati dal Web attraverso l'uso di algoritmi di scansione web.
Gli utenti possono usufruire di semplici comandi in Apache Nutch per raccogliere informazioni negli URL. Gli utenti utilizzano in genere Apache Nutch insieme a un altro strumento open source, un framework chiamato Apache Solr, che può fungere da repository per i dati raccolti con Apache Nutch.