skip to Main Content
Web Crawler E Spider

Web Crawler e spider

Cos’è un web crawler

Il web crawler spider comunemente abbreviato a web crawler, non è altro che un bot Internet che ha il compito di analizzare il World Wide Web. Attraverso questa scansione periodica, il bot, crea un indice utile ai motori di ricerca.

I motori di ricerca utilizzano i bot per copiare il contenuto delle pagine web e conservarlo nei database. In questo modo lo analizzano e lo indicizzano individuandone parole chiave e argomenti per fornire ricerche veloci e accurate a tutti gli utenti.

Come funziona un crawler

Tutto inizia dai seeds ovvero liste che contengono URL. Il contenuto di questi URL sarà analizzato e salvato in modo che il software del motore di ricerca riesca a indicizzarlo. Il web crawler ispezionando l’URL andrà alla ricerca di collegamenti ipertestuali ( hyperlinks), che verranno aggiunti alla lista URL e scansionati in un secondo momento.

I web crawler rispettano 4 policy di funzionamento: la policy di selezione, la policy per la gestione delle visite, la policy di cortesia e la policy di parallelizzazione.

Policy di selezione

Dato il numero di siti web pubblicati nel mondo, è praticamente impossibile che uno spider riesca ad analizzarli e indicizzarli tutti. In base a recenti studi, infatti, è emerso che un crawler riesce a scansionare tra il 40 e il 70 % di pagine web pubblicate.

Quindi il crawler sceglie le pagine da scansionare in base alla scala di priorità assegnata allo spider in fase di programmazione. L’importanza di una pagina è data dalla quantità di link in entrata e dal numero di visite.

Policy gestione delle visite

Un web crawler, per riuscire a scansionare la parte del web di suo interesse, può impiegare da un minimo di dieci giorni fino a mesi. Avendo tempi di scansione così elevati, può succedere che alcune pagine web cambino il loro contenuto e di conseguenza risulta necessario scansionare nuovamente le pagine web già indicizzate in modo da avere database sempre aggiornati.

Policy di cortesia

La scansione di un sito web da parte di web crawler ha un forte impatto anche sulle prestazioni del sito web stesso. Per ovviare a questo problema si utilizza il protocollo d’esclusione robot grazie a quale, inserendo un file denominato robot.txt, è possibile determinare quali crawler utilizzare per scansionare il nostro spazio web.

Policy di parallelizzazione

Un web crawler esegue diverse scansioni nello stesso momento. Per poter evitare che una pagina web venga scansionata più volte dallo stesso bot è necessaria una policy che controlli l’assegnazione dei nuovi URL scoperti durante la scansione della pagine di frontiera.

Back To Top