Ben ritrovati su questi lidi!
In questo video Martin Splitt (Developer Advocate di Google) e Alexis Sanders (Senior Account Manager di Markle) parlano del crawl budget e ci offrono alcuni spunti su come ottimizzarlo per ottenere benefici lato SEO.
A cosa serve il crawl budget?
Il crawl rate è il numero di richieste che Googlebot può eseguire allo stesso tempo senza sovraccaricare il server.
Google ha bisogno di ottenere quante più informazioni possibile su un sito web nel minore tempo a disposizione. Il crawl budget è un elemento da ottimizzare il più possibile per facilitare la scoperta da parte di Google di nuovi contenuti. Su di esso però incidono molti fattori, come elementi duplicati e lentezza server, che possono eroderlo inutilmente.
Il web è pieno di contenuti e Google adotta certi criteri per semplificarsi la vita. Nemmeno Google può scansionare qualsiasi cosa, perciò è importante evitare sprechi inutili di risorse.
Un sito nuovo ragionevolmente cambia spesso, mentre un portale su un argomento evergreen (es. la storia di un alimento) non ha ragione di mutare altrettanto frequentemente.
Dall’argomento e dalla recentezza del sito dipende il crawl demand, il tasso di frequenza con la quale Googlebot intende esplorare la pagina.
Google guarda sia l’argomento del sito che l’ultima volta in cui il sito ha subito delle modifiche. Per favorire queste osservazioni possiamo ricorrere ad esempio ai dati strutturati, che permettono di codificare la data di ultima modifica. Se Google nota che la frequenza di modifiche è bassa, non ha bisogno di scansionare tanto di frequente e si regola di conseguenza.
Splitt spiega che ci sono vari modi disponibili per segnalare a Google la data degli aggiornamenti:
- Dati strutturati
- ETag: un’intestazione di caching che contiene un fingerprint del contenuto per monitorare modifiche.
- Sitemap
Sander si chiede i siti di quali taglia si devono preoccuparsi del crawl budget. Splitt risponde che sono i grandi siti, quelli con milioni di URL.
Sotto, ad esempio, un milione di URL, non c’è da preoccuparsi, a meno che tu non abbia un’impostazione di server davvero fragile. A quel punto quindi il tuo problema non è il crawl budget, ma appunto l’installazione del server.
A questo scopo la Google Search Console ci aiuta con il report delle risorse escluse dall’indicizzazione.
Altre volte il problema risiede nel fatto che nella finestra temporale durante la quale il crawler scansiona il sito non becca gli URL dei contenuti, ad esempio perché non è indicato nella sitemap e questo rende più difficoltoso trovarlo. In questo caso Googlebot deve scansionare un’altra pagina che abbia un link rivolto alla pagina in questione da indicizzare.
Splitt spiega che la frequenza di crawling non è un indicatore di qualità. Nel caso di ecommerce, se hai molte pagine piccole e magari simili, può convenire ridurre il numero di pagine uniche da scansionare in modo da evitare i percorsi ridondanti e risparmiare così il crawl budget.

Come capire se Google sta testando il nostro server?
Il crawler non si comporta sempre allo stesso modo.
Dai log possiamo riscontrare un aumento dell’attività di crawling seguita da una fase di discesa: questo indica una messa alla prova. Se invece tutto fila liscio, l’andamento è lineare.
Come ottimizzare il crawling durante la migrazione di un sito?
Le migrazioni sono fasi molto delicate nelle quali si cambiano i contenuti, gli URL, i server, perciò bisogna fare molta attenzione.
Per assicurarsi che il sito venga scansionato correttamente durante una migrazione, conviene aggiornare la sitemap per segnalare a Google cosa è stato cambiato. Bisogna verificare che i redirect funzionino correttamente e di non bloccare elementi importanti.
Il crawl budget interessa sia la fase di crawling che di rendering e le richieste di rete possono incidere sullo spazio di crawling.
Google cerca di essere molto “aggressiva” quando si tratta di scansionare sub-risorse come CSS; Javascript, chiamate API e questo genere di cose. Per facilitare il suo compito conviene fare sì che gli URL cambino il meno possibile.
Chi deve preoccuparsi maggiormente del crawl budget?
Secondo Splitt, ecommerce e publisher sono molto sensibili a questa tematica siccome hanno siti enormi con un gran numero di pagine. Per questi casi, Martin segnala una soluzione proposta da un webmaster a una conferenza
C’era un sito giapponese con tonnellate di contenuti, che faceva uso di machine learning per valutare se la qualità dei contenuti è apprezzabile o meno. Se non sono buoni, li mettono in noindex e lo escludono da robots.txt, in modo che Google non proceda a scansionarlo e non perda crawl budget.
Comunque, Google può autonomamente scegliere se includere o meno un contenuto di scarsa qualità nell’indice (es. un’immagine di stock duplicata) specialmente nel caso di siti con numerosissimi contenuti.
Se tu hai dei contenuti trascurabili da un punto di vista del valore dell’utente come popup, tool interni, analytics, si può fare a meno di scansionarli. L’importante è non includere nel robots.txt qualcosa che potrebbe rivelarsi prezioso in seguito.
La Sanders chiede se esiste un modo per un super-sito di indicare a Google di proseguire con la scansione in modo da non fermarsi prima di scoprire qualcosa.
Splitt risponde che noi possiamo limitare Google, ma non possiamo dire “continua, continua a scansionare!”. In genere lo scheduler del crawler è relativamente intelligente, quando scopre molti nuovi contenuti e la sitemap è piena di URL, allora il crawler prova a scansionare quanto più possibile, e se non viene stoppato dal server, continua a farlo.
Considerazioni sul crawl budget e SEO
- Ricordati di segnalare a Google i cambiamenti nelle pagine attraverso la sitemap
- Verifica di non escludere attraverso robots.txt qualcosa di importante da scansionare
- Google non sa come caricano le pagine, perciò ha bisogno del layout o di qualcosa del genere per immaginarsele
- Controlla che il server sia correttamente impostato, che non restituisca errori 500 o simili
- Continua a creare contenuti freschi, di grande qualità. Questo è l’importante!
E tu che cosa ne pensi? Parliamone qua sotto!