Crawl budget – Sicuro che Google scansioni tutte le pagine del tuo sito?

Quando si lavora alla SEO di un sito, specialmente se di grandi dimensioni con molte pagine e contenuti da far indicizzare, è importante ragionare in un’ottica di ottimizzazione del crawl budget (o budget di scansione).
Ottimizzare il budget di scansione significa assicurarsi che tutti i contenuti presenti nel nostro sito vengano regolarmente scansionati da Googlebot.

Facciamo un passo indietro per capire a cosa ci riferiamo quando parliamo di budget di scansione.
Possiamo definire il crawl budget come la quantità di risorse che il motore di ricerca è disposto ad utilizzare per la scansione del nostro sito.

Ricordiamoci che Google è un azienda privata. Seppur gratuito, Google Search non è un servizio no profit. Scansione, indicizzazione, ranking sono processi che hanno un costo in termini di tempo e memoria allocata.
Scansionare in continuazione ogni pagina di ogni sito web sarebbe un’enorme spreco di risorse. Da qui il concetto di crawl budget, definibile come il numero di pagine di un sito che Googlebot scansiona in un arco di tempo.

Perché è importante ottimizzare un sito per il crawl budget?

Se di mestiere fai il SEO (o aspirante SEO) dovresti esserti già risposto da solo. Per tutti quelli che non si occupano di SEO, ecco i principali motivi:
quando eseguiamo modifiche alle pagine vogliamo che Google le visualizzi prima possibile;
le pagine scansionate di recente hanno maggior possibilità di posizionarsi bene nei risultati di ricerca;
le pagine che non ricevono scansioni da molto tempo tendono a perdere posizioni tra i risultati di ricerca.

crawl budget

Ricaviamo la percentuale di scansione dal crawl budget:

Quindi il crawl budget corrisponde al numero di URL che il bot scansione in un periodo di tempo, ad esempio nell’arco di una giornata. Il numero potrebbe variare leggermente da un giorno all’altro, tuttavia la tendenza media è costante.
Possiamo trovare siti con un crawl budget di 80.000 pagine/giorno, e siti con budget da 3 pagine/giorno.
Sostanzialmente, il numero di pagine scansionate al giorno è influenzato dai seguenti parametri:

  • link in ingresso: ormai è più che noto, i link in ingresso “invitano” Google segnare in agenda un passaggio sul nostro sito
  • autorevolezza del sito: un sito con contenuti importanti, molto richiesti dagli utenti e autorevoli, merita maggior attenzione del bot rispetto ad un piccolo sito con contenuti di scarsa rilevanza
  • errori: commessi da chi realizza/gestisce il sito. Ci sono errori legati alla cattiva comunicazione con Google (sitemap, robots, noindex…) ma anche errori strutturali nel sito che possono causare ad esempio un loop da parte del bot.

Google ci fa sapere come e “quanto” sta scansionando il nostro sito web. Nella tab “Statistiche di scansione” di Search Console vediamo quante pagine vengono sottoposte al crawl ogni giorno.
Dividendo il numero medio di pagine sottoposte a scansione in un giorno per il numero di pagine del sito (o meglio, per il numero di pagine che vogliamo che Google scansioni, che dovrebbe corrispondere al numero di URL in sitemap) e moltiplicando poi per 100, otteniamo la percentuale di contenuti del nostro sito che Google visita ogni giorno.
Per esempio: supponiamo di avere un sito da 4000 pagine
Se le statistiche di scansione ci indicano che le pagine sottoposte a scansione giornaliera sono in media 800, la percentuale di scansione sarà:

(800/4000) x 100 = 20%

Se invece la scansione media giornaliera si limitasse a 50 pagine:

(50/4000) x 100 = 1,25%

Nel primo caso possiamo stare sereni, Google scansiona ogni giorno un quinto delle pagine del nostro sito. A meno che la struttura del sito non presenti punti ciechi (per il bot), possiamo ipotizzare che nell’arco di una dozzina di giorni tutti i contenuti riceveranno almeno un passaggio del crawler.
Nel secondo caso, abbiamo un problema. Cerchiamo di capire come risolverlo.

Ottimizzare il crawl budget:

Fatta eccezione per l’ottenimento di link in ingresso, che sono uno dei principali parametri che portano all’aumento del budget di scansione assegnato al nostro sito, ci sono altri accorgimenti da utilizzare per assicurarci che i nostri siti vengano correttamente spiderizzati.

1. Dare risalto ai contenuti importanti: non limitiamoci a pensare ai link in ingresso, occupiamoci anche dei link interni al sito. Pensiamo bene a quali voci vogliamo far apparire sul nostro menù.Se il menù del nostro e-commerce presenta una voce “prodotti” e 6 voci che portano a pagine “Chi Siamo”, “L’azienda”, “I Valori”… come possiamo aspettarci che Google dia priorità alla scansione dei prodotti?

2. Togliere risalto ai contenuti irrilevanti: immaginiamo lo sconforto del povero Googlebot nello scansionare la trecentomiliardesima pagina “Chi Siamo” che recita “La ditta XYZ, leader italiano del proprio settore, opera dal 19XX per garantire la massima soddisfazione dei propri clienti. Grazie all’esperienza maturata…”. Che disperazione per il povero Spider, quanto inutile spreco di risorse. Se la descrizione aziendale di un sito web non presenta testi originali e particolarmente rilevanti per il posizionamento, evitate di linkarla da menù, o addirittura bloccatela da robots.txt. Vale altrettanto per qualsiasi altra pagina autocelebrativa e news che non interessa nemmeno a chi l’ha scritta. Evitiamo di rubare budget alle pagine veramente importanti.

3. Gestire le sitemap: Googlebot scandaglia il nostro guidato dalle indicazioni della sitemap. Se il tuo navigatore ti dirigesse verso una via che non esiste, o ti facesse raggiungere la meta passando per le strade più lunghe o non percorribili saresti contento? Vale lo stesso per Google. In una mappa del sito è bene inserire tutti e soli i contenuti che devono essere indicizzati, evitando le pagine 4XX, canonicizzate, reindirizzate o bloccate da robots.txt.

4. Parametri URL: c’è uno strumento su Search Console, sconosciuto ai più, che permette di indicare al bot come gestire i parametri URL. Se Google lo mette a nostra disposizione si vede che un motivo c’è. Un problema diffuso, soprattutto negli e-commerce, è quello della gestione di varianti di pagina tramite parametri.
Prendiamo ad esempio una lista di prodotti sul nostro shop online. L’utente ha la possibilità di ordinare i prodotti per

– prezzo crescente (price=asc) decrescente (price=desc)

– data più recente (date=desc) o meno recente (date=asc)

– nome crescente (name=az) o descrescente (name=za)

Se non gestiamo i parametri URL appena indicati, oltre ad incappare in un bel problema di contenuto duplicato, stiamo facendo scansionare a Google 7 pagine invece di una. Se le categorie di prodotti sul nostro sono, ad esempio, 10, ne stiamo facendo scansionare 70 al posto di 10. Un bello spreco di risorse.

5. Broken link: capita di rinominare pagine o addirittura intere directory di un sito. Se le vecchie URL erano linkate da alcune pagine del nostro sito, Googlebot continuerà a scansionarle incontrando dei 404. Diversi tool permettono di individuare i link interrotti all’interno del nostro sito per correggerli.