Cosa sono gli errori di crawl?

Gli errori di scansione si verificano quando un motore di ricerca tenta di raggiungere una pagina del tuo sito Web ma non ci riesce. Diamo prima un po ‘più di luce al gattonare. La scansione è il processo in cui un motore di ricerca tenta di visitare ogni pagina del tuo sito Web tramite un bot. Un bot del motore di ricerca trova un link al tuo sito Web e inizia a trovare tutte le tue pagine pubbliche da lì. Il bot esegue la scansione delle pagine e indicizza tutti i contenuti da utilizzare in Google, oltre a aggiungere tutti i collegamenti in queste pagine alla pila di pagine che deve ancora eseguire la scansione. Il tuo obiettivo principale come proprietario di un sito Web è assicurarti che il bot del motore di ricerca possa accedere a tutte le pagine del sito. Il fallimento di questo processo restituisce quelli che chiamiamo errori di scansione.

Il tuo obiettivo è quello di assicurarti che ogni link sul tuo sito web porti a una pagina reale. Ciò potrebbe avvenire tramite un reindirizzamento 301, ma la pagina alla fine di quel collegamento dovrebbe sempre restituire una risposta del server 200 OK.

Google divide gli errori di scansione in due gruppi:

Errori del sito. Non li vuoi, poiché significano che non è possibile eseguire la scansione dell’intero sito.
Errori URL. Non li desideri nemmeno tu, ma poiché si riferiscono solo a un URL specifico per errore, sono più facili da mantenere e correggere.
Analizziamolo.

Errori del sito

Gli errori del sito sono tutti errori di scansione che impediscono al bot del motore di ricerca di accedere al tuo sito web. Questo può avere molte ragioni, queste sono le più comuni:

Errori DNS. Ciò significa che un motore di ricerca non è in grado di comunicare con il tuo server. Potrebbe essere inattivo, ad esempio, il che significa che il tuo sito Web non può essere visitato. Questo di solito è un problema temporaneo. Google tornerà sul tuo sito web in seguito e eseguirà comunque la scansione del tuo sito. Se vedi avvisi di ciò nella tua Console di ricerca di Google in caso di errori di scansione, probabilmente significa che Google ha provato un paio di volte e ancora non è stato in grado di farlo.
Errori del server. Se la tua console di ricerca mostra errori del server, significa che il bot non è stato in grado di accedere al tuo sito web. La richiesta potrebbe essere scaduta. Il motore di ricerca (f.i.) ha tentato di visitare il tuo sito, ma il caricamento ha impiegato così tanto tempo che il server ha visualizzato un messaggio di errore. Gli errori del server si verificano anche quando nel codice sono presenti difetti che impediscono il caricamento di una pagina. Può anche significare che il tuo sito ha così tanti visitatori che il server non è riuscito a gestire tutte le richieste. Molti di questi errori vengono restituiti come codici di stato 5xx, come i codici di stato 500 e 503 descritti qui.
Fallimento dei robot. Prima di eseguire la scansione, (f.i.) Googlebot prova anche a eseguire la scansione del tuo file robots.txt, solo per vedere se ci sono aree sul tuo sito web che preferiresti non aver indicizzato. Se quel bot non riesce a raggiungere il file robots.txt, Google rinvia la ricerca per indicizzazione fino a quando non raggiunge il file robots.txt. Quindi assicurati sempre che sia disponibile.
Questo spiega un po ‘di errori di scansione relativi all’intero sito. Ora vediamo che tipo di errori di scansione potrebbero verificarsi per pagine specifiche.

Errori URL

Come accennato, gli errori URL si riferiscono a errori di scansione che si verificano quando un bot del motore di ricerca tenta di eseguire la scansione di una pagina specifica del tuo sito Web. Quando discutiamo di errori URL, tendiamo a discutere prima degli errori di scansione come (soft) errori 404 Not Found. Dovresti controllare frequentemente questo tipo di errori (usa Google Search Console o gli strumenti per i webmaster di Bing) e correggili. Se la pagina / l’oggetto di quella pagina non è più tornato sul tuo sito Web, pubblica una pagina 410. Se hai contenuti simili su un’altra pagina, utilizza invece un reindirizzamento 301. Assicurati che anche la tua Sitemap e i link interni siano aggiornati, ovviamente.

Abbiamo scoperto che molti di questi errori URL sono causati da collegamenti interni, tra l’altro. Quindi molti di questi errori sono colpa tua. Se a un certo punto rimuovi una pagina dal tuo sito, modifica o rimuovi anche i collegamenti in entrata. Questi collegamenti non servono più. Se quel collegamento rimane lo stesso, un bot lo troverà e lo seguirà, solo per trovare un vicolo cieco (404 Errore non trovato). Sul tuo sito web. Hai bisogno di fare un po ‘di manutenzione di tanto in tanto sui tuoi link interni!

Tra questi errori comuni potrebbe esserci un errore DNS occasionale o un errore del server per quello specifico URL. Ricontrolla l’URL in un secondo momento e verifica se l’errore è scomparso. Assicurati di utilizzare fetch come Google e contrassegna l’errore come corretto in Google Search Console se questo è il tuo principale strumento di monitoraggio in questo.