Inizio
/
Assistenza sito web
/
Robots.txt - Che cos'è e le best practise

Robots.txt - Che cos'è e le best practise

La SEO è una parte fondamentale della gestione del sito web, perché assicura che le tue pagine web siano ottimizzate per i motori di ricerca. Il file robots.txt è uno strumento essenziale in questo processo, guidando i crawler dei motori di ricerca su quali parti del tuo sito esplorare e indicizzare.

Questo articolo esplorerà il ruolo di robots.txt nella SEO e condividerà le best practice per massimizzarne l’efficacia. Quindi, scopriamo cos’è il file robots.txt e sblocchiamo il suo potenziale!

Un file robots.txt indica ai crawler dei motori di ricerca quali parti di un sito web devono essere analizzate e quali ignorare, aiutando a gestire il carico del server, prevenire richieste eccessive e tenere sotto controllo il budget di analisi.

Il file robots.txt è una parte fondamentale della SEO tecnica, che ti aiuta a:

  • gestire il budget di scansione
  • impedire l’indicizzazione di pagine sensibili
  • e migliorare l’efficienza del sito

Il budget di scansione è il numero di pagine che un motore di ricerca può analizzare in un dato periodo di tempo per un sito web specifico. Il budget di scansione non è un numero fisso: varia per ogni sito web a seconda del numero di pagine web, della frequenza di aggiornamento, delle impostazioni del server web, ecc.

Il file non impedisce alle pagine di apparire nei risultati di ricerca di Google; per questo, i proprietari di siti web dovrebbero utilizzare direttive ‘noindex’ o altri metodi di esclusione. Invece, queste pagine bloccate non avranno meta descrizioni.

Questo file txt si trova nella directory principale di un sito web e segue il Robots Exclusion Protocol (REP), rispettato dalla maggior parte dei motori di ricerca.

Nell’immagine sottostante puoi vedere cosa contiene solitamente un file robots.txt.

Contenuto di un file robots.txt

Perché robots.txt è importante per la SEO?

I motori di ricerca come Google, Bing e Yahoo distribuiscono crawler per indicizzare le pagine web. Tuttavia, non tutte le pagine dovrebbero essere indicizzate o scansionate frequentemente. Robots.txt aiuta a:

  • ottimizzare l’efficienza di scansione
  • proteggere i contenuti privati
  • impedire che le pagine duplicate influenzino le classifiche

Sebbene non garantisca la sicurezza, agisce come una direttiva per i bot di ricerca, istruendoli su come elaborare le pagine web.

Inoltre, quando Googlebot visita per la prima volta un dominio, cerca automaticamente robots.txt in “https://tuodominio.com/robots.txt”, quindi è uno dei primi file che i crawler dei motori di ricerca controllano quando visitano un sito web.

Come verificare se il tuo sito web ha un file Robots.txt?

Per verificare se il tuo sito ha un file robots.txt, visita il seguente indirizzo in un browser web. Sostituisci tuodominio.com con il nome di dominio del tuo sito web.

tuodominio.com/robots.txt

Se il file esiste, il suo contenuto verrà visualizzato. In caso contrario, potrebbe essere necessario creare un file robots.txt.

robots.txt in un browser web

Come creare e accedere a robots.txt?

  1. Creazione di Robots.txt: Apri un semplice editor di testo come NotePad (Windows) o TextEdit (Mac). In alternativa, gli utenti di SiteGround possono utilizzare Gestione File fornito nel loro Site Tools. Crea un nuovo file, aggiungi le direttive e assegnagli il nome robots.txt. Assicurati che venga salvato come file di testo normale, codificato in UTF-8.
    Creazione di un file robots.txt

  2. Caricamento di robots.txt: utilizzando un client FTP o il file manager del tuo provider di hosting, carica il file robots.txt nella directory del dominio principale (public_html/) del tuo sito web. Ciò garantisce che sia accessibile su tuodominio.com/robots.txt. Se hai creato il file con il Gestione File nel tuo account di hosting, salta questo passaggio.
    Caricamento di un file robots.txt con un client FTP
  3. Test e convalida: per confermare che il tuo file robots.txt sia formattato correttamente e accessibile, usa Google’s Robots.txt Tester. Questo strumento aiuta a identificare eventuali errori e garantisce che i motori di ricerca elaborino correttamente il file.
    robots.txt nella Google Search Console

Sintassi e regole di robots.txt

Il file robots.txt è costituito da regole che specificano come i diversi crawler dei motori di ricerca devono interagire con un sito web. Le direttive più comuni includono:

1. Gestione di User-agent e crawler

Definisce a quale bot si applica la regola. Diversi motori di ricerca e web crawler hanno requisiti univoci, quindi specificare uno user agent consente regole personalizzate che ottimizzano le prestazioni del sito. Ad esempio, se inserisci solo “Googlebot“, significa che le regole si applicheranno solo a quell’user agent ma non ad altri user agent come Bingbot.

User-agent: Googlebot

2. Disallow

Questa regola impedisce ai motori di ricerca di guardare determinate aree di un sito web. È utile quando vuoi evitare problemi di contenuti duplicati, come impedire ai motori di ricerca di indicizzare le pagine di categoria con parametri di filtro. Ad esempio:

Disallow: /category-name/?filter=*

Puoi anche bloccare un’intera sezione di categoria affinché non venga scansionata se non è rilevante per i motori di ricerca:

Disallow: /category-name/

In questo modo, aiuti i motori di ricerca a concentrarsi sulle pagine più importanti del tuo sito ed eviti di sprecare il budget di scansione in sezioni non necessarie.

3. Allow

Sostituisce Disallow, consentendo ai motori di ricerca di scansionare pagine o directory specifiche che altrimenti verrebbero bloccate. Ciò è utile quando è necessario limitare l’accesso alla maggior parte di una sezione, consentendo comunque l’indicizzazione di alcuni file importanti. Ad esempio:

Disallow: /private/
Allow: /private/public-file.html

Questa configurazione impedisce ai motori di ricerca di scansionare tutto ciò che si trova nella directory /private/, eccetto public-file.html. L’uso corretto della direttiva Allow aiuta a mantenere un equilibrio tra privacy e rilevabilità.

4. Crawl-delay

Questa regola limita la frequenza di scansione. Google non supporta questa direttiva, tuttavia, alcuni altri motori di ricerca come Bing e Yandex lo fanno ancora. Regolare il ritardo di scansione può aiutare a ridurre il carico del server, specialmente per siti Web di grandi dimensioni con aggiornamenti frequenti.

Crawl-delay: 10

5. Inclusione della sitemap

Includere una mappa del sito nel file robots.txt aiuta i motori di ricerca a trovare e indicizzare rapidamente le pagine importanti del tuo sito. Ciò è particolarmente utile per i siti di grandi dimensioni con molte pagine che altrimenti potrebbero richiedere più tempo per essere scoperte.

Sebbene non sia obbligatorio, aggiungere una direttiva sitemap in robots.txt è una buona pratica per garantire che i motori di ricerca possano scansionare in modo efficiente la struttura del tuo sito. È meglio includere la sitemap XML alla fine del file robots.txt.

Sitemap: https://tuodominio.com/sitemap.xml

Migliori pratiche per Robots.txt

1. Evita di bloccare le pagine importanti

Il blocco di pagine essenziali (ad esempio /blog/, /services/) può avere un impatto negativo sulle classifiche impedendo ai motori di ricerca di indicizzare contenuti di valore.

Ad esempio, il blocco di /category-name/ potrebbe nascondere involontariamente tutte le pagine di prodotti o articoli associati, come /category-name/product-1/.
Se hai bisogno di limitare pagine specifiche mantenendo visibili le altre, prendi in considerazione un approccio più preciso:

Disallow: /category-name/private-page/

In alternativa, potrebbe essere utile bloccare un’intera categoria se contiene contenuti duplicati o di scarso valore:

Disallow: /category-name/

Esaminando attentamente quali sezioni bloccare si garantisce che i contenuti importanti rimangano indicizzabili, controllando al contempo l’efficienza della scansione.

2. Prevenire la scansione di pagine duplicate e di basso valore

Per evitare di sprecare il budget di scansione e impedire che pagine inutili o duplicate vengano indicizzate nei risultati di ricerca, utilizzare la direttiva Disallow in modo efficace. Le pagine di basso valore, come le aree di amministrazione, i risultati di ricerca interni e gli URL generati dinamicamente, dovrebbero essere solitamente bloccate. Ecco alcuni esempi:

Disallow: /wp-admin/
Disallow: /?s=

3. Utilizzare wildcard e pattern matching in modo efficiente

I wildcard e il pattern matching in robots.txt consentono un controllo più flessibile e preciso sulle pagine che i motori di ricerca possono o non possono scansionare. Ciò è particolarmente utile per gestire URL generati dinamicamente o per bloccare specifici tipi di file.

Ad esempio, se il tuo sito web genera URL con filtri che non vuoi che vengano indicizzati, puoi utilizzare:

Disallow: /*?filter=*

Ciò impedisce ai motori di ricerca di analizzare qualsiasi URL che contenga ?filter=, indipendentemente dal valore.

Allo stesso modo, se vuoi impedire la scansione di tutti i file PDF, puoi usare:

Disallow: /*.pdf$

Il simbolo $ alla fine assicura che vengano bloccati solo gli URL che terminano con .pdf , anziché bloccare qualsiasi URL che contenga .pdf in qualsiasi punto della sua struttura.

L’utilizzo strategico dei caratteri jolly ti aiuta a ottimizzare il budget di scansione, impedendo al contempo che pagine non necessarie o irrilevanti appaiano nei risultati di ricerca.

4. Assicurati che il tuo file robots.txt sia accessibile

Assicurarsi che il file robots.txt sia accessibile significa che i robot web possono leggere e seguire correttamente le sue istruzioni. Un file robots.txt mal configurato o non funzionante può impedire involontariamente ai motori di ricerca di scansionare l’intero sito, causando gravi problemi SEO e potenziali perdite di traffico.

Per evitare ciò, assicurati che il file sia formattato correttamente, posizionato correttamente nella directory principale e accessibile tramite tuodominio.com/robots.txt. Utilizza strumenti come Google Search Console per testare e convalidare il file, assicurandoti che non blocchi accidentalmente pagine importanti o contenga errori di sintassi.

5. Utilizzare robots.txt per l’ottimizzazione del budget di scansione

Per i siti Web di grandi dimensioni, il blocco delle sezioni a bassa priorità (ad esempio, pagine di tag, pagine di archivio) aiuta i motori di ricerca a concentrare i loro sforzi di scansione su contenuti di alto valore come pagine di prodotti, pagine di servizi o post di blog. Riducendo il numero di pagine non necessarie sottoposte a scansione, ti assicuri che i motori di ricerca dedichino più tempo all’indicizzazione di contenuti che contribuiscono alle classifiche.

Ad esempio, se un sito web ha migliaia di pagine di archivio che non forniscono un valore univoco, bloccarle con robots.txt può aiutare i motori di ricerca a dare priorità alle sezioni più importanti del sito.

6. Non utilizzare robots.txt per la protezione dei contenuti sensibili

Invece, usa meta tag noindex, che dicono esplicitamente ai motori di ricerca di non indicizzare una pagina, pur consentendo ai crawler di accedervi. Questo è utile per tenere determinate pagine fuori dai risultati di ricerca senza limitare l’accesso degli utenti.

In alternativa, per contenuti più sensibili, implementa il controllo di accesso basato sull’autenticazione, assicurandoti che solo gli utenti autorizzati possano visualizzare la pagina. Questo approccio impedisce ai crawler web di accedere completamente a contenuti privati o riservati.

Conclusione

Un file robots.txt ben ottimizzato assicura che i motori di ricerca eseguano la scansione del tuo sito web in modo efficiente, migliorando la SEO e le prestazioni del sito. Un auditing e un aggiornamento regolari di robots.txt assicurano che sia in linea con i tuoi obiettivi SEO. Se non sei sicuro delle configurazioni, usa lo strumento di test robots.txt di Google Search Console per evitare costosi errori.

Condividi questo articolo