Inizio
/
WordPress
/
Domande frequenti
/
Come usare robots.txt di WordPress - Pratiche migliori ed esempi

Come usare robots.txt di WordPress - Pratiche migliori ed esempi

Il file robots.txt di WordPress è essenziale per migliorare la SEO del tuo sito. Comprendere e configurare correttamente un file robots aiuta i motori di ricerca a interagire meglio con il tuo sito web WordPress.

In questo articolo, ti guideremo attraverso le migliori pratiche e forniremo esempi per garantire che i motori di ricerca eseguano la scansione dei tuoi contenuti in modo efficace. Concentrarsi sulle aree chiave può migliorare le prestazioni del tuo sito e la visibilità nei risultati di ricerca.

In sostanza, il file robots.txt di WordPress funge da guida per crawler e web robot dicendo loro quali parti del tuo sito web sono autorizzati a visitare e indicizzare. Gestisce il traffico del crawler verso il tuo sito web utilizzando delle regole.

WordPress è dotato di una funzionalità integrata che genera un file robots.txt in modo dinamico – questo non è un file fisico memorizzato sul tuo server. Ciò significa che WordPress crea automaticamente un file virtuale su richiesta di scansione da un bot di un motore di ricerca.

Bloccare la scansione di una pagina in robots.txt non significa esplicitamente che Google non la indicizzerà se ci sono altre pagine che vi si collegano. Inoltre, Google consiglia di utilizzare altri metodi (come “nofollow“) per limitare la scansione delle pagine.

Cosa c’è dentro il file robots.txt?

Il file robots.txt predefinito generato da WordPress è progettato per consentire ai bot dei motori di ricerca di eseguire la scansione della maggior parte del tuo sito web. Allo stesso tempo, limita l’accesso ad aree che non sono vantaggiose per la SEO di WordPress o contengono informazioni sensibili.

Il contenuto default del robots.txt virtuale fornito da WordPress è simile al seguente:

Screenshot del file virtuale robots.txt predefinito di WordPress.
User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Ecco cosa significano queste regole predefinite:

  • User-agent: *: Questa riga applica le regole a tutti i web crawler e i bot, indicati dall’asterisco (*).
  • Disallow: /wp-admin/: Dice ai bot di non eseguire la scansione dell’area di amministrazione di WordPress. Questa directory non è necessaria per l’indicizzazione dei motori di ricerca e contiene informazioni private.
  • Allow: /wp-admin/admin-ajax.php: Sebbene la directory wp-admin non sia consentita, questa riga consente esplicitamente ai bot di accedere al file admin-ajax.php. Viene utilizzato per elaborare richieste asincrone sul front-end, anche se provengono dall’area di amministrazione.

IMPORTANTE: Nota che creando un file robots.txt fisico nella cartella principale del tuo sito WordPress, si sovrascriverà il robots.txt virtuale generato da WordPress per impostazione predefinita.

Impatto del file robots.txt sulla SEO

Il file robots.txt gioca un ruolo cruciale nella SEO per i siti WordPress, guidando i motori di ricerca su come eseguire la scansione del contenuto. Un robots.txt di WordPress correttamente configurato assicura che solo le pagine chiave vengano scansionate, migliorando la loro presenza nei risultati dei motori di ricerca.

Sebbene il file robots.txt non influisca direttamente sulle classifiche o sulla velocità della pagina, influenza quali pagine web sono indicizzate. I proprietari dei siti possono utilizzarlo in combinazione con il meta tag robots per impedire ai motori di ricerca di indicizzare specifiche pagine o sezioni di WordPress.

Inoltre, controllando il traffico di scansione, robots.txt può aiutare a mantenere le prestazioni del sito. Inoltre, indirettamente supporta i Core Web Vitals – un insieme di metriche che misura l’esperienza utente delle pagine web e influenza la SEO. Per informazioni approfondite, leggi questa guida completa su Core Web Vitals.

Come individuare il file robots.txt di WordPress

WordPress ha un file txt robots predefinito che è virtuale e non è presente nella directory principale del tuo sito web. Ciò significa che non è possibile accedervi utilizzando un File Manager o un client FTP.

Tuttavia, puoi visualizzarlo accedendo a un URL simile nel tuo browser web.

https://yourdomain.com/robots.txt

Se preferisci impostare le tue regole per i web crawler, puoi creare un file robots.txt fisico.

Una volta caricato questo file fisico nella directory principale del tuo sito, sostituirà quello virtuale generato da WordPress.

Accesso tramite il plugin Yoast SEO

Usare un plugin semplifica il processo di gestione del tuo file robots.txt. Questo metodo è più accessibile per i proprietari di siti che potrebbero non essere così esperti di tecnologia o che preferiscono un approccio centralizzato alla SEO del loro sito.

Puoi creare e accedere al tuo file robots.txt utilizzando Yoast SEO. Per farlo, segui i passaggi riportati di seguito.

  1. Accedi alla tua bacheca di WordPress.
  2. Installa e attiva il plugin da Plugins > Aggiungi Nuovo.
    Guida passo-passo sull'installazione del plugin Yoast SEO su WordPress.

  3. Vai a Yoast SEO > Strumenti e clicca su Modifica File.
    Navigando all'editor Yoast SEO File per creare un file robots.txt nella dashboard di WordPress.
  4. Crea il file robots.txt utilizzando il pulsante.
    Creazione di un file robots.txt WordPress utilizzando il plugin Yoast SEO.
  5. Modifica il file e Salva le modifiche.
    Salvare gli aggiornamenti nel file robots.txt di WordPress in Yoast SEO

NOTA: se non vedi l’Editor per modificare il file nella sezione Strumenti di Yoast SEO, controlla se qualche plugin di sicurezza potrebbe bloccare la funzione.

Come creare e modificare un file Robots.txt in WordPress

Il file robots.txt è un semplice file di testo (.txt) utilizzato dai siti WordPress per guidare la scansione degli user agent. Se vuoi personalizzare le direttive del virtual robots.txt predefinito, puoi creare il tuo file manualmente.

Tieni presente che il file robots.txt che crei sovrascriverà il file virtuale di WordPress.

Per creare il tuo file robots.txt manualmente, segui i passaggi riportati di seguito:

  1. Crea un file di testo semplice utilizzando qualsiasi editor di testo, ad esempio Blocco note. O semplicemente accedi alla Gestione File del tuo account di hosting WordPress per utilizzare la sua funzione di modifica dei file.
  2. Individua la cartella principale del tuo sito (public_html) e crea un file facendo click sull’opzione Nuovo File.
    Creazione di un nuovo file nell'interfaccia di gestione file di WordPress.
  3. Nomina il file robots.txt e salvalo.
  4. Modifica il file robots.
    Modificare il file robots.txt di WordPress direttamente nel file manager.
  5. Nel file vuoto, incolla queste istruzioni robot:
    Incollare le regole robots.txt aggiornate nell'editor di file e salvare.
User-agent: *

Disallow:

Una volta pronto, sarai in grado di modificare il robots.txt dal tuo hosting WordPress utilizzando lo stesso percorso. In alternativa, puoi utilizzare una connessione FTP per modificare il file robots.txt.

Come utilizzare Robots.txt in un sito WordPress – Pratiche migliori

Padroneggiare il tuo file robots.txt è un passo cruciale verso il successo della SEO di WordPress. In questa parte, esploreremo le migliori pratiche che guidano i bot di ricerca in modo efficace. Implementale per migliorare la presenza del tuo sito nell’indicizzazione di Google.

Resta con noi per scoprire come le giuste mosse in robots.txt possono migliorare le tue prestazioni di ricerca.

Consenti accesso completo ai bot dei motori di ricerca

Consentire ai bot dei motori di ricerca l’accesso completo al file robots.txt garantisce che possano esplorare e indicizzare ogni parte del tuo sito web. Ciò può migliorare la visibilità e la ricercabilità del tuo sito. L’accesso completo aiuta i motori di ricerca a comprendere la struttura e il contenuto del tuo sito, portando potenzialmente a un ranking migliore e più traffico.

Se vuoi consentire ai motori di ricerca di indicizzare tutte le pagine del tuo sito, aggiungi la seguente regola al tuo robots.txt:

User-agent: *

Allow: /

Oppure

User-agent: *

Disallow:

Consenti l’accesso a un particolare file in una cartella non consentita

Nel caso in cui desideri consentire ai bot di accedere a un file specifico in una cartella non consentita, utilizza uno snippet simile.

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Nell’esempio, consentiamo ai bot di eseguire la scansione di admin-ajax.php, che si trova nella directory wp-admin.

Limita i bot dall’eseguire la scansione dei risultati di ricerca di WordPress

Per mantenere il tuo sito WordPress SEO-friendly, è consigliabile impedire ai bot di eseguire la scansione dei risultati di ricerca di WordPress. Queste pagine possono creare contenuti duplicati e consumare il tuo budget di crawl, offrendo poco o nessun valore per il tuo ranking di ricerca.

User-agent: *

Disallow: /?s=

Questa direttiva garantisce che il tempo e le risorse dei bot di ricerca siano spesi per eseguire la scansione dei contenuti principali del tuo sito, non i risultati di ricerca transitori del sito.

Blocca l’accesso dei crawler dei motori di ricerca all’intero sito

Se vuoi impedire ai crawler dei motori di ricerca di indicizzare il tuo sito, utilizza lo snippet qui sotto.

User-agent: *

Disallow: /

La riga “Disallow: /” dice ai bot che non sono autorizzati ad accedere a nessuna parte del sito web. La barra (/) rappresenta la directory principale del sito e tutto ciò che segue, che è essenzialmente l’intero sito.

Bloccare uno specifico User Agent dalla scansione del tuo sito web WordPress

Potrebbero esserci momenti in cui vorresti impedire a un bot specifico di eseguire la scansione del tuo sito. Ogni user agent accede al tuo sito web con l’intenzione di indicizzare il contenuto.

Tuttavia, alcuni bot potrebbero consumare troppe risorse del server. Inoltre, ci sono bot dannosi che mirano ad acquisire i tuoi contenuti o cercare vulnerabilità da attaccare.

Pertanto, è meglio bloccare l’accesso del crawler a tali bot utilizzando il codice riportato di seguito nel file robots.txt.

User-agent: MJ12bot

Disallow: /

Tieni presente che se stai pianificando di bloccare più di uno user agent, la migliore pratica è utilizzare una regola disallow separata per ciascuno nel file robots.txt. Tale regola dovrebbe includere il nome dell’agente utente e la directory non consentita.

Dovresti bloccare i bot AI?

Molti proprietari di siti WordPress preferiscono bloccare i bot AI dall’utilizzo dei loro contenuti per proteggere la proprietà intellettuale e ridurre al minimo i rischi per la sicurezza. Tuttavia, consentire alcuni bot AI può essere vantaggioso per il riconoscimento del tuo brand. Soprattutto se stai vendendo un prodotto o un servizio che l’AI potrebbe menzionare o raccomandare sulla ricerca di un utente.

Impedisci l’accesso a una cartella o a un file specifico

Quando vuoi limitare i bot dall’accesso a pagine o file specifici, inserisci un’altra riga Disallow in robots.txt, specificando il percorso del file/cartella.

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-login.php

I proprietari dei siti bloccano pagine o file specifici per tenere i contenuti sensibili o non essenziali fuori dai risultati di ricerca. Questo approccio mirato conserva la larghezza di banda e aumenta la SEO mettendo in evidenza le aree più importanti del sito.

Specifica la posizione della Sitemap XML per i motori di ricerca

Indirizza i motori di ricerca al progetto del tuo sito web specificando la posizione della tua sitemap nel tuo file robots.txt. Questo aiuta i motori di ricerca come Google a trovare e utilizzare la tua sitemap per indicizzare il tuo sito in modo più veloce ed efficiente. Aggiungi semplicemente una riga come quella mostrata di seguito, specificando la posizione del tuo sitemap.xml.

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://testsgdomain.com/wp-sitemap.xml

Puoi anche includere più sitemaps nel tuo robots.txt per aiutare i motori di ricerca a indicizzare diverse aree di contenuto sul tuo sito. Aggiungi linee come Sitemap: http://www.yourdomain.com/sitemap-posts.xml e Sitemap: http://www.yourdomain.com/sitemap-pages.xml. Questo fornisce un indice chiaro dei tuoi contenuti per una scansione più efficace.

Voce di esempio della sitemap inclusa in un file robots.txt di WordPress.

Google Crawl Delay Limit (Deprecato)
La direttiva Crawl-Delay in un file robots.txt era un modo per dire ai Googlebots di attendere un numero specifico di secondi tra ogni richiesta di pagina fatta al tuo sito web. Questo ritardo aveva lo scopo di ridurre il carico sulle risorse del tuo server web.

Anche se il Crawl Rate Limiter (deprecato l’8 gennaio 2024) non è più disponibile, Googlebot può comunque regolare automaticamente la velocità di scansione, in base alle risposte del server. Se sei preoccupato per la velocità di scansione, puoi concentrarti sull’ottimizzazione del tuo sito web per una scansione efficiente.

Test e risoluzione dei problemi del file Robots.txt di WordPress

Il tuo WordPress robots.txt naviga nei crawler dei motori di ricerca. Pertanto, vuoi assicurarti che il tuo sito sia accessibile e che i robot capiscano cosa possono guardare e cosa è off-limits. Inoltre, Googlebot deve essere in grado di recuperare correttamente il file robots.txt per una migliore indicizzazione.

Puoi testare se il tuo WordPress robots.txt è accessibile digitando l’URL https://www.yourdomain.com/robots.txt nel browser. Un’altra opzione è quella di fare una richiesta Curl al file dal tuo Terminale, come nello screenshot qui sotto.

Dimostrazione di una richiesta CURL per testare un file robots.txt di WordPress.

Per verificare che gli user agent possano elaborare il tuo file robots.txt, testalo con Tester robots.txt di Google. Oltre a recuperare il file, lo strumento ti mostra se ci sono problemi con esso. I passaggi sono i seguenti:

  1. Accedi al tuo account Google Search Console premendo il pulsante Inizia ora.
    Accesso a Google Search Console per l'analisi del sito web.
  2. Vai su Impostazioni e scorri verso il basso fino a Apri report per il tuo robots.txt
    Accedere alle impostazioni del file robots.txt nella Google Search Console.
  3. Verifica se il robots.txt del sito specifico dal tuo elenco è Recuperato e se Google Search Console rileva eventuali problemi.
    Pagina dei rapporti di Google Search Console che mostra l'analisi del file robots.txt.
  4. Clicca sul file per controllare come Google legge il file robots.txt.
    Messaggio di conferma del recupero di Google robots.txt eseguito con successo.

Risoluzione dei problemi robots.txt

Durante la risoluzione dei problemi del file robots.txt, assicurati che i bot di ricerca non siano inavvertitamente esclusi dai contenuti essenziali. Un file robots.txt troppo restrittivo può far sì che pagine importanti passino inosservate. Google Search Console può mostrarti se hai bloccato qualcosa di importante.

  • Assicurati che la sintassi di robots.txt sia corretta per evitare problemi di elaborazione dei file dovuti a regole errate.
  • Verifica se il tuo file WordPress robots.txt consente l’accesso a risorse chiave come CSS e immagini, che sono fondamentali per la presentazione del sito.
  • Le direttive dovrebbero essere precise, prendendo di mira solo i bot previsti per prevenire problemi di comunicazione.
  • Inoltre, con la prevalenza della navigazione mobile, conferma che le impostazioni del tuo robots.txt siano ottimizzate per i crawler mobili.

Tienilo d’occhio e sarai a posto!

Conclusione

Per concludere, ricorda che le direttive user-agent nel tuo file robots.txt di WordPress guidano i bot dei motori di ricerca attraverso il tuo sito. Le istruzioni predefinite si adattano alle esigenze della maggior parte dei siti WordPress. Tuttavia, puoi personalizzarli per ottimizzare il modo in cui i motori di ricerca interagiscono con i tuoi contenuti.

Assicurati che il tuo robots.txt sia chiaro, consenta l’accesso alle tue Sitemap e limiti solo le aree che dovrebbero rimanere private. Con questi passaggi, ti assicurerai che il tuo sito sia scansionato in modo efficace per una migliore visibilità e prestazioni SEO.

Condividi questo articolo