Come usare robots.txt di WordPress - Pratiche migliori ed esempi
Questo tutorial riguarda i seguenti argomenti:
Il file robots.txt di WordPress è essenziale per migliorare la SEO del tuo sito. Comprendere e configurare correttamente un file robots aiuta i motori di ricerca a interagire meglio con il tuo sito web WordPress.
In questo articolo, ti guideremo attraverso le migliori pratiche e forniremo esempi per garantire che i motori di ricerca eseguano la scansione dei tuoi contenuti in modo efficace. Concentrarsi sulle aree chiave può migliorare le prestazioni del tuo sito e la visibilità nei risultati di ricerca.
WordPress è dotato di una funzionalità integrata che genera un file robots.txt in modo dinamico – questo non è un file fisico memorizzato sul tuo server. Ciò significa che WordPress crea automaticamente un file virtuale su richiesta di scansione da un bot di un motore di ricerca.
Bloccare la scansione di una pagina in robots.txt non significa esplicitamente che Google non la indicizzerà se ci sono altre pagine che vi si collegano. Inoltre, Google consiglia di utilizzare altri metodi (come “nofollow“) per limitare la scansione delle pagine.
Cosa c’è dentro il file robots.txt?
Il file robots.txt predefinito generato da WordPress è progettato per consentire ai bot dei motori di ricerca di eseguire la scansione della maggior parte del tuo sito web. Allo stesso tempo, limita l’accesso ad aree che non sono vantaggiose per la SEO di WordPress o contengono informazioni sensibili.
Il contenuto default del robots.txt virtuale fornito da WordPress è simile al seguente:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Ecco cosa significano queste regole predefinite:
- User-agent: *: Questa riga applica le regole a tutti i web crawler e i bot, indicati dall’asterisco (*).
- Disallow: /wp-admin/: Dice ai bot di non eseguire la scansione dell’area di amministrazione di WordPress. Questa directory non è necessaria per l’indicizzazione dei motori di ricerca e contiene informazioni private.
- Allow: /wp-admin/admin-ajax.php: Sebbene la directory wp-admin non sia consentita, questa riga consente esplicitamente ai bot di accedere al file admin-ajax.php. Viene utilizzato per elaborare richieste asincrone sul front-end, anche se provengono dall’area di amministrazione.
Impatto del file robots.txt sulla SEO
Il file robots.txt gioca un ruolo cruciale nella SEO per i siti WordPress, guidando i motori di ricerca su come eseguire la scansione del contenuto. Un robots.txt di WordPress correttamente configurato assicura che solo le pagine chiave vengano scansionate, migliorando la loro presenza nei risultati dei motori di ricerca.
Sebbene il file robots.txt non influisca direttamente sulle classifiche o sulla velocità della pagina, influenza quali pagine web sono indicizzate. I proprietari dei siti possono utilizzarlo in combinazione con il meta tag robots per impedire ai motori di ricerca di indicizzare specifiche pagine o sezioni di WordPress.
Inoltre, controllando il traffico di scansione, robots.txt può aiutare a mantenere le prestazioni del sito. Inoltre, indirettamente supporta i Core Web Vitals – un insieme di metriche che misura l’esperienza utente delle pagine web e influenza la SEO. Per informazioni approfondite, leggi questa guida completa su Core Web Vitals.
Come individuare il file robots.txt di WordPress
WordPress ha un file txt robots predefinito che è virtuale e non è presente nella directory principale del tuo sito web. Ciò significa che non è possibile accedervi utilizzando un File Manager o un client FTP.
Tuttavia, puoi visualizzarlo accedendo a un URL simile nel tuo browser web.
https://yourdomain.com/robots.txt
Se preferisci impostare le tue regole per i web crawler, puoi creare un file robots.txt fisico.
Una volta caricato questo file fisico nella directory principale del tuo sito, sostituirà quello virtuale generato da WordPress.
Accesso tramite il plugin Yoast SEO
Usare un plugin semplifica il processo di gestione del tuo file robots.txt. Questo metodo è più accessibile per i proprietari di siti che potrebbero non essere così esperti di tecnologia o che preferiscono un approccio centralizzato alla SEO del loro sito.
Puoi creare e accedere al tuo file robots.txt utilizzando Yoast SEO. Per farlo, segui i passaggi riportati di seguito.
- Accedi alla tua bacheca di WordPress.
- Installa e attiva il plugin da Plugins > Aggiungi Nuovo.
- Vai a Yoast SEO > Strumenti e clicca su Modifica File.
- Crea il file robots.txt utilizzando il pulsante.
- Modifica il file e Salva le modifiche.
Come creare e modificare un file Robots.txt in WordPress
Il file robots.txt è un semplice file di testo (.txt) utilizzato dai siti WordPress per guidare la scansione degli user agent. Se vuoi personalizzare le direttive del virtual robots.txt predefinito, puoi creare il tuo file manualmente.
Tieni presente che il file robots.txt che crei sovrascriverà il file virtuale di WordPress.
Per creare il tuo file robots.txt manualmente, segui i passaggi riportati di seguito:
- Crea un file di testo semplice utilizzando qualsiasi editor di testo, ad esempio Blocco note. O semplicemente accedi alla Gestione File del tuo account di hosting WordPress per utilizzare la sua funzione di modifica dei file.
- Individua la cartella principale del tuo sito (public_html) e crea un file facendo click sull’opzione Nuovo File.
- Nomina il file robots.txt e salvalo.
- Modifica il file robots.
- Nel file vuoto, incolla queste istruzioni robot:
User-agent: *
Disallow:
Una volta pronto, sarai in grado di modificare il robots.txt dal tuo hosting WordPress utilizzando lo stesso percorso. In alternativa, puoi utilizzare una connessione FTP per modificare il file robots.txt.
Come utilizzare Robots.txt in un sito WordPress – Pratiche migliori
Padroneggiare il tuo file robots.txt è un passo cruciale verso il successo della SEO di WordPress. In questa parte, esploreremo le migliori pratiche che guidano i bot di ricerca in modo efficace. Implementale per migliorare la presenza del tuo sito nell’indicizzazione di Google.
Resta con noi per scoprire come le giuste mosse in robots.txt possono migliorare le tue prestazioni di ricerca.
Consenti accesso completo ai bot dei motori di ricerca
Consentire ai bot dei motori di ricerca l’accesso completo al file robots.txt garantisce che possano esplorare e indicizzare ogni parte del tuo sito web. Ciò può migliorare la visibilità e la ricercabilità del tuo sito. L’accesso completo aiuta i motori di ricerca a comprendere la struttura e il contenuto del tuo sito, portando potenzialmente a un ranking migliore e più traffico.
Se vuoi consentire ai motori di ricerca di indicizzare tutte le pagine del tuo sito, aggiungi la seguente regola al tuo robots.txt:
User-agent: *
Allow: /
Oppure
User-agent: *
Disallow:
Consenti l’accesso a un particolare file in una cartella non consentita
Nel caso in cui desideri consentire ai bot di accedere a un file specifico in una cartella non consentita, utilizza uno snippet simile.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Nell’esempio, consentiamo ai bot di eseguire la scansione di admin-ajax.php, che si trova nella directory wp-admin.
Limita i bot dall’eseguire la scansione dei risultati di ricerca di WordPress
Per mantenere il tuo sito WordPress SEO-friendly, è consigliabile impedire ai bot di eseguire la scansione dei risultati di ricerca di WordPress. Queste pagine possono creare contenuti duplicati e consumare il tuo budget di crawl, offrendo poco o nessun valore per il tuo ranking di ricerca.
User-agent: *
Disallow: /?s=
Questa direttiva garantisce che il tempo e le risorse dei bot di ricerca siano spesi per eseguire la scansione dei contenuti principali del tuo sito, non i risultati di ricerca transitori del sito.
Blocca l’accesso dei crawler dei motori di ricerca all’intero sito
Se vuoi impedire ai crawler dei motori di ricerca di indicizzare il tuo sito, utilizza lo snippet qui sotto.
User-agent: *
Disallow: /
La riga “Disallow: /” dice ai bot che non sono autorizzati ad accedere a nessuna parte del sito web. La barra (/) rappresenta la directory principale del sito e tutto ciò che segue, che è essenzialmente l’intero sito.
Bloccare uno specifico User Agent dalla scansione del tuo sito web WordPress
Potrebbero esserci momenti in cui vorresti impedire a un bot specifico di eseguire la scansione del tuo sito. Ogni user agent accede al tuo sito web con l’intenzione di indicizzare il contenuto.
Tuttavia, alcuni bot potrebbero consumare troppe risorse del server. Inoltre, ci sono bot dannosi che mirano ad acquisire i tuoi contenuti o cercare vulnerabilità da attaccare.
Pertanto, è meglio bloccare l’accesso del crawler a tali bot utilizzando il codice riportato di seguito nel file robots.txt.
User-agent: MJ12bot
Disallow: /
Tieni presente che se stai pianificando di bloccare più di uno user agent, la migliore pratica è utilizzare una regola disallow separata per ciascuno nel file robots.txt. Tale regola dovrebbe includere il nome dell’agente utente e la directory non consentita.
Impedisci l’accesso a una cartella o a un file specifico
Quando vuoi limitare i bot dall’accesso a pagine o file specifici, inserisci un’altra riga Disallow in robots.txt, specificando il percorso del file/cartella.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
I proprietari dei siti bloccano pagine o file specifici per tenere i contenuti sensibili o non essenziali fuori dai risultati di ricerca. Questo approccio mirato conserva la larghezza di banda e aumenta la SEO mettendo in evidenza le aree più importanti del sito.
Specifica la posizione della Sitemap XML per i motori di ricerca
Indirizza i motori di ricerca al progetto del tuo sito web specificando la posizione della tua sitemap nel tuo file robots.txt. Questo aiuta i motori di ricerca come Google a trovare e utilizzare la tua sitemap per indicizzare il tuo sito in modo più veloce ed efficiente. Aggiungi semplicemente una riga come quella mostrata di seguito, specificando la posizione del tuo sitemap.xml.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://testsgdomain.com/wp-sitemap.xml
Puoi anche includere più sitemaps nel tuo robots.txt per aiutare i motori di ricerca a indicizzare diverse aree di contenuto sul tuo sito. Aggiungi linee come Sitemap: http://www.yourdomain.com/sitemap-posts.xml e Sitemap: http://www.yourdomain.com/sitemap-pages.xml. Questo fornisce un indice chiaro dei tuoi contenuti per una scansione più efficace.
Test e risoluzione dei problemi del file Robots.txt di WordPress
Il tuo WordPress robots.txt naviga nei crawler dei motori di ricerca. Pertanto, vuoi assicurarti che il tuo sito sia accessibile e che i robot capiscano cosa possono guardare e cosa è off-limits. Inoltre, Googlebot deve essere in grado di recuperare correttamente il file robots.txt per una migliore indicizzazione.
Puoi testare se il tuo WordPress robots.txt è accessibile digitando l’URL https://www.yourdomain.com/robots.txt nel browser. Un’altra opzione è quella di fare una richiesta Curl al file dal tuo Terminale, come nello screenshot qui sotto.
Per verificare che gli user agent possano elaborare il tuo file robots.txt, testalo con Tester robots.txt di Google. Oltre a recuperare il file, lo strumento ti mostra se ci sono problemi con esso. I passaggi sono i seguenti:
- Accedi al tuo account Google Search Console premendo il pulsante Inizia ora.
- Vai su Impostazioni e scorri verso il basso fino a Apri report per il tuo robots.txt
- Verifica se il robots.txt del sito specifico dal tuo elenco è Recuperato e se Google Search Console rileva eventuali problemi.
- Clicca sul file per controllare come Google legge il file robots.txt.
Risoluzione dei problemi robots.txt
Durante la risoluzione dei problemi del file robots.txt, assicurati che i bot di ricerca non siano inavvertitamente esclusi dai contenuti essenziali. Un file robots.txt troppo restrittivo può far sì che pagine importanti passino inosservate. Google Search Console può mostrarti se hai bloccato qualcosa di importante.
- Assicurati che la sintassi di robots.txt sia corretta per evitare problemi di elaborazione dei file dovuti a regole errate.
- Verifica se il tuo file WordPress robots.txt consente l’accesso a risorse chiave come CSS e immagini, che sono fondamentali per la presentazione del sito.
- Le direttive dovrebbero essere precise, prendendo di mira solo i bot previsti per prevenire problemi di comunicazione.
- Inoltre, con la prevalenza della navigazione mobile, conferma che le impostazioni del tuo robots.txt siano ottimizzate per i crawler mobili.
Tienilo d’occhio e sarai a posto!
Conclusione
Per concludere, ricorda che le direttive user-agent nel tuo file robots.txt di WordPress guidano i bot dei motori di ricerca attraverso il tuo sito. Le istruzioni predefinite si adattano alle esigenze della maggior parte dei siti WordPress. Tuttavia, puoi personalizzarli per ottimizzare il modo in cui i motori di ricerca interagiscono con i tuoi contenuti.
Assicurati che il tuo robots.txt sia chiaro, consenta l’accesso alle tue Sitemap e limiti solo le aree che dovrebbero rimanere private. Con questi passaggi, ti assicurerai che il tuo sito sia scansionato in modo efficace per una migliore visibilità e prestazioni SEO.