Come utilizzare il file robots.txt per migliorare la scansione dei motori di ricerca sul tuo sito?
La funzione principale del file robots.txt è quella di comunicare ai bot di scansione dei motori di ricerca quali file indicizzare e quali no. Spesso si utilizza per specificare i file da non indicizzare sui motori di ricerca.
Per indicare ai motori di ricerca di indicizzare qualsiasi contenuto presente sul sito web, puoi aggiungere queste righe nel file robots.txt:
User-agent: *
Disallow:
Al contrario, se desideri che il contenuto di questo sito non venga aggiunto ai motori di ricerca, puoi utilizzare questo codice:
User-agent: *
Disallow: /
Per ottenere risultati più specifici, è necessario approfondire la sintassi di questo file. La dicitura “User-agent:” specifica per quali bots saranno valide queste impostazioni. Puoi utilizzare il valore “*” per fare in modo che la regola sia valida per tutti i bot di ricerca, oppure puoi specificare il nome del bot per cui impostare le condizioni.
La parte “Disallow:” indica i file e le cartelle che non devono essere indicizzate dai motori di ricerca. Ciascuna cartella o file su cui agire devono essere indicati su una nuova riga. Ad esempio, se desideri non indicizzare le cartelle “private” e “security” contenute in public_html dovrai specificare:
User-agent: *
Disallow: /private
Disallow: /security
La direttiva “Disallow:” utilizza la directory ‘root’ del tuo spazio hosting come base di partenza, pertanto il path da indicare dovrà essere /sample.txt e non /home/user/public_html/sample.txt.