Robots.txt: Come usarlo e perchè è importante per la seo

"Il file robots.txt è uno strumento chiave per gestire l’accesso e l’indicizzazione di un sito web dai motori di ricerca. Si tratta di un semplice file di testo che fornisce istruzioni ai crawler. Di seguito analizzeremo in dettaglio cos’è robots.txt, come funziona e come sfruttarlo al meglio. Vedremo le direttive Allow e Disallow per controllare […]

David Giannicchi

Ultima modifica: 13 Settembre 2024

Questa foto descrive: Robots.txt: Come usarlo e perchè è importante per la seo

Il file robots.txt è uno strumento chiave per gestire l’accesso e l’indicizzazione di un sito web dai motori di ricerca. Si tratta di un semplice file di testo che fornisce istruzioni ai crawler.

Di seguito analizzeremo in dettaglio cos’è robots.txt, come funziona e come sfruttarlo al meglio. Vedremo le direttive Allow e Disallow per controllare l’accesso, i principali crawler web che leggono questo file, e alcuni suggerimenti per ottimizzarlo.

In breve, impostare correttamente robots.txt può migliorare la SEO, ottimizzare il carico di lavoro dei crawler, gestire il traffico sul server ed evitare duplicazioni di contenuti.

Cos’è robots.txt e come funziona

Il file robots.txt è un elemento chiave nella gestione SEO di un sito, fondamentale per controllare l’accesso dei crawler ai motori di ricerca. Per un esperto SEO è importante ottimizzare questo file, spesso sottovalutato. Si tratta di un semplice file testo nella root del sito, che fornisce istruzioni su quali parti possono essere esplorate e quali no. Deve essere nominato “robots.txt” facendo attenzione al case sensitive.

All’interno ci sono direttive “Disallow” e “Allow” per indicare rispettivamente il blocco o il permesso di accesso a pagine e directory specifiche. È importante sottolineare che robots.txt non garantisce che tutti i crawler rispettino tali istruzioni, ma i principali motori come Google, Bing e Yahoo! tendono a seguirle.

Inoltre, un corretto utilizzo di robots.txt può prevenire problemi come duplicazione di contenuti, proteggendo le pagine sensibili e assicurando l’indicizzazione delle più rilevanti. Utili tool come il Robots.txt Generator di Google possono aiutare a creare e validare il file. È consigliabile aggiornare periodicamente robots.txt per gestire nuove pagine e sezioni del sito.

Attenzione a non bloccare per errore l’intero sito ai crawler dei motori di ricerca! Più avanti vedremo esempi pratici per ottimizzare questo importante file.

Quanti crawler esistono?

Il web ospita centinaia di robot, noti anche come spider o crawler, che esplorano la rete per aggiornare i contenuti nei motori di ricerca. Di fatto, i motori di ricerca funzionano come un catalogo web, organizzato secondo criteri stabiliti dagli algoritmi che definiscono la “graduatoria” dei risultati per determinate ricerche. Non c’è un solo crawler responsabile di tutto per ogni motore di ricerca. Piuttosto, esistono numerosi crawler web che esaminano e analizzano i contenuti per tutti i motori di ricerca utilizzati dagli internauti globalmente. Tra i più diffusi crawler web abbiamo:

Googlebot
Bingbot
Yandex Bot
Apple Bot
DuckDuck Bot
Baidu Spider
Spider Sogou
Facebook External Hit
Exabot
Swiftbot
Slurp Bot
CCBot
GoogleOther
Google-InspectionTool

Ogni crawler, prima di esaminare un sito, consulta il file robots.txt per determinare se è “autorizzato” dal proprietario del sito a procedere. Questo file è dunque fondamentale. Per istruzioni specifiche a un crawler, come il Googlebot, si usa “User-agent: Googlebot”, mentre per direttive generali a tutti i robot si adopera “User-agent: *”.

Perché è importante ottimizzare il robots.txt

Gestire correttamente robots.txt può migliorare la SEO, ottimizzare il crawl budget, proteggere pagine sensibili ed evitare duplicazioni di contenuto. Tuttavia bisogna fare attenzione a non bloccare per errore l’intero sito ai motori di ricerca. Un file robots.txt ben impostato aiuta i crawler a scandire in modo più efficiente il sito.

Come funziona il file robots.txt?

Il file robots.txt è strettamente collegato al Robots Exclusion Protocol (REP), una serie di linee guida che stabiliscono come i robot di ricerca interagiscono ed elaborano i contenuti digitali. Questo protocollo non solo comprende il file robots.txt, ma anche altri elementi come i meta tag specifici per i robot e varie direttive su come i motori di ricerca dovrebbero comportarsi con i link presenti nei siti. Potremmo paragonare il REP a una sorta di organismo di controllo che ha l’obiettivo di uniformare le regole per i robot, assicurando che le istruzioni siano omogenee per la maggior parte dei motori di ricerca. In questo modo, non c’è bisogno di creare linee guida individuali per ogni singolo crawler.

Un’occhiata ad un esempio di robots.txt:

Ecco un esempio base di un file robots.txt, che illustra alcune regole e una specifica direttiva:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.esempio.com/sitemap.xml

La prima direttiva indica al crawler di Google, noto come Googlebot, di non analizzare gli URL che iniziano con https://esempio.com/nogooglebot/
La seconda, invece, dà via libera a tutti gli altri robot di ricerca, permettendo loro di navigare liberamente l’intero sito. È essenziale sottolineare che, anche in assenza di questa direttiva, i robot potrebbero comunque navigare il sito, poiché la norma predefinita permette questa azione se non ci sono istruzioni contrarie nel file robots.txt.
L’ultima direttiva segnala al robot dove può trovare la Sitemap del sito, fornendo un indirizzo specifico.

L’operatività del robots.txt nei motori di ricerca:

Quando parliamo di motori di ricerca, intendiamo strumenti con due compiti fondamentali:

Realizzare un crawling approfondito del web con l’obiettivo di scovare nuovi contenuti e nuovi siti. Questo è reso possibile grazie ai crawler, che si muovono di pagina in pagina seguendo i link, mappando così la vasta rete del web.
Una volta identificati questi contenuti, il passo successivo è l’indicizzazione. Questo processo implica l’analisi e l’elaborazione dei dati raccolti, inserendoli in enormi database chiamati indici di ricerca. Gli indici vengono poi utilizzati per fornire risultati pertinenti agli utenti che effettuano ricerche. Questa fase è in continua evoluzione, poiché nuovi contenuti vengono rilevati quasi quotidianamente.

Nella pratica, per individuare nuovi siti, i motori di ricerca utilizzano link provenienti da altre pagine. Una volta raggiunto un nuovo sito, cercano immediatamente il file robots.txt. Se lo trovano, ne esaminano il contenuto prima di procedere con il crawling. Se il file non impone restrizioni, il crawler prosegue nel suo lavoro, analizzando tutte le informazioni disponibili. Durante questa fase, vengono estratte varie informazioni da ogni pagina, come titoli, descrizioni, e altri metadati. Questi dati sono poi trasferiti al sistema di indicizzazione, entrando così a far parte del vasto database di ricerca.

Alcune caratteristiche fondamentali del file robots.txt

Il robots.txt deve sempre essere posizionato nella directory principale del sito.
Può essere facilmente visualizzato da chiunque aggiungendo /robots.txt all’URL del sito.
Alcuni robot potrebbero scegliere di ignorare questo file.
Ogni subdominio ha bisogno di un proprio file robots.txt.
La denominazione del file è sensibile alle maiuscole e minuscole, quindi è essenziale chiamarlo “robots.txt”.

Comandi fondamentali presenti in un file robots.txt:

I comandi che comunemente troviamo all’interno di un file robots.txt includono:

User-agent: questa istruzione specifica il crawler a cui si forniscono le istruzioni. Ad esempio, è possibile utilizzare questa istruzione per consentire o bloccare l’accesso al proprio sito web ai crawler come già visto nell’esempio precedente.
Allow: questa istruzione consente l’accesso ad una pagina o cartella. Ad esempio, è possibile utilizzare questa istruzione per consentire ai motori di ricerca di scansionare e indicizzare tutte le pagine di un sito web, ad eccezione di una particolare cartella.
Disallow: questa istruzione blocca il crawling di un URL specifico. Ad esempio, è possibile utilizzare questa istruzione per impedire ai motori di ricerca di scansionare e indicizzare una pagina di errore o una pagina di costruzione.
Sitemap: questa istruzione richiama la posizione di una sitemap XML. Una sitemap XML è un file che elenca tutte le pagine di un sito web e aiuta i motori di ricerca a trovare e indicizzare più facilmente le pagine del sito web.
Crawl-delay: questa istruzione definisce i secondi di attesa tra un caricamento e l’altro. Ad esempio, è possibile utilizzare questa istruzione per limitare la velocità di scansione del proprio sito web da parte dei motori di ricerca. Da utilizzare nei casi in cui il server vada in blocco durante le scansioni per via delle troppe richieste. in generale però i crawler più evoluti attraverso i loro algoritmi riescono ad anticipare i blocchi del server andando quindi ad adattare la loro velocità di scansione ad ogni sito web.

Dove inserire il robots.txt

Il file robots.txt va posizionato alla root del server a cui si applica, ad esempio http://www.dominiodiesempio.com/robots.txt. Di solito coincide nell’inserire il file dentro la “public_html”. Il file robots.txt è essenziale e va posizionato alla root del server a cui si applica, per esempio http://www.dominiodiesempio.com/robots.txt. Di solito coincide nell’inserire il file dentro la “public_html”.

Perché il file robots.txt è essenziale?

Robots.txt è utile per:

Bloccare pagine non pubbliche
Massimizzare il crawl budget
Prevenire l’indicizzazione di risorse come immagini e PDF

Robots.txt è utile per bloccare pagine non pubbliche, massimizzare il crawl budget e prevenire l’indicizzazione di risorse come immagini e PDF. Robots.txt è quindi uno strumento essenziale.

Best practice

Non bloccare contenuti che si vogliono far indicizzare
Non utilizzare il file per nascondere dati sensibili perchè la direttiva può essere ignorata, ma soprattutto perchè sarebbe più facile per i malintenzionati avere un elenco dei file che invece si vogliono rendere sicuri in quanto ricordate sempre che il file robots.txt deve per sua natura essere sempre visitabile.
Rendere il file facile da trovare (mettendolo nella root) e rinominarlo tutto minuscolo
Inserite sempre la url della sitemap

Le best practice prevedono di non bloccare contenuti che si vogliono far indicizzare, non utilizzare il file robots.txt per nascondere dati sensibili, rendere il file facile da trovare e rinominarlo tutto minuscolo, e inserire sempre l’URL della sitemap.

In sintesi, robots.txt è un file essenziale per controllare il crawling e l’indicizzazione del tuo sito web e può aiutare la SEO in quanto si può andare ad ottimizzare il crawl budget andando a far scansionare il sito a google nelle sezioni utili che veramente ci interessano. Il file robots.txt è dunque uno strumento fondamentale per la SEO.

Contattaci per un preventivo o una consulenza