Il file robots.txt — questo è il file principale, descrive le regole per la gestione delle pagine di ricerca di robot. Questo file è necessario per indicare il nome di un sito, mappa del sito (sitemap.xml), aperte e chiuse le sezioni del sito.
Il file robots.txt comprende le seguenti linee guida:
- User-agent — direttiva specifica per un robot le seguenti regole
- * - tutti i robot
- Yandex — principale robot Yandex
- Googlebot — il principale robot di Google
- StackRambler — robot di ricerca Rambler
- Aport — robot di ricerca Altavista
- Slurp — robot Yahoo
- MSNBot — robot MSN
- Disallow — direttiva del divieto del sito
- Allow — direttiva autorizzazioni del sito
- Host — la direttiva indicare il nome del sito
- Sitemap— direttiva indicazioni della mappa del sito (sitemap.xml)
- Crawl-delay — la direttiva indica il numero di secondi che il robot può aspettare una risposta dal sito (è necessaria in molto elevato di risorse per il robot non è considerato sito non disponibile)
- Clean-param — direttiva descrive i parametri dinamici non influenzano il contenuto del sito
Помимо директив в robots.txt используются спец символы:
- * - любай (compresi vuota) una sequenza di caratteri
- $ — è una limitazione regole
Per la compilazione robots.txt vengono utilizzati suddette direttive e cantato i simboli secondo il seguente principio:
- Specifica il nome del robot per il quale è scritto un elenco di regole
(User-agent: * la regola per tutti i robot) - Scritto elenco vietate le sezioni del sito per il robot
( Disallow: / - divieto di indicizzazione di tutto il sito) - Scritto elenco consentiti sezioni del sito
(Allow: /home/ — consentito sezione home) - Nome del sito
(Host: crazysquirrel.ru — il nome principale del sito crazysquirrel.ru) - Specificare il percorso assoluto al file sitemap.xml
(Sitemap: https:// crazysquirrel.ru/sitemap.xml)
Se sul sito non c'è esclusione di partizioni, robots.txt deve essere composta da un minimo di 4 punti:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml
Verificare robots.txt e poi, come si pregiudica l'indicizzazione di un sito con gli strumenti di Yandex