Giusto robots.txt

Il file robots.txt — questo è il file principale, descrive le regole per la gestione delle pagine di ricerca di robot. Questo file è necessario per indicare il nome di un sito, mappa del sito (sitemap.xml), aperte e chiuse le sezioni del sito.
Il file robots.txt comprende le seguenti linee guida:

  • User-agent — direttiva specifica per un robot le seguenti regole
    • * - tutti i robot
    • Yandex — principale robot Yandex
    • Googlebot — il principale robot di Google
    • StackRambler — robot di ricerca Rambler
    • Aport — robot di ricerca Altavista
    • Slurp — robot Yahoo
    • MSNBot — robot MSN
  • Disallow — direttiva del divieto del sito
  • Allow — direttiva autorizzazioni del sito
  • Host — la direttiva indicare il nome del sito
  • Sitemap— direttiva indicazioni della mappa del sito (sitemap.xml)
  • Crawl-delay — la direttiva indica il numero di secondi che il robot può aspettare una risposta dal sito (è necessaria in molto elevato di risorse per il robot non è considerato sito non disponibile)
  • Clean-param — direttiva descrive i parametri dinamici non influenzano il contenuto del sito

Помимо директив в robots.txt используются спец символы:

  • * - любай (compresi vuota) una sequenza di caratteri
  • $ — è una limitazione regole

Per la compilazione robots.txt vengono utilizzati suddette direttive e cantato i simboli secondo il seguente principio:

  • Specifica il nome del robot per il quale è scritto un elenco di regole
    (User-agent: * la regola per tutti i robot)
  • Scritto elenco vietate le sezioni del sito per il robot
    ( Disallow: / - divieto di indicizzazione di tutto il sito)
  • Scritto elenco consentiti sezioni del sito
    (Allow: /home/ — consentito sezione home)
  • Nome del sito
    (Host: crazysquirrel.ru — il nome principale del sito crazysquirrel.ru)
  • Specificare il percorso assoluto al file sitemap.xml
    (Sitemap: https:// crazysquirrel.ru/sitemap.xml)

Se sul sito non c'è esclusione di partizioni, robots.txt deve essere composta da un minimo di 4 punti:

User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml

Verificare robots.txt e poi, come si pregiudica l'indicizzazione di un sito con gli strumenti di Yandex

Guardare e lasciare commenti