|
Scritto da Vincenzo
|
|
Il file robot.txt è un normale file di testo che deve essere inserito nella root del sito:
www.sitoweb.ext/robot.txt.
Le sue funzioni sono del tutto simili a quelle del meta tag “robots”.
Il file è composto da due campi:
User-agent:
Disallow:
Nel campo User-agent deve essere inserito il nome dello spider, (con il simbolo * si fà riferimento agli spider di tutti i motori di ricerca) e nel campo Disallow và inserito il nome della pagina o della directory che non deve essere indicizzata.
Non tutti i motori utilizzano il file “robot.txt”
User-agent: googlebot
Disallow: /pagina.html
In questo caso lo spider di google non archivia la pagina “pagina.html”.
User-agent: googlebot-image
Disallow: /immagini/file.jpg
In questo caso lo spider di google non archivia l’immagine “file.jpg”
Una lista di spider si può trovare a questi indirizzi:
http://www.robotstxt.org/wc/active/html/index.html
http://www.psychedelix.com/agents.html
http://www.searchenginedictionary.com/spider-names.shtml
|