Con este archivo indicas a los motores de búsqueda o arañas, qué y cómo tienen que indexar en tu sitio.
El archivo robots.txt normalmente no forma parte de la estructura mínima que ofrece un servidor en sus planes de hospedaje, y por tanto le toca al webmaster escribirlo y subirlo al sitio raíz.
Se trata de un archivo de texto plano (debe editarse pues sin ningún tipo de formato) con el que se intenta instruir a las arañas que rastrean de forma automática y sistemática toda la web en busca de novedades, para optimizar la indexación de nuestro sitio y conseguir el mejor posicionamiento.
Consta de sólo dos parámetros:
User-Agent:
Disallow:
Los valores que les asignemos dependen de lo que cada webmaster quiera definir en su sitio.
Para User-Agent son los nombres de las arañas o motores. Para Disallow, los directorios o páginas que queremos proteger.
Supongamos que queremos prohibir el directorio privado a Google; se escribiría así:
User-Agent: Googlebot
Disallow: /privado/
Si potegemos un directorio, tiene que ir entre barras. Si es un archivo, sin barras.
Disallow: /privado/ (prohibe el acceso al directorio privado)
Disallow: privado.html (prohibe acceder al archivo privado.html)
Disallow: /privado/privado.html (prohibe acceder a un archivo de un directorio)
Disallow: /privado (prohibe acceder al directorio privado y a todos los archivos que empiecen por “privado”)