ACERCA DE · CONTACTO · RSS · ·

despuesdegoogle

internet y pos(t)modernidad


Atención: Este blog ya no se actualiza. Desde el 22 de agosto de 2011 se ha integrado en el nuevo blog tiempos pos(t)modernos, que te invitamos a visitar



robots.txt (1)

leave a comment

Con este archivo indicas a los motores de búsqueda o arañas, qué y cómo tienen que indexar en tu sitio.
El archivo robots.txt normalmente no forma parte de la estructura mínima que ofrece un servidor en sus planes de hospedaje, y por tanto le toca al webmaster escribirlo y subirlo al sitio raíz.
Se trata de un archivo de texto plano (debe editarse pues sin ningún tipo de formato) con el que se intenta instruir a las arañas que rastrean de forma automática y sistemática toda la web en busca de novedades, para optimizar la indexación de nuestro sitio y conseguir el mejor posicionamiento.
Consta de sólo dos parámetros:
User-Agent:
Disallow:

Los valores que les asignemos dependen de lo que cada webmaster quiera definir en su sitio.
Para User-Agent son los nombres de las arañas o motores. Para Disallow, los directorios o páginas que queremos proteger.
Supongamos que queremos prohibir el directorio privado a Google; se escribiría así:

User-Agent: Googlebot
Disallow: /privado/

Si potegemos un directorio, tiene que ir entre barras. Si es un archivo, sin barras.

Disallow: /privado/ (prohibe el acceso al directorio privado)
Disallow: privado.html (prohibe acceder al archivo privado.html)
Disallow: /privado/privado.html (prohibe acceder a un archivo de un directorio) 
Disallow: /privado (prohibe acceder al directorio privado y a todos los archivos que empiecen por “privado”)

 

Written by emiligene

julio 21st, 2006 at 12:08 pm

Leave a Reply