robots.txt (3)

21 Julio, 2006 | Escrito por emiligene | Categorías: posicionamiento | | 1,780 lecturas

Cualquier omisión suele interpretarse por los buscadores como un permiso. Por ejemplo, si el archivo robots.txt está en blanco o si lo está la línea correspondiente a Disallow, los motores entienden que pueden acceder sin restricciones. Lo mismo en ausencia del archivo; si no lo colocas en tu directorio raíz, el efecto es equivalente a un permiso total, salvo que el servidor devuelva una página no estándar, distinta al error 404, con lo que existe el riesgo de que sea traducido como exclusión. No tener el archivo robots.txt implica que el log de errores de tu servidor se multiplicará.
Existen muchos motores de búsqueda o arañas pero sólo unos pocos tienen incidencia real sobre el posicionamiento. Por curiosidad, añado aquí una lista casi exhaustiva pero con más de 2 años de antigüedad, recuperada de Linuca y que enlaza a una dirección que ya no existe:

Buscador

Categoría

Origen

Idioma

User-agent

Acoon Search Germany German Acoon Robot
AllThatNet Search United States English (US) ATN Worldwide
Altavista Search United States English (US) Scooter
Anzwers Search United States English (US) AnzwersCrawl
AustLII Search Australia English (AUS) Grommit
CMC/0.01 Music Japan Japanese CMC/0.01
Direct Hit Grabber Search United States English (US) grabber
e-Collector Email United States English (US) ecollector
Entire Web Search Sweden English (US) Speedy
EuroSeek Search Sweden English (US) Freecrawl
Excite Search United States English (US) ArchitextSpider
FAST/AllTheWeb Search United States English (US) FAST WebCrawler
Fireball Search Germany German KIT Fireball
Goo Search Japan Japanese moget
Google Search United States English (US) Googlebot
Google Image Image United States English (US) Googlebot-Image
Griffon Search Japan Japanese griffon
IaNet.com Search Canada English (CDN) ParaSite
Industry Central Search Canada English (CDN) Open Text Site Crawler
InfoSeek.de Search Germany German marvin
Ingrid Search Netherlands Dutch INGRID/0 1
Inktomi Search United States English (US) Slurp
Internet Cruiser Search Yugoslavia English (US) Internet Cruiser Robot
Kvasir Search Norway Norwegian solbot
Legs News United States English (US) legs
Lets Find It Now! Search Hungary English (US) elfinbot
Lycos Search United States English (US) Lycos_Spider_(T-Rex)
Mirago Search United Kingdom English mirago
Northern Light Search United States English (US) Gulliver
Openfind Search Chinese Chinese (Traditional) Openbot
Planet Search Search United States English (US) fido
Portal Juice Search Canada English (CDN) pjspider
whatUseek Search United States English (US) winona
WhoWhere Search United States English (US) whowhere

Existen validadores para robots.txt, de igual forma que para código XHTML o CSS. Si no quieres buscar en Google, prueba con Validators

Y como Google es el buscador por excelencia, aquí tienes una explicación en castellano de sus características, relacionadas con el rastreo de sitios y el archivo robots.txt

(Actualización a 14 de agosto de 2006:
Webmaster Libre presenta un generador en línea del archivo robots.txt y añade las direcciones de otros tres generadores:
http://www.mcanerin.com/EN/search-engine/robots-txt.asp
http://www.1-hit.com/all-in-one/tool-robots.txt-generator.htm
http://www.submitcorner.com/Tools/Robots/
Y cita tres direcciones en español que tratan el tema:
http://www.webtaller.com/google/guia_robots.php
http://www.contadorwap.com/robots.php
http://mundogeek.net/archivos/2005/05/04/robotstxt/)





Entradas relacionadas:

Si Google no puede leer tu robots.txt no indexa tu sitio
Breves (16.10.07)
robots.txt (1)
robots.txt (2)

Publica un Comentario