robots.txt (3)
21 Julio, 2006 | Escrito por emiligene | Categorías: posicionamiento | | 1,780 lecturasCualquier omisión suele interpretarse por los buscadores como un permiso. Por ejemplo, si el archivo robots.txt está en blanco o si lo está la línea correspondiente a Disallow, los motores entienden que pueden acceder sin restricciones. Lo mismo en ausencia del archivo; si no lo colocas en tu directorio raíz, el efecto es equivalente a un permiso total, salvo que el servidor devuelva una página no estándar, distinta al error 404, con lo que existe el riesgo de que sea traducido como exclusión. No tener el archivo robots.txt implica que el log de errores de tu servidor se multiplicará.
Existen muchos motores de búsqueda o arañas pero sólo unos pocos tienen incidencia real sobre el posicionamiento. Por curiosidad, añado aquí una lista casi exhaustiva pero con más de 2 años de antigüedad, recuperada de Linuca y que enlaza a una dirección que ya no existe:
|
Buscador |
Categoría |
Origen |
Idioma |
User-agent |
| Acoon | Search | Germany | German | Acoon Robot |
| AllThatNet | Search | United States | English (US) | ATN Worldwide |
| Altavista | Search | United States | English (US) | Scooter |
| Anzwers | Search | United States | English (US) | AnzwersCrawl |
| AustLII | Search | Australia | English (AUS) | Grommit |
| CMC/0.01 | Music | Japan | Japanese | CMC/0.01 |
| Direct Hit Grabber | Search | United States | English (US) | grabber |
| e-Collector | United States | English (US) | ecollector | |
| Entire Web | Search | Sweden | English (US) | Speedy |
| EuroSeek | Search | Sweden | English (US) | Freecrawl |
| Excite | Search | United States | English (US) | ArchitextSpider |
| FAST/AllTheWeb | Search | United States | English (US) | FAST WebCrawler |
| Fireball | Search | Germany | German | KIT Fireball |
| Goo | Search | Japan | Japanese | moget |
| Search | United States | English (US) | Googlebot | |
| Google Image | Image | United States | English (US) | Googlebot-Image |
| Griffon | Search | Japan | Japanese | griffon |
| IaNet.com | Search | Canada | English (CDN) | ParaSite |
| Industry Central | Search | Canada | English (CDN) | Open Text Site Crawler |
| InfoSeek.de | Search | Germany | German | marvin |
| Ingrid | Search | Netherlands | Dutch | INGRID/0 1 |
| Inktomi | Search | United States | English (US) | Slurp |
| Internet Cruiser | Search | Yugoslavia | English (US) | Internet Cruiser Robot |
| Kvasir | Search | Norway | Norwegian | solbot |
| Legs | News | United States | English (US) | legs |
| Lets Find It Now! | Search | Hungary | English (US) | elfinbot |
| Lycos | Search | United States | English (US) | Lycos_Spider_(T-Rex) |
| Mirago | Search | United Kingdom | English | mirago |
| Northern Light | Search | United States | English (US) | Gulliver |
| Openfind | Search | Chinese | Chinese (Traditional) | Openbot |
| Planet Search | Search | United States | English (US) | fido |
| Portal Juice | Search | Canada | English (CDN) | pjspider |
| whatUseek | Search | United States | English (US) | winona |
| WhoWhere | Search | United States | English (US) | whowhere |
Existen validadores para robots.txt, de igual forma que para código XHTML o CSS. Si no quieres buscar en Google, prueba con Validators
Y como Google es el buscador por excelencia, aquí tienes una explicación en castellano de sus características, relacionadas con el rastreo de sitios y el archivo robots.txt
(Actualización a 14 de agosto de 2006:
Webmaster Libre presenta un generador en línea del archivo robots.txt y añade las direcciones de otros tres generadores:
http://www.mcanerin.com/EN/search-engine/robots-txt.asp
http://www.1-hit.com/all-in-one/tool-robots.txt-generator.htm
http://www.submitcorner.com/Tools/Robots/
Y cita tres direcciones en español que tratan el tema:
http://www.webtaller.com/google/guia_robots.php
http://www.contadorwap.com/robots.php
http://mundogeek.net/archivos/2005/05/04/robotstxt/)
Entradas relacionadas:
Si Google no puede leer tu robots.txt no indexa tu sitioBreves (16.10.07)
robots.txt (1)
robots.txt (2)



