robots.txt

También conocido como el protocolo de la exclusión de robots o protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios webs u otros robots que investigan todo o una parte del acceso de un sitio web, público o privado. Los robots son de uso frecuente por los motores de búsqueda categorizar y los sitios webs del archivo, o por los webmasters para corregir su código fuente.

Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Esto puede estar, por ejemplo, fuera de una preferencia por aislamiento de resultados del Búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados pudo ser engañoso o inaplicable a la clasificación del sitio en su totalidad, o fuera de un deseo que un uso funciona solamente encendido ciertos datos.

El protocolo, sin embargo, es puramente consultivo. Confía en la cooperación de los robots del sitio web, de modo que marca un área de un sitio fuera de los límites con robots.txt no garantice aislamiento. Algunos administradores de sitios web han intentado utilizar el archivo robots.txt para hacer de algunas secciones privadas de un sitio web invisibles al resto del mundo, pero el archivo está necesariamente disponible en forma pública y su contenido puede ser visto fácilmente por cualquier persona con un navegador web.

No hay cuerpo de los estándares o RFC oficial para el protocolo de robots.txt. Fue creado por consenso en junio de 1994 por los miembros de robots que enviaban la lista (robots-request@nexor.co.uk). La información que especifica las piezas que no deben ser alcanzadas se especifica en un archivo llamado robots.txt en el directorio a nivel superior del Web site. Los patrones de robots.txt son emparejados por comparaciones simples de la subsecuencia, así que el cuidado se debe tomar para cerciorarse de que los directorios de la concordancia con el modelo tienen “/” del final carácter añadido, si no todos los archivos con nombres comenzando con esa subsecuencia emparejarán, más bien que apenas ésos en el directorio previsto.

Ejemplos:

  • Este ejemplo permite que todos los robots visiten todos los archivos que se encuentran almacenados en el código raíz de la página web porque el comodín “*” especifica todos los robots:
User-agent: *
Disallow:

Cabe destacar que el comodín (*) significa “ALL” o en lo sucesivo en español “TODOS”

  • Este ejemplo les niega el acceso a todos los bots (implementando el comodin [*], en todos los archivos almacenados en el directorio raíz:
User-agent: *
Disallow: /

Cabe destacar que el comodín (/), le niega el acceso la entrada al bot.

  • El siguiente es un ejemplo que dice todos los subdirectorios que incluyan el comodín (/), deben de ser bloqueadas solamente, y exceptúa a todos los demás archivos que no contienen un comodín, para su revisión:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
Share and Enjoy: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • Live
  • MisterWong
  • MisterWong.DE
  • Technorati

Leave a Reply