robots.txt

¿Qué es robots.txt?

Técnicamente, robots.txt es un archivo de texto simple colocado en el directorio raíz de un sitio web (por ejemplo, www.example.com/robots.txt). Se adhiere al Estándar de Exclusión de Robots, que son directrices sobre cómo deben comportarse los rastreadores web al visitar un sitio web. Este archivo contiene instrucciones en forma de "directivas" que indican a los bots qué partes del sitio web pueden y no pueden rastrear.

CĂłmo Funciona robots.txt

Las directivas en robots.txt suelen estar dirigidas a agentes de usuario especĂ­ficos, que son identificadores para diferentes tipos de bots. Por ejemplo, una directiva podrĂ­a verse asĂ­:

User-agent: *
Disallow: /private/

Esta directiva indica a todos los agentes de usuario (* es un comodín) que no tienen permitido acceder a las URLs que comienzan con /private/. Otras directivas pueden permitir el acceso a directorios o archivos específicos, establecer retrasos en el rastreo para evitar sobrecargar el servidor o proporcionar enlaces a los sitemaps para un rastreo más eficiente.

Estructura de robots.txt

El archivo robots.txt es un documento de texto plano que se encuentra en el directorio raĂ­z de un sitio web. Sigue una estructura sencilla, con cada conjunto de instrucciones, o "registro", separado por una lĂ­nea en blanco. Cada registro consta de dos componentes principales:

  • User-agent: Esta lĂ­nea especifica a quĂ© rastreador o bot se aplican las siguientes reglas. Un comodĂ­n (*) indica que las reglas se aplican a todos los bots. TambiĂ©n se pueden dirigir agentes de usuario especĂ­ficos, como "Googlebot" (el rastreador de Google) o "Bingbot" (el rastreador de Microsoft).

  • Directivas: Estas lĂ­neas proporcionan instrucciones especĂ­ficas al agente de usuario identificado.

Directivas Comunes

DirectivaDescripciĂłnEjemplo

Disallow

Especifica rutas o patrones que el bot no debe rastrear.

Disallow: /admin/ (prohĂ­be el acceso al directorio admin)

Allow

Permite explícitamente al bot rastrear rutas o patrones específicos, incluso si están bajo una regla Disallow más amplia.

Allow: /public/ (permite el acceso al directorio public)

Crawl-delay

Establece un retraso (en segundos) entre solicitudes sucesivas del bot para evitar sobrecargar el servidor.

Crawl-delay: 10 (retraso de 10 segundos entre solicitudes)

Sitemap

Proporciona la URL a un sitemap XML para un rastreo más eficiente.

¿Por Qué Respetar robots.txt?

Aunque robots.txt no es estrictamente exigible (un bot malintencionado aún podría ignorarlo), la mayoría de los rastreadores web legítimos y los bots de motores de búsqueda respetarán sus directrices. Esto es importante por varias razones:

  • Evitar Sobrecargar los Servidores: Al limitar el acceso del rastreador a ciertas áreas, los propietarios de sitios web pueden prevenir un tráfico excesivo que podrĂ­a ralentizar o incluso bloquear sus servidores.

  • Proteger InformaciĂłn Sensible: Robots.txt puede proteger informaciĂłn privada o confidencial de ser indexada por los motores de bĂşsqueda.

  • Cumplimiento Legal y Ético: En algunos casos, ignorar las directrices de robots.txt podrĂ­a considerarse una violaciĂłn de los tĂ©rminos de servicio de un sitio web o incluso un problema legal, especialmente si implica acceder a datos protegidos por derechos de autor o privados.

robots.txt en el Reconocimiento Web

Para el reconocimiento web, robots.txt sirve como una fuente valiosa de inteligencia. Mientras se respetan las directrices establecidas en este archivo, los profesionales de seguridad pueden obtener informaciĂłn crucial sobre la estructura y las posibles vulnerabilidades de un sitio web objetivo:

  • Descubrir Directorios Ocultos: Las rutas desautorizadas en robots.txt a menudo apuntan a directorios o archivos que el propietario del sitio web desea mantener fuera del alcance de los rastreadores de motores de bĂşsqueda. Estas áreas ocultas pueden albergar informaciĂłn sensible, archivos de respaldo, paneles administrativos u otros recursos que podrĂ­an interesar a un atacante.

  • Mapear la Estructura del Sitio Web: Al analizar las rutas permitidas y no permitidas, los profesionales de seguridad pueden crear un mapa rudimentario de la estructura del sitio web. Esto puede revelar secciones que no están vinculadas desde la navegaciĂłn principal, potencialmente conduciendo a páginas o funcionalidades no descubiertas.

  • Detectar Trampas para Rastreadores: Algunos sitios web incluyen intencionalmente directorios "honeypot" en robots.txt para atraer a bots maliciosos. Identificar tales trampas puede proporcionar informaciĂłn sobre la conciencia de seguridad y las medidas defensivas del objetivo.

Análisis de robots.txt

AquĂ­ hay un ejemplo de un archivo robots.txt:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

User-agent: Googlebot
Crawl-delay: 10

Sitemap: https://www.example.com/sitemap.xml

Este archivo contiene las siguientes directivas:

  • Todos los agentes de usuario tienen prohibido acceder a los directorios /admin/ y /private/.

  • Todos los agentes de usuario tienen permitido acceder al directorio /public/.

  • El Googlebot (el rastreador web de Google) tiene instrucciones especĂ­ficas para esperar 10 segundos entre solicitudes.

  • Se proporciona el sitemap, ubicado en https://www.example.com/sitemap.xml, para facilitar el rastreo y la indexaciĂłn.

Al analizar este robots.txt, podemos inferir que el sitio web probablemente tenga un panel de administraciĂłn ubicado en /admin/ y algĂşn contenido privado en el directorio /private/.

Last updated