robots.txt

¿Qué es robots.txt?

Técnicamente, robots.txt es un archivo de texto simple colocado en el directorio raíz de un sitio web (por ejemplo, www.example.com/robots.txt). Se adhiere al Estándar de Exclusión de Robots, que son directrices sobre cómo deben comportarse los rastreadores web al visitar un sitio web. Este archivo contiene instrucciones en forma de "directivas" que indican a los bots qué partes del sitio web pueden y no pueden rastrear.

Cómo Funciona robots.txt

Las directivas en robots.txt suelen estar dirigidas a agentes de usuario específicos, que son identificadores para diferentes tipos de bots. Por ejemplo, una directiva podría verse así:

User-agent: *
Disallow: /private/

Esta directiva indica a todos los agentes de usuario (* es un comodín) que no tienen permitido acceder a las URLs que comienzan con /private/. Otras directivas pueden permitir el acceso a directorios o archivos específicos, establecer retrasos en el rastreo para evitar sobrecargar el servidor o proporcionar enlaces a los sitemaps para un rastreo más eficiente.

Estructura de robots.txt

El archivo robots.txt es un documento de texto plano que se encuentra en el directorio raíz de un sitio web. Sigue una estructura sencilla, con cada conjunto de instrucciones, o "registro", separado por una línea en blanco. Cada registro consta de dos componentes principales:

User-agent: Esta línea especifica a qué rastreador o bot se aplican las siguientes reglas. Un comodín (*) indica que las reglas se aplican a todos los bots. También se pueden dirigir agentes de usuario específicos, como "Googlebot" (el rastreador de Google) o "Bingbot" (el rastreador de Microsoft).
Directivas: Estas líneas proporcionan instrucciones específicas al agente de usuario identificado.

Directivas Comunes

Directiva

Descripción

Ejemplo

Disallow

Especifica rutas o patrones que el bot no debe rastrear.

Disallow: /admin/ (prohíbe el acceso al directorio admin)

Allow

Permite explícitamente al bot rastrear rutas o patrones específicos, incluso si están bajo una regla Disallow más amplia.

Allow: /public/ (permite el acceso al directorio public)

Crawl-delay

Establece un retraso (en segundos) entre solicitudes sucesivas del bot para evitar sobrecargar el servidor.

Crawl-delay: 10 (retraso de 10 segundos entre solicitudes)

Sitemap

Proporciona la URL a un sitemap XML para un rastreo más eficiente.

Sitemap: https://www.example.com/sitemap.xml

¿Por Qué Respetar robots.txt?

Aunque robots.txt no es estrictamente exigible (un bot malintencionado aún podría ignorarlo), la mayoría de los rastreadores web legítimos y los bots de motores de búsqueda respetarán sus directrices. Esto es importante por varias razones:

Evitar Sobrecargar los Servidores: Al limitar el acceso del rastreador a ciertas áreas, los propietarios de sitios web pueden prevenir un tráfico excesivo que podría ralentizar o incluso bloquear sus servidores.
Proteger Información Sensible: Robots.txt puede proteger información privada o confidencial de ser indexada por los motores de búsqueda.
Cumplimiento Legal y Ético: En algunos casos, ignorar las directrices de robots.txt podría considerarse una violación de los términos de servicio de un sitio web o incluso un problema legal, especialmente si implica acceder a datos protegidos por derechos de autor o privados.

robots.txt en el Reconocimiento Web

Para el reconocimiento web, robots.txt sirve como una fuente valiosa de inteligencia. Mientras se respetan las directrices establecidas en este archivo, los profesionales de seguridad pueden obtener información crucial sobre la estructura y las posibles vulnerabilidades de un sitio web objetivo:

Descubrir Directorios Ocultos: Las rutas desautorizadas en robots.txt a menudo apuntan a directorios o archivos que el propietario del sitio web desea mantener fuera del alcance de los rastreadores de motores de búsqueda. Estas áreas ocultas pueden albergar información sensible, archivos de respaldo, paneles administrativos u otros recursos que podrían interesar a un atacante.
Mapear la Estructura del Sitio Web: Al analizar las rutas permitidas y no permitidas, los profesionales de seguridad pueden crear un mapa rudimentario de la estructura del sitio web. Esto puede revelar secciones que no están vinculadas desde la navegación principal, potencialmente conduciendo a páginas o funcionalidades no descubiertas.
Detectar Trampas para Rastreadores: Algunos sitios web incluyen intencionalmente directorios "honeypot" en robots.txt para atraer a bots maliciosos. Identificar tales trampas puede proporcionar información sobre la conciencia de seguridad y las medidas defensivas del objetivo.

Análisis de robots.txt

Aquí hay un ejemplo de un archivo robots.txt:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

User-agent: Googlebot
Crawl-delay: 10

Sitemap: https://www.example.com/sitemap.xml

Este archivo contiene las siguientes directivas:

Todos los agentes de usuario tienen prohibido acceder a los directorios /admin/ y /private/.
Todos los agentes de usuario tienen permitido acceder al directorio /public/.
El Googlebot (el rastreador web de Google) tiene instrucciones específicas para esperar 10 segundos entre solicitudes.
Se proporciona el sitemap, ubicado en https://www.example.com/sitemap.xml, para facilitar el rastreo y la indexación.

Al analizar este robots.txt, podemos inferir que el sitio web probablemente tenga un panel de administración ubicado en /admin/ y algún contenido privado en el directorio /private/.

PreviousCrawling NextWell-Known URIs

Last updated 1 year ago

Was this helpful?