beafn28
  • 👩‍💻¡Bienvenidos a mi HackBook!
  • WRITEUPS
    • DockerLabs
      • BuscaLove
      • Amor
      • Injection
      • BorazuwarahCTF
      • Trust
      • Picadilly
      • Pinguinazo
      • AguaDeMayo
      • BreakMySSH
      • NodeClimb
      • Move
      • Los 40 ladrones
      • Vulnvault
      • Pntopntobarra
      • Library
      • Escolares
      • ConsoleLog
      • Vacaciones
      • Obsession
      • FirstHacking
      • SecretJenkins
      • HedgeHog
      • AnonymousPingu
      • ChocolateLovers
      • Dockerlabs
      • Pressenter
      • Candy
      • JenkHack
      • ShowTime
      • Upload
      • Verdejo
      • WalkingCMS
      • WhereIsMyWebShell
      • Whoiam
      • Winterfell
      • -Pn
      • Psycho
      • Mirame
      • Backend
      • Paradise
      • Balurero
      • Allien
      • Vendetta
      • FindYourStyle
      • Stellarjwt
      • File
      • Redirection (Por completar)
      • Extraviado
      • Patriaquerida
      • Tproot
      • Internship
      • Walking Dead
      • Bicho (Por completar)
      • BaluFood
    • TryHackMe
      • Brooklyn Nine Nine
      • Blue
    • HackTheBox
      • Nibbles
      • Starting Point
        • Meow
        • Fawn
        • Dancing
        • Redeemer
        • Appointment
        • Sequel
        • Crocodile
        • Responder
        • Three
        • Archetype
        • Oopsie
        • Vaccine
        • Unified
        • Explosion
        • Preignition
        • Mongod
        • Synced
        • Ignition
        • Bike
        • Funnel
        • Pennyworth
        • Tactics
        • Included
        • Markup
        • Base
      • BoardLight
      • Cap
      • TwoMillion
      • Lame
      • Legacy
      • Devel
      • Beep
      • Optimum
      • Arctic
      • Jerry
      • Sau
      • GoodGames
      • Challenges
        • Emdee five for life
        • MarketDump
      • Intro to Dante
      • Heist
      • OpenAdmin
      • Nest
      • Curling
    • Vulnhub
      • Wakanda
      • Election (Por terminar)
    • The Hacker Labs
      • Avengers
      • Can you hack me?
      • Fruits
      • Microchoft
      • TickTakRoot
      • Grillo
      • Mortadela
      • Zapas Guapas
      • Sal y Azúcar
      • Cyberpunk
      • Papafrita
      • PizzaHot
      • Decryptor
      • Academy
      • Cocido andaluz
      • Find Me
      • Quokka
      • Campana Feliz
      • Bocata de Calamares
      • Casa Paco
      • Torrijas
    • Vulnyx
      • Fuser
      • Blogguer
      • Lower
      • Exec
      • Diff3r3ntS3c
      • Hacking Station
      • Experience
      • Eternal
      • Agent
      • Infected
      • Admin
      • War
      • Hosting
    • OverTheWire
      • Natas
        • Nivel 0-5
        • Nivel 6-11
        • Nivel 12-17
        • Nivel 18-23
        • Nivel 24-29
        • Nivel 30-34
      • Leviathan
        • Nivel 0-7
      • Krypton
      • Bandit
        • Nivel 0-10
        • Nivel 11-20
        • Nivel 21-30
        • Nivel 31-34
    • Proving Ground Play
      • Monitoring
      • DriftingBlues6
  • APUNTES HACKING
    • Pentesting Basics
      • Web Enumeration
      • Public Exploits
      • Types of Shells
      • Privilege Escalation
      • Transfering Files
    • Network Enumeration with NMAP
      • Host Discovery
      • Host and Port Scanning
      • Saving the Results
      • Service Enumeration
      • Nmap Scripting Engine
      • Performance
      • Firewall and IDS/IPS Evasion
    • Footprinting
      • Domain Information
      • Cloud Resources
      • FTP
      • SMB
      • NFS
      • DNS
      • SMTP
      • IMAP/POP3
      • SNMP
      • MySQL
      • MSSQL
      • Oracle TNS
      • IPMI
      • Linux Remote Management Protocols
      • Windows Remote Management Protocols
    • Information Gathering - Web Edition
      • WHOIS
      • DNS
        • Digging DNS
      • Subdomains
        • Subdomain Bruteforcing
        • DNS Zone Transfers
        • Virtual Hosts
        • Certificate Transparency Logs
      • Fingerprinting
      • Crawling
        • robots.txt
        • Well-Known URIs
        • Creepy Crawlies
      • Search Engine Discovery
      • Web Archives
      • Automating Recon
    • Vulnerability Assessment
      • Vulnerability Assessment
      • Assessment Standards
      • Common Vulnerability Scoring System (CVSS)
      • Common Vulnerabilities and Exposures (CVE)
    • Nessus
      • Getting Started with Nessus
      • Nessus Scan
      • Advanced Settings
      • Working with Nessus Scan Output
      • Scanning Issues
    • OpenVAS
      • OpenVAS Scan
      • Exporting The Results
    • Reporting
    • File Transfers
      • Windows File Transfer Methods
      • Linux File Transfer Methods
      • Transferring Files with Code
      • Miscellaneous File Transfer Methods
      • Protected File Transfers
      • Catching Files over HTTP/S
      • Living off The Land
      • Detection
      • Evading Detection
    • Shells & Payloads
      • Anatomy of a Shell
      • Bind Shells
      • Reverse Shells
      • Payloads
        • Automating Payloads & Delivery with Metasploit
        • Crafting Payloads with MSFvenom
        • Infiltrating Windows
        • Infiltrating Unix/Linux
        • Spawning Interactive Shells
      • Introduction to Web Shells
        • Laudanum, One Webshell to Rule Them All
        • Antak Webshell
        • PHP Web Shells
      • Detection & Prevention
    • Metasploit
      • MSFConsole
      • Modules
      • Targets
      • Payloads
      • Encoders
      • Databases
      • Plugins
      • Sessions
      • Meterpreter
      • Writing and Importing Modules
      • Introduction to MSFVenom
      • Firewall and IDS/IPS Evasion
    • Password Attacks
      • John The Ripper
      • Network Services
      • Password Mutations
      • Password Reuse / Default Passwords
      • Attacking SAM
      • Attacking LSASS
      • Attacking Active Directory & NTDS.dit
      • Credential Hunting in Windows
      • Credential Hunting in Linux
      • Passwd, Shadow & Opasswd
      • Pass the Hash (PtH)
  • WEB SECURITY
    • Path Traversal
    • SQL Injection
    • Control de Acceso
  • Mis CTFs
    • Pequeñas Mentirosas
    • CryptoLabyrinth
    • Elevator
    • Facultad
  • PREPARAR EJPTv2
    • Máquinas
    • Curso de Mario
      • Presentación + Preparación de Laboratorios
      • Conceptos Básicos de Hacking
      • Explotación de Vulnerabilidades y Ataques de Fuerza Bruta
      • Explotación vulnerabilidades Web
      • Enumeración y Explotación del Protócolo SMB, SAMBA, SNMP, IIS y RDP
      • Hacking Entornos CMS
      • Escalada de Privilegios + Post Explotación
      • Pivoting con Metasploit
  • Preparar OSCP
    • Información
    • Máquinas
      • Linux
        • Fácil
        • Medio
        • Difícil
      • Windows
        • Fácil
        • Medio
        • Difícil
  • PREPARAR PT1
    • Organización
Powered by GitBook
On this page
  • ¿Qué es robots.txt?
  • Cómo Funciona robots.txt
  • Estructura de robots.txt
  • robots.txt en el Reconocimiento Web
  • Análisis de robots.txt

Was this helpful?

  1. APUNTES HACKING
  2. Information Gathering - Web Edition
  3. Crawling

robots.txt

¿Qué es robots.txt?

Técnicamente, robots.txt es un archivo de texto simple colocado en el directorio raíz de un sitio web (por ejemplo, www.example.com/robots.txt). Se adhiere al Estándar de Exclusión de Robots, que son directrices sobre cómo deben comportarse los rastreadores web al visitar un sitio web. Este archivo contiene instrucciones en forma de "directivas" que indican a los bots qué partes del sitio web pueden y no pueden rastrear.

Cómo Funciona robots.txt

Las directivas en robots.txt suelen estar dirigidas a agentes de usuario específicos, que son identificadores para diferentes tipos de bots. Por ejemplo, una directiva podría verse así:

User-agent: *
Disallow: /private/

Esta directiva indica a todos los agentes de usuario (* es un comodín) que no tienen permitido acceder a las URLs que comienzan con /private/. Otras directivas pueden permitir el acceso a directorios o archivos específicos, establecer retrasos en el rastreo para evitar sobrecargar el servidor o proporcionar enlaces a los sitemaps para un rastreo más eficiente.

Estructura de robots.txt

El archivo robots.txt es un documento de texto plano que se encuentra en el directorio raíz de un sitio web. Sigue una estructura sencilla, con cada conjunto de instrucciones, o "registro", separado por una línea en blanco. Cada registro consta de dos componentes principales:

  • User-agent: Esta línea especifica a qué rastreador o bot se aplican las siguientes reglas. Un comodín (*) indica que las reglas se aplican a todos los bots. También se pueden dirigir agentes de usuario específicos, como "Googlebot" (el rastreador de Google) o "Bingbot" (el rastreador de Microsoft).

  • Directivas: Estas líneas proporcionan instrucciones específicas al agente de usuario identificado.

Directivas Comunes

Directiva
Descripción
Ejemplo

Disallow

Especifica rutas o patrones que el bot no debe rastrear.

Disallow: /admin/ (prohíbe el acceso al directorio admin)

Allow

Permite explícitamente al bot rastrear rutas o patrones específicos, incluso si están bajo una regla Disallow más amplia.

Allow: /public/ (permite el acceso al directorio public)

Crawl-delay

Establece un retraso (en segundos) entre solicitudes sucesivas del bot para evitar sobrecargar el servidor.

Crawl-delay: 10 (retraso de 10 segundos entre solicitudes)

Sitemap

Proporciona la URL a un sitemap XML para un rastreo más eficiente.

¿Por Qué Respetar robots.txt?

Aunque robots.txt no es estrictamente exigible (un bot malintencionado aún podría ignorarlo), la mayoría de los rastreadores web legítimos y los bots de motores de búsqueda respetarán sus directrices. Esto es importante por varias razones:

  • Evitar Sobrecargar los Servidores: Al limitar el acceso del rastreador a ciertas áreas, los propietarios de sitios web pueden prevenir un tráfico excesivo que podría ralentizar o incluso bloquear sus servidores.

  • Proteger Información Sensible: Robots.txt puede proteger información privada o confidencial de ser indexada por los motores de búsqueda.

  • Cumplimiento Legal y Ético: En algunos casos, ignorar las directrices de robots.txt podría considerarse una violación de los términos de servicio de un sitio web o incluso un problema legal, especialmente si implica acceder a datos protegidos por derechos de autor o privados.

robots.txt en el Reconocimiento Web

Para el reconocimiento web, robots.txt sirve como una fuente valiosa de inteligencia. Mientras se respetan las directrices establecidas en este archivo, los profesionales de seguridad pueden obtener información crucial sobre la estructura y las posibles vulnerabilidades de un sitio web objetivo:

  • Descubrir Directorios Ocultos: Las rutas desautorizadas en robots.txt a menudo apuntan a directorios o archivos que el propietario del sitio web desea mantener fuera del alcance de los rastreadores de motores de búsqueda. Estas áreas ocultas pueden albergar información sensible, archivos de respaldo, paneles administrativos u otros recursos que podrían interesar a un atacante.

  • Mapear la Estructura del Sitio Web: Al analizar las rutas permitidas y no permitidas, los profesionales de seguridad pueden crear un mapa rudimentario de la estructura del sitio web. Esto puede revelar secciones que no están vinculadas desde la navegación principal, potencialmente conduciendo a páginas o funcionalidades no descubiertas.

  • Detectar Trampas para Rastreadores: Algunos sitios web incluyen intencionalmente directorios "honeypot" en robots.txt para atraer a bots maliciosos. Identificar tales trampas puede proporcionar información sobre la conciencia de seguridad y las medidas defensivas del objetivo.

Análisis de robots.txt

Aquí hay un ejemplo de un archivo robots.txt:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

User-agent: Googlebot
Crawl-delay: 10

Sitemap: https://www.example.com/sitemap.xml

Este archivo contiene las siguientes directivas:

  • Todos los agentes de usuario tienen prohibido acceder a los directorios /admin/ y /private/.

  • Todos los agentes de usuario tienen permitido acceder al directorio /public/.

  • El Googlebot (el rastreador web de Google) tiene instrucciones específicas para esperar 10 segundos entre solicitudes.

  • Se proporciona el sitemap, ubicado en https://www.example.com/sitemap.xml, para facilitar el rastreo y la indexación.

Al analizar este robots.txt, podemos inferir que el sitio web probablemente tenga un panel de administración ubicado en /admin/ y algún contenido privado en el directorio /private/.

PreviousCrawlingNextWell-Known URIs

Last updated 9 months ago

Was this helpful?

Sitemap:

https://www.example.com/sitemap.xml