Einleitung
Webmaster nutzen Dateien wie robots.txt und Sitemaps, um Suchmaschinen-Crawlern mitzuteilen, welche Bereiche einer Website indexiert werden dürfen und welche nicht.
Für die Passive Reconnaissance sind genau diese Dateien eine unterschätzte, aber wertvolle Informationsquelle – denn oft verraten sie ungewollt interne Strukturen oder sensible Verzeichnisse.
Was ist die robots.txt?
- Liegt standardmäßig unter
example.com/robots.txt
. - Enthält Anweisungen für Suchmaschinen, welche Verzeichnisse oder Dateien nicht indexiert werden sollen.
- Beispiel:
User-agent: * Disallow: /admin/ Disallow: /test/
- Problem: Auch wenn ein Bereich für Suchmaschinen gesperrt ist, heißt das nicht, dass er geschützt ist. Angreifer können die Pfade trotzdem direkt aufrufen.
👉 Für Passive Recon bedeutet das: ein direkter Blick auf mögliche interessante, aber verborgene Verzeichnisse.
Was ist eine Sitemap?
- Liegt meist unter
example.com/sitemap.xml
. - Enthält eine strukturierte Liste aller Seiten, die indexiert werden sollen.
- Nützlich für SEO – aber auch für Recon, weil:
- Versteckte oder selten verlinkte Seiten dort oft trotzdem aufgeführt sind.
- Versions- oder Staging-URLs manchmal versehentlich aufgenommen werden.
Typische Funde in robots.txt und Sitemaps
1. Verzeichnisse & Admin-Bereiche
/admin/
,/portal/
,/cms/
– Hinweise auf Verwaltungsoberflächen.
2. Test- oder Staging-Systeme
/test/
,/dev/
,/beta/
– können auf schwach abgesicherte Umgebungen verweisen.
3. Alte oder unsichere Inhalte
- Verzeichnisse mit
/old/
oder/backup/
tauchen häufiger auf, als man denkt.
4. Unbeabsichtigte Datenlecks
- Sitemaps enthalten manchmal Links zu sensiblen Dokumenten, die besser nicht öffentlich wären.
Risiken für Unternehmen
- Informationslecks: Robots.txt kann wie eine Wegbeschreibung für Angreifer wirken.
- Schwachstellen-Exposition: Admin-Bereiche oder Testsysteme werden offengelegt.
- SEO vs. Security: Der Wunsch nach besserem Ranking führt manchmal zu mehr Transparenz als gewünscht.
Schutzmaßnahmen
- Robots.txt bewusst gestalten: Keine sensiblen Verzeichnisse dort aufführen.
- Zugriffskontrolle: Bereiche wie
/admin/
mit Authentifizierung schützen, nicht nur aus Suchmaschinen verbannen. - Sitemaps prüfen: Regelmäßig kontrollieren, ob sensible Inhalte versehentlich gelistet sind.
- Security by Design: Trennung von SEO-Optimierung und Sicherheitsarchitektur.
Schreibe einen Kommentar