Letztes Update am: [chatgpt_robots_date]
Täglich analysiere und werte ich die robots.txt-Dateien von den 5.000 sichtbarsten Domains (SV-Index von SISTRIX) in Deutschland für dich aus.
Lediglich [chatgpt_robots_percentage] ([chatgpt_robots_sum] Domains) der in Deutschland relevantesten Websites setzen zurzeit der KI einen Riegel vor. Möglich ist dies durch eine bzw. zwei User-Agent-Anweisung in der robots.txt.
Spannend dabei ist, dass von den Top-100 lediglich [chatgpt_robots_sum100] Domains, OpenAI den Zugriff verwehren. 👉 Erfahre hier, welche Domains ChatGPT blockieren
Ebenfalls interessant: Nicht alle Website-Verantwortliche wissen wohl, dass es unterschiedliche User-Agents innerhalb von ChatGPT gibt.
So hinderst du ChatGPT davor, deine Website zu crawlen
User-agent: GPTBot
blockt lediglich den Crawler für die Trainingsdaten.
Möchtest du sicherstellen, dass kein ChatGTP-Plugin im Chatbot Daten deiner Website verwenden kann, musst du zusätzlich den User-agent: ChatGPT-User
ausschließen. Eine offizielle Dokumentation für beide User Agents stellt OpenAI hier und hier zur Verfügung.
Hier mal ein Beispiel für eine robots.txt die beide User Agents ausschließt:
User-agent: ChatGPT-User
Disallow: /
User-agent: GPTBot
Disallow: /
Diese Websites blocken ChatGPT in Deutschland
[chatgpt_robots_combined_table]