KI-generierte Inhalte und Google: Die Risikomatrix

Google toleriert KI-generierte Inhalte nicht grundsätzlich ablehnend — minderwertige Inhalte hingegen schon. Seit Ende 2025 zeigt sich: KI-Seiten landen in den oberen Rankings, aber etwa 90% von ihnen verschwinden innerhalb von 90 Tagen. Entscheidend ist nicht die Produktionsmethode selbst, sondern die Detection-Oberfläche. Dieser Artikel transformiert diese Oberfläche in eine Matrix — welche Signale Google aufgreifen kann, welche unsichtbar bleiben, und wie du sie in der Production messen kannst.

Detection-Oberfläche: Was Google sieht

Google kann KI-Inhalte nicht direkt nachweisen — nicht einmal OpenAI kann das mit Sicherheit behaupten. Doch es gibt ein Cluster verhaltensbasierter Signale, die Google's algorithmische Aufmerksamkeit auslösen. Vier Hauptoberflächen:

1. Temporal Clustering: Wenn 50+ Seiten an einer Domain an einem Tag veröffentlicht werden, befindest du dich 6 Sigma entfernt vom durchschnittlichen Human-Editorial-Zyklus. Google registriert das als Domain-Velocity-Spike. Das war das früheste Erkennungszeichen in der dritten Welle von Helpful Content 2024 — Seiten wurden indexed, dann innerhalb von 14-21 Tagen deindexiert.

2. Strukturelle Homogenität: Jede Seite hat denselben Aufbau — 5±1 H2-Überschriften, unter jeder H2 zwei bis drei Absätze, jeder Absatz 120±15 Wörter. Niedrige Varianz deutet auf generative Prozesse hin. Um das zu verhindern, reicht es nicht, Gliederungen zu randomisieren — die semantische Einbettung der Überschriften darf auch nicht uniform sein. Liegt die Kosinus-Ähnlichkeit zwischen zwei Überschriften über 0,85, handelt es sich für Google um Seiten aus derselben Vorlage.

3. Entity Hallucination: LLMs überprüfen ihre eigenen Informationen nicht. Du schreibst „laut SEMrush-Bericht 2024", aber dieser Bericht existiert gar nicht. Wenn Google eine Quervalidierung mit dem Knowledge Graph durchführt und auf Widersprüche stößt, registriert das kein direktes Penalty, aber es sendet ein „unreliable source"-Signal, das die Vertrauenswürdigkeit senkt.

4. Lexikalischer Fingerabdruck: Claude 3.5 Sonnet bevorzugt bestimmte Übergangsphrasing-Formulierungen; GPT-4o andere. Die Dichte dieser Begriffe ist in LLM-Output 2,3x höher als in menschlicher Prosa. Ob Google's N-Gram-Modelle das erkennen? Unklar — aber das Risiko ist vorhanden.

Messbare Metriken für die Production

Wenn du KI-Inhalte deployst, solltest du diese 3 Metriken über ein 7-Tage-Fenster tracken:

Indexation Lag (in Stunden): Wie lange dauert es, bis eine bei Google eingereichte URL in der Search Console den Status „Indexed, not submitted in sitemap" erhält? Bei vom Menschen bearbeitetem Content liegt der Median bei 18-36 Stunden. Zieht sich das auf 72+ Stunden hin, hat Google die Crawl-Priorität herabgestuft. Kein Penalty, aber ein Signal: „diese Domain verhält sich wie eine Content Farm".

CTR Decay Rate (%): Die Seite erreichte in den ersten 14 Tagen durchschnittlich 2,8% CTR, in den nächsten 14 Tagen nur noch 1,4% — ein Decay von 50%. Das ist verschieden von normalen saisonalen Schwankungen. Google hat die Seite zunächst hoch platziert (Freshness-Bias), Nutzerverhalten fiel aber schlecht aus (shallow Content), eine algorithmische Neubewertung startet. Liegt der Decay über 40% bei 30+ Tagen, signalisiert der Content negative Quality-Signale.

Internal Link Equity Loss (%): Fällt der PageRank-Beitrag von internen Links zu dieser Seite? Um das zu messen: Nutze Ahrefs/SEMrush „internal backlinks"-Metrik. Sinkt die Link Equity von KI-Seiten um 30%+ innerhalb von 60 Tagen, kalibriert Google site-wide Trust neu.

Um diese Metriken zu kombinieren und Alerts zu setzen, brauchst du einen Veri Analizi & Insight Engineering-Stack — GSC API + Rank-Tracker-Daten + interner Link-Graph.

Trade-off: Attribution vs. Hallucination

Die größte Design-Entscheidung bei der KI-Textproduktion: Nutzt du Retrieval-Augmented Generation (RAG) oder verlässt dich auf parametrisches Wissen?

Parametrisches Modell (ohne RAG): Du bittest Claude/GPT, dir Strategien zu E-Commerce-CRO zu schreiben. Das Modell nutzt Trainingsdaten von vor 2023. Vorteil: schnell, konsistent. Nachteil: 2024-2025 Trends fehlen, Zahlen-Halluzinationen sind häufiger. Für Google: keine Quelle = niedrigere Vertrauenswürdigkeit.

RAG (Retrieval-Augmented): Das Modell zieht zuerst aus deiner Wissensdatenbank (PDFs, Notion, Web-Scrapes) Inhalte heran, schreibt dann. Vorteil: Attribution vorhanden, Aktualität gegeben. Nachteil: fehlerhafte Retrieval (falscher Text-Chunk), falsche Citations. Für Google: die Quelle, die du linkst, muss echt und relevant sein — sonst schlimmer als parametrisch.

Welche Strategie weniger riskant ist, hängt vom Thema ab. Bei immergrünen Inhalten (beispielsweise „HTTP-Statuscodes") reicht parametrisch. Bei Trend-fokussierten Themen (beispielsweise „Google Ads Änderungen 2025") ist RAG Pflicht. Nutzt du RAG, füge zu jedem Claim eine Quellenlink ein — inline citation. Google folgt diesen Links und validiert sie.

GEO Context: KI-Overviews und Citation Window

Google's KI-Overviews (Production-Version von SGE) sind seit Mitte 2025 in 43% der Queries aktiv (US/EN Daten). Um in diesen Overviews sichtbar zu sein, braucht es anders als klassische SEO ein neues Optimierungsmodell: Generative Engine Optimization.

Der Unterschied: In klassischem SEO zielst du auf Keyword-Dichte + Backlinks ab. Bei GEO geht es darum, dass ein LLM deine Inhalte zur Retrieve-Zeit als relevant einschätzt und in die Citation aufnimmt. Dafür brauchst du:

Claim-basierte Struktur: Jeder Absatz sollte eine klare Aussage treffen. „Die durchschnittliche Checkout-Abandonment-Rate liegt bei 69,8% (Baymard 2024)". Das LLM kann den Claim extrahieren und zitieren.
Entity-Dichte: Die Anzahl benannter Entitäten im Text (Personen, Orte, Produkte, Unternehmen) sollte hoch sein. LLMs retrieven entity-reiche Inhalte besser — weil User-Fragen oft Entities enthalten („Wie macht man CRO in Shopify").
Semantische Header: H2 müssen keine Fragen sein, sollten aber so strukturiert sein, dass ein LLM Frage-Antwort-Mappings erstellen kann. Statt „Was ist Conversion Rate Optimization" besser „Welche Metriken bestimmen die Conversion Rate".

Inhalte, die in KI-Overviews zitiert werden, gewinnen organisch etwa +2,7 Positionen (BrightEdge Q1 2025). Weil Google die Quelle, der das LLM traut, auch dem User empfiehlt.

Risk Mitigation: Production Checklist

Vor dem Deployment von KI-Inhalten durchlaufe diese Kontrollen:

Human-Edit-Pass: Jede Seite sollte mindestens ein menschlicher Editor überprüfen — nicht „komplett neu schreiben", sondern „gibt es Halluzinationen, sind Claims überprüfbar, ist der Ton kohärent". Etwa 5 Minuten pro Seite.
Perplexity Check: Führe LLM-Output durch ein Perplexity-Modell (beispielsweise GPT-2 small). Perplexity <30 bedeutet: Text zu vorhersagbar — LLM-Fingerabdruck-Risiko. Ziel: 35-50.
Entity Verification: Überprüfe jeden numerischen Claim und jede Entity automatisch. Nutze dafür Fact-Checking APIs (beispielsweise Google Fact Check Tools API) oder Custom Scripts. Claims, die nicht validiert werden können, löschen oder als „Schätzung" kennzeichnen.
Publish Cadence: Mehr als 5 Seiten pro Tag publizieren? Nein. Ideal: 10-15 Seiten pro Woche, gleichmäßig verteilt. Google's Velocity-Threshold ist unbekannt, aber die sichere Seite: imitiere die Geschwindigkeit eines Human-Editorial-Teams.

Fazit: Nicht Detection, sondern Trust-Mechanismus

Google bannet KI-Inhalte nicht — Low-Trust-Inhalte bannet Google. Wenn du KI-Produktion nutzt, musst du Trust-Signale verstärken: Attribution, Editierung, Entity-Validierung, langsames Publishing. Die Risk-Matrix ist einfach: Halluzination hoch + Velocity hoch + externe Links niedrig = 68% Deindex-Wahrscheinlichkeit (Ahrefs 2025 Cohort-Analyse). Mach das Gegenteil: validierbare Claims + Human Review + normales Tempo = KI-Production bleibt unsichtbar, Performance gleicht organischen Inhalten.