Warum Google, ChatGPT und Co. plötzlich ganz andere Antworten liefern

Inhalt

KI-Suche

Eine Forschergruppe der Ruhr-Universität Bochum und des Max-Planck-Instituts für Softwaresysteme hat untersucht, wie sich die neue „generative Suche“ im Internet von der klassischen Google-Suche unterscheidet. Für ihre Analyse werteten die Wissenschaftlerinnen und Wissenschaftler 4.606 Suchanfragen aus sechs Themenfeldern aus, darunter Politik, Wissenschaft, Produkte und Gesellschaft. Neben der bekannten Google-Suche wurden auch vier KI-basierte Systeme getestet: Googles AI Overviews, das hauseigene Chatmodell Gemini, GPT-4o Search sowie GPT-4o mit aktivem Such-Tool. Die Tests fanden im September 2025 in den USA und in Deutschland statt.

Die Grundidee: Während traditionelle Suchmaschinen Webseiten auflisten, die zu einem Stichwort passen, generieren KI-Systeme vollständige Texte als Antwort. Sie fassen Informationen zusammen, kombinieren sie aus verschiedenen Quellen und liefern eine Art Mini-Artikel anstelle einer Trefferliste. Diese neue Suchform verändert die Wahrnehmung des Internets grundlegend und sie entscheidet anders, welche Inhalte sichtbar werden. Genau diese Unterschiede zwischen „Organic Search“ und „Generative Search“ wollte das Forscherteam quantifizieren. Das Ergebnis zeigt: Die Zukunft der Online-Suche wird vielfältiger, aber auch weniger transparent.

KI-Suche greift auf völlig andere Quellen zurück

Einer der auffälligsten Befunde betrifft die Auswahl der Informationsquellen. Während die klassische Google-Suche aus den am höchsten bewerteten Webseiten schöpft, wählt die KI ihre Basis freier. Bei Googles AI Overviews stammen 53 Prozent der zitierten Domains nicht aus den Top 10 der regulären Google-Ergebnisse, und 27 Prozent tauchen nicht einmal unter den ersten 100 auf. Das zeigt, dass die generative Suche abseits der bekannten Pfade recherchiert. Die meisten Quellen sind zwar weiterhin seriös und gehören zu den meistbesuchten Seiten weltweit, doch ihre Zusammensetzung unterscheidet sich stark von der klassischen Rangfolge.

Für Nutzerinnen und Nutzer bedeutet das: KI-Antworten können neue Perspektiven eröffnen, weil sie Informationen aufgreifen, die sonst unter dem Radar bleiben. Gleichzeitig stellt sich aber die Frage, nach welchen Kriterien die Auswahl erfolgt und wie überprüfbar diese Inhalte sind. Die Forschenden sehen darin sowohl eine Chance für mehr inhaltliche Vielfalt als auch ein Risiko, wenn die Modelle auf wenig geprüfte oder schwer nachvollziehbare Quellen zurückgreifen. Klar ist: Das Top-10-Dogma, das jahrelang die Google-Suche bestimmte, verliert im Zeitalter der KI an Bedeutung.

Wie KI ihr Wissen zusammenstellt und bewertet

Die neue Suchgeneration zeigt nicht nur andere Quellen, sondern auch andere Strategien bei deren Nutzung. Klassische Suchergebnisse liefern eine feste Zahl von Treffern, meist zehn Links pro Seite. KI-Systeme dagegen entscheiden flexibel, wie viele Quellen sie einbeziehen. Googles AI Overviews zieht im Schnitt rund neun Seiten pro Anfrage heran, bei komplexen Fragen auch deutlich mehr. Gemini liegt in einem ähnlichen Bereich, während GPT-4o mit aktivem Such-Tool rund vier externe Seiten pro Suchanfrage nutzt. Das Pendant ohne Such-Tool, also GPT-4o, das rein aus internem Wissen schöpft, greift dagegen kaum auf externe Inhalte zu – im Mittel weniger als eine Seite pro Abfrage.

Diese Unterschiede zeigen, wie stark der Grad an „Verankerung in echten Quellen“ variiert. Während Google mit seiner KI versucht, externe Informationen dynamisch einzubeziehen, arbeiten andere Modelle stärker aus ihrem gespeicherten Wissen heraus. Das hat Auswirkungen auf Aktualität und Nachvollziehbarkeit: Je weniger reale Quellen ein System nutzt, desto höher das Risiko, dass Informationen veraltet oder kontextlos erscheinen. Die Forscher betonen, dass sich hier künftig neue Qualitätsmaßstäbe entwickeln müssen, etwa Transparenz über Quellen, Zitierfähigkeit und Nachprüfbarkeit.

Welche Quellentypen die KI bevorzugt

Ein genauer Blick auf die Herkunft der Informationen zeigt deutliche Unterschiede zu traditionellen Suchergebnissen. Generative KI-Systeme greifen überdurchschnittlich oft auf Enzyklopädien, Unternehmenswebseiten, offizielle Organisationen oder Fachportale zurück. Seiten aus sozialen Medien, Foren oder Diskussionsplattformen spielen dagegen eine untergeordnete Rolle – sie tauchen nur bei produktspezifischen Themen häufiger auf. Dadurch wirken KI-Antworten häufig sachlicher, zugleich aber auch distanzierter und weniger lebensnah.

Gerade für Verbraucherinnen und Verbraucher kann das problematisch sein, wenn persönliche Erfahrungsberichte oder Community-Wissen außen vor bleiben. Auf der anderen Seite reduziert der stärkere Fokus auf geprüfte Quellen das Risiko von Falschinformationen. Die Studie legt nahe, dass die KI-Suche den Charakter des Internets verschiebt, weg von der Vielfalt spontaner Nutzerstimmen, hin zu einer stärker kuratierten, formaleren Wissenslandschaft. Für die Wissenschaft kann das Vorteile haben, für den öffentlichen Diskurs birgt es jedoch die Gefahr, dass Stimmen aus Foren oder sozialen Netzwerken an Sichtbarkeit verlieren. Suchmaschinen werden so zu Filterinstanzen, die nicht mehr nur bewerten, was relevant ist, sondern auch, was „seriös genug“ erscheint.

Wie gut KI-Themen wirklich abdeckt

Trotz dieser Unterschiede bleibt die inhaltliche Abdeckung der Themen erstaunlich ähnlich. Die Systeme erkannten in etwa drei Viertel der zentralen Konzepte, die in den Suchanfragen vorkamen. Die klassische Google-Suche erreichte dabei einen Wert von 0,78, GPT-4o Search lag gleichauf, während Gemini mit 0,77 und AI Overviews mit 0,74 leicht darunter lagen. Am schwächsten schnitt GPT-4o mit Such-Tool ab, das bei rund 0,71 lag. In der Praxis heißt das: KI-Suchen greifen die wesentlichen Punkte meist auf, fassen sie aber stärker zusammen und lassen Randaspekte oder Mehrdeutigkeiten häufiger weg.

Gerade bei komplexen oder ambigen Fragen – etwa „Wie beeinflusst KI die Demokratie?“ – zeigt sich der Unterschied deutlich. Die klassische Suche liefert eine größere Bandbreite an Perspektiven und Quellen, während generative Systeme stärker auf den Hauptgedanken fokussieren. Dadurch entsteht eine Verdichtung, die den Text lesbarer macht, aber auch Facetten verliert. Für den schnellen Überblick ist das nützlich, für tiefere Recherchen bleibt die klassische Suche im Vorteil. Die Studie empfiehlt deshalb, beide Ansätze komplementär zu nutzen, statt den einen durch den anderen zu ersetzen.

Aktualität bleibt eine Schwachstelle der KI

Wenn es um aktuelle Entwicklungen oder Trendthemen geht, zeigt sich die Schwäche der generativen Suche besonders deutlich. Nur bei rund drei Prozent der US-amerikanischen Trendanfragen wurden Googles AI Overviews überhaupt aktiviert, in Deutschland lag der Wert bei null. Das bedeutet: Bei brandneuen Themen zieht Google weiterhin die klassische Suche vor. GPT-4o Search zeigte hier mit rund 72 Prozent Abdeckung das beste Ergebnis, dicht gefolgt von der traditionellen Google-Suche mit 67 Prozent. Systeme ohne oder mit eingeschränktem Echtzeitzugriff, wie GPT-4o mit Such-Tool, konnten nur etwa die Hälfte der Trendthemen sinnvoll beantworten.

Diese Zahlen verdeutlichen, dass KI-Systeme ihre Stärke vor allem bei etablierten Wissensfeldern haben. Sobald es um neue Ereignisse, tagesaktuelle Diskussionen oder sich schnell wandelnde Themen geht, fehlen ihnen oft Daten oder aktuelle Quellen. Nutzerinnen und Nutzer berichten deshalb häufiger, dass Chatbots um zusätzliche Informationen bitten oder nur allgemeine Antworten liefern. Für den Alltagseinsatz heißt das: Wer sich über Nachrichten, Börsenkurse oder politische Ereignisse informieren will, ist mit der klassischen Suche weiterhin besser bedient – zumindest solange generative Systeme keinen konstanten Zugriff auf aktuelle Daten erhalten.

Wie stabil Suchergebnisse über die Zeit bleiben

Ein weiterer Aspekt der Untersuchung betrifft die Stabilität der Ergebnisse. Die Forschenden führten ihre Tests mehrfach im Abstand von rund zwei Monaten durch, um zu prüfen, wie konstant die Systeme bleiben. Das Ergebnis: Die klassische Google-Suche erwies sich als am stabilsten. Rund 45 Prozent der verlinkten Seiten tauchten auch bei späteren Abfragen wieder auf. Bei Gemini lag der Wert bei etwa 40 Prozent, während Googles AI Overviews nur rund 18 Prozent erreichte. Das bedeutet: Die von der KI genutzten Quellen wechseln deutlich häufiger.

Dennoch blieb die inhaltliche Abdeckung, also die Zahl der erkannten Themen und Konzepte, über die Zeit weitgehend gleich. Die KI lieferte also ähnliche Antworten – nur mit anderen Quellen oder Formulierungen. Für Nutzerinnen und Nutzer kann das verwirrend wirken, weil die scheinbar gleiche Frage unterschiedliche Ergebnisse liefert. Die Studie zeigt damit, dass sich generative Suche dynamisch entwickelt, aber auch weniger verlässlich erscheint. Wer exakte Zitate oder wiederholbare Recherchen benötigt, etwa in der Wissenschaft oder im Journalismus, sollte die klassische Suche weiterhin bevorzugen. Für den allgemeinen Wissensabruf kann die KI dagegen durch Vielfalt und Kontext punkten.

Fazit: Eine neue Ära der Informationssuche

Das Fazit der Forschenden fällt eindeutig aus: Generative KI-Suchen brechen mit der Logik der klassischen Suchmaschinen. Statt sich auf die bestplatzierten Seiten zu stützen, kombinieren sie eigene Wissensmodelle mit externen Quellen und erzeugen daraus neue Texte. Das verändert nicht nur, wie Informationen präsentiert werden, sondern auch, wie Sichtbarkeit im Netz entsteht. Webseiten, die bisher kaum Beachtung fanden, können plötzlich in KI-Antworten auftauchen, während bekannte Quellen an Gewicht verlieren.

Damit entstehen neue Chancen für Vielfalt und Zugang zu Wissen, aber auch Risiken in Bezug auf Transparenz, Aktualität und Verlässlichkeit. Nutzerinnen und Nutzer müssen künftig stärker einschätzen, woher eine Antwort kommt und wie sie zustande kam. Für Medien, Wissenschaft und Suchmaschinenoptimierung beginnt eine neue Phase, in der nicht mehr nur Rankings zählen, sondern Kriterien wie Quellenvielfalt, Neuheit und inhaltliche Fundierung. Die Suche der Zukunft wird weniger Liste, mehr Gespräch und das Netz muss lernen, damit umzugehen.

Quelle: Characterizing Web Search in the Age of Generative AI, Ruhr-Universität Bochum / Max-Planck-Institut für Softwaresysteme, 2025

Beliebte Themen:

Bild von Marie Nemitz

Marie Nemitz

Online-Redakteurin & SEO Manager

Starten Sie mit einem unverbindlichen Erstgespräch.