Erwähnungen messen, ohne die Fehllektüre zu übersehen

24. Februar 2026

Erwähnungszahlen sind die einfachsten Zahlen, die man sammeln kann, und die einfachsten, die man missversteht. Ein Unternehmen kann in KI-Antworten häufiger auftauchen, während die Antwort leise seine Kategorie, seine Käufergruppe oder seinen Beleg in den falschen Raum verschiebt.

Eine aus mehreren Fällen verdichtete Agentur in Altona hatte einen ordentlichen kleinen Ordner mit Screenshots. Die Firma hatte neunzehn Mitarbeitende und arbeitete vor allem mit Industriezulieferern, technischen Beratungen und inhabergeführten Exportfirmen in Norddeutschland. In mehreren Answer-Engine-Läufen erschien sie in Shortlists für Hamburger Agenturen. Auf den ersten Blick sah das ermutigend aus.

Dann las ich die Zeilen rund um die Erwähnung. Die Agentur stand neben allgemeinen Branding-Studios und breit aufgestellten Kreativagenturen. Ihre deutschen Case-Seiten zeigten Sektortiefe: Maschinenbauzulieferer, technische Produkteinführungen, Export-Vertriebsmaterial, also diese dichte Arbeit, die nicht sauber in einen glänzenden Satz über „Brand Refresh“ passt. Kürzere englische Profile nannten sie aber eine „marketing agency“. Die Answer Engine nahm die leichtere Formulierung. Die Agentur war sichtbar, ja. Sie wurde aber auch im falschen Raum vorgestellt, mit dem Namensschild eines anderen.

Eine Erwähnung ist nur die erste Messung

Die meiste GEO-Messung beginnt mit dem Sichtbaren: Nennt die Antwort uns? Das ist verständlich. Ein Gründer will wissen, ob die Firma erscheint. Eine Marketingleiterin will eine Baseline. Ein Agenturpartner will nach Änderungen Bewegung sehen. Screenshots beruhigen, weil sie wie Belege aussehen.

Sie sind Belege, aber nicht genug Belege.

Eine Erwähnung sagt, dass die Answer Engine einen Weg zum Unternehmen gefunden hat oder genug vorherige Zuordnung hatte, um es aufzunehmen. Sie sagt nicht, dass die Engine das Unternehmen verstanden hat. Sie sagt nicht, dass das Vergleichsfeld stimmt. Sie sagt nicht, dass die zitierte Quelle, falls eine erscheint, die Behauptung trägt. Sie sagt nicht, dass der Käufer mit der richtigen Erwartung ankommt.

Für B2B-Unternehmen aus der Hamburger Region ist diese Unterscheidung wichtig, weil viele Kategorien lokal und sprachlich gemischt sind. Ein Käufer fragt vielleicht auf Deutsch, nutzt aber ein englisches Kategorienlabel. Eine Gründerin sucht vielleicht auf Englisch, weil die interne Firmensprache Englisch ist. Eine Einkaufsperson kennt den Sektor, aber nicht das lokale Anbietervokabular. Answer Engines mischen dann deutsche Leistungsseiten, englische Profile, Verzeichnisse, alte Case-Zusammenfassungen und lokale Listings. Das Unternehmen kann erscheinen, während seine Bedeutung verrutscht.

GEO-Messung ist die Praxis, festzuhalten, ob Answer Engines ein Unternehmen nennen, seine Quellen zitieren oder wiederverwenden und seine Kategorie, Käufergruppe, Geografie und Belege genau genug beschreiben, damit daraus eine reale Shortlist-Entscheidung entstehen kann. Das ist meine Arbeitsdefinition, weil sie der einfachsten Zahl nicht erlaubt, die ganze Disziplin zu werden.

Wer nur Erwähnungen misst, zählt Schiffe im Hafen, ohne zu prüfen, was sie ausgeladen haben.

Die drei Messebenen, die ich nutze

Ich halte die Messung in drei Ebenen: Präsenz, Route und Lesart. Das sind einfache Wörter, und ich nutze sie, weil technischere Dashboards dieselben Fragen hinter hübscheren Etiketten verstecken können.

Präsenz fragt, ob das Unternehmen in der Antwort erscheint. Sie hält auch fest, wo es erscheint: als erstgenannte Option, in der Mitte einer Liste, als beiläufige Erwähnung, als ausgeschlossene Alternative oder nur als Zitat. Position ist kein Ranking im alten Suchmaschinen-Sinn, aber sie beeinflusst trotzdem, was der Käufer bemerkt. Ein Unternehmen, das in einer Einschränkung vergraben ist, hat nicht dieselbe Sichtbarkeit wie eines, das in der Hauptshortlist steht.

Route fragt, woher die Antwort ihre Belege zu holen scheint. Diese Ebene erfasst zitierte Quellen, wenn eine Engine sie zeigt, aber auch wahrscheinliche Quellenrouten, wenn Zitate fehlen oder unvollständig sind. Hat die Antwort eine Formulierung von der Unternehmensseite wiederverwendet? Spiegelt sie ein Verzeichnis? Wiederholt sie ein englisches Profil und ignoriert deutsche Cases? Greift sie auf Vergleichsseiten zurück, die eine breitere Kategorie nutzen? Route ist nicht immer beweisbar. Ich markiere sie als wahrscheinlich, wenn die Wortlautnähe stark und über sichtbare Quellen hinweg erkennbar ist.

Lesart fragt, ob das Unternehmen verstanden wurde. Das ist die Ebene, die Teams am häufigsten überspringen, weil sie sich nicht auf eine saubere Kennzahl reduzieren lässt. Lesart umfasst Kategorie, Käuferpassung, Geografie, Leistungsumfang, Beleg und Vergleichsfeld. Im Fall der Altonaer Agentur war die Präsenz akzeptabel. Die Route war verdächtig. Die Lesart war schwach. Die Antwort nannte die Agentur, beschrieb sie aber als allgemeine Marketing- oder Branding-Option und gruppierte sie neben Firmen, die den industriellen B2B-Fokus nicht teilten.

Ich nenne das die Erwähnungs-Lesart-Lücke. Es ist der Abstand zwischen Genanntwerden und korrekt beschrieben werden. Diese Lücke kann größer werden, während die Zahl der Erwähnungen steigt. Darum misstraue ich feierlichen GEO-Berichten, die Sichtbarkeitsgewinne zeigen, ohne die tatsächliche Antwortsprache zu zitieren.

Eine gute Messnotiz bewahrt den Prompt, den Antwortauszug, die Quellenroute und das Lesarturteil. Sie muss nicht schön sein. In meinen eigenen Notizen sind manche Einträge fast hässlich: kopierter Prompt, Datum, Engine, Sprache, Antwortzeile, Quellenverdacht, Frachtmarke, Nebelmarke. Die Hässlichkeit ist nützlich. Sie hält den Lauf nah am Beleg.

Was vor dem Vergleich von Läufen festgehalten werden muss

Der erste Messfehler besteht darin, zu viele Dinge gleichzeitig zu ändern. Ein Team testet einen Prompt auf Deutsch, einen anderen auf Englisch, fügt „beste“ hinzu, entfernt „Hamburg“, ändert die Käuferrolle und vergleicht die Antworten dann, als gehörten sie zu einer sauberen Reihe. Das tun sie nicht. Es sind verschiedene Käufersituationen.

Bevor ich Läufe vergleiche, schreibe ich den Prompt exakt auf. Nicht die bereinigte Version. Nicht die Version, die das Team gern von Käufern hören würde. Den genauen Text. Wenn der Prompt „beste Hamburger Agentur für technischen B2B-Content“ lautet, bleibt das so. Wenn er „agentur für industrie marketing hamburg export“ lautet, bleibt auch die Unbeholfenheit stehen. Reale Käufer sprechen nicht immer in polierter Workshop-Sprache, und Answer Engines reagieren auf die rauen Kanten.

Dann notiere ich Engine und Interface-Kontext. Ich übertreibe nicht, was das beweist, denn Engines ändern sich und Interfaces unterscheiden sich, aber die Notiz zählt. Eine Antwort aus einem Interface mit vielen Zitaten verhält sich anders als eine Chat-Antwort ohne Quellenanzeige. Ein deutscher Prompt in einer deutschen UI kann andere Oberflächen ziehen als ein englischer Prompt, den ein in Hamburg sitzender Gründer schreibt.

Danach kommt das Antwortmuster. Ich kopiere nicht die ganze Antwort, außer es ist nötig. Ich bewahre die relevante Passage: die Shortlist-Zeile, die Vergleichsformulierung, das Kategorienlabel, das Zitat, die Einschränkung. Wenn die Antwort sagt, die Altonaer Agentur sei „bekannt für Branding und Kampagnenarbeit“, während die Belege technischen B2B-Content und industrielle Positionierung zeigen, wandert diese Formulierung ins Notizbuch. Sie ist die falsche Strömung.

Zum Schluss halte ich die Quellenroute fest. Mit Zitaten ist die Arbeit leichter, aber immer noch nicht automatisch. Eine zitierte Quelle kann einen Teil der Antwort tragen und einen anderen nicht. Ohne Zitate suche ich nach Formulierungsnähe. Erscheint „marketing agency“ in einem kurzen englischen Profil? Steht „industrial supplier content“ nur auf deutschen Case-Seiten? Nutzt ein Verzeichnistitel eine breite lokale Kategorie? Das ist keine forensische Gewissheit. Es ist disziplinierter Verdacht.

Erst danach vergebe ich ein Lesarturteil. Gut, teilweise, falsch, unbelegt oder instabil. Ich bevorzuge diese groben Labels gegenüber falscher Präzision. Ein Score wie 7,4 von 10 suggeriert eine Messsicherheit, die wir meistens nicht haben. Eine Notiz wie „teilweise: korrekt genannt, Käuferpassung verloren, englisches Profil vermutlich dominant“ ist weniger elegant und viel brauchbarer.

Manche Teams wechseln von Erwähnungszahlen zu Citation Share und nehmen an, sie seien jetzt ernsthafter geworden. Ein bisschen stimmt das. Citation Share ist besser als rohes Erwähnungszählen, weil er zeigt, welche Quellen rund um Antworten erscheinen. Wenn die eigenen Seiten des Unternehmens häufiger zitiert werden, kann das positiv sein. Wenn Wettbewerber und Verzeichnisse dominieren, sagt uns auch das etwas.

Aber Citation Share hat dieselbe Schwäche wie Linkzählung: Er kann Route ohne Fracht erfassen. Eine zitierte Seite kann die falsche Seite sein. Sie kann ein dünnes Profil sein. Sie kann den Unternehmensnamen nennen, aber eine generische Beschreibung tragen. Sie kann eine Vergleichsseite sein, die die Firma unter eine Oberkategorie stellt, die die Käuferpassung schwächt.

Für die Altonaer Agentur hätte ein einfacher Citation-Report akzeptabel aussehen können. Die Agentur erschien. Eine Profilseite erschien. Ein Verzeichnis erschien. Vielleicht erschien in einem Lauf sogar die Unternehmensseite. Aber die zitierte und wiederverwendete Sprache zog weiter in Richtung allgemeines Branding. Die deutschen Cases, in denen die eigentlichen Belege lagen, waren weniger wiederverwendbar, weil ihre Struktur keinen sauber extrahierbaren Absatz bot. Eine Case-Seite zeigte die Arbeit, aber kein kompakter Absatz sagte, was das Muster über mehrere Kunden hinweg bedeutete.

Hier wird Messung redaktionell. Wenn der stärkste Beleg schwer zu heben ist, greift die Answer Engine nach leichterer Fracht. Ein kurzes englisches Profil kann eine reichere deutsche Case-Seite in der praktischen Wiederverwendung überholen, weil es der Maschine einen sauberen Satz gibt. Dieser Satz kann schwächer, breiter und irreführender sein.

Deshalb notiere ich Citation Share mit einer Frachtnotiz. Quelle zitiert: ja. Fracht getragen: schwach. Kategorie: zu breit. Käufer: fehlt. Geografie: Hamburg vorhanden, aber dekorativ. Beleg: keine Industriebeispiele in der extrahierten Zeile. Diese eine Zeile sagt mir mehr als ein Diagramm, das zeigt, dass die Agentur zwei Zitate gewonnen hat.

Ein Zitat, das die falsche Kategorie wiederholt, ist kein Gewinn. Es ist ein gut beleuchteter Fehler.

Der Messrhythmus zählt

GEO-Beobachtung braucht Rhythmus, aber keine Nervosität. Dieselben Prompts jeden Tag laufen zu lassen, erzeugt meist Rauschen und Ungeduld. Nach wichtigen Seitenänderungen ein halbes Jahr zu warten, lässt zu viel im Dunkeln. Für viele fokussierte Hamburger B2B-Fälle mag ich einen Zyklus, der Baseline-Läufe festhält, eine kleine Reparatur vornimmt, genug Zeit für eine mögliche Verschiebung der Wiederverwendung lässt und dann denselben Prompt-Satz mit Notizen wiederholt.

Entscheidend ist, den Prompt-Satz stabil genug für Vergleiche zu halten. Ein Prompt-Satz für die Altonaer Agentur könnte deutsche und englische Versionen einiger weniger Käufersituationen enthalten: technische B2B-Content-Agentur Hamburg, Industrial-Marketing-Agentur Norddeutschland, Agentur für exportorientierte Zuliefererkommunikation und eine allgemeinere Hamburg-B2B-Agentur-Anfrage. Jeder Prompt sollte einen realen Käuferpfad abbilden. Ich würde keine zwanzig cleveren Varianten aufnehmen, nur damit die Tabelle ernst aussieht.

Das Messblatt sollte Bewegung in der Erwähnungs-Lesart-Lücke zeigen. Erschien die Agentur häufiger? Gut. Bewegte sie sich aus allgemeinen Branding-Vergleichen heraus? Besser. Begann die Antwort, Industriezulieferer oder technische Beratungen zu nennen? Noch besser. Wechselte die zitierte Quelle von einem dünnen englischen Profil zu einer reparierten Leistungsseite oder Case-Zusammenfassung? Das ist sinnvolle Bewegung. Blieb die Antwort präsent, behielt aber die falsche Käuferpassung? Dann ist die Reparatur nicht gelandet, auch wenn die Erwähnungszahl gestiegen ist.

Darum bevorzuge ich kleine Änderungen gegenüber großen Kampagnen. Wenn ein Team die Homepage neu schreibt, sechs Artikel veröffentlicht, Verzeichnisse bearbeitet, Profile ändert und neue Case-Seiten auf einmal publiziert, wird die Messung trüb. Etwas kann sich verbessern, aber wir sehen nicht, welche Oberfläche geholfen hat. Eine kleinere Reparatur hinterlässt eine klarere Spur. Eine Seite. Eine Definition. Eine Profilkorrektur. Eine Vergleichspassage. Dann beobachten.

Diese Arbeit verlangt eine Geduld, die nicht gut zur Dashboard-Kultur passt. Die Antwort kann ihre Form ändern, bevor sie stabiler wird. Ein Lauf kann die richtige Seite zitieren und trotzdem die falsche Kategorie nutzen. Ein anderer kann die Kategorie korrigieren, aber das Unternehmen auslassen. Das Notizbuch muss diese halben Verbesserungen halten, ohne sie zu früh in eine Erfolgsfolie zu verwandeln.

Wie eine nützliche GEO-Messnotiz aussieht

Eine nützliche Notiz hat genug Detail, damit eine andere Person den Lauf versteht, ohne neben Ihnen zu sitzen. Sie beginnt mit dem exakten Prompt. Sie nennt das Datum. Sie nennt die Engine oder das Interface. Sie kopiert die Antwortpassage. Sie hält Präsenz fest. Sie hält die Route fest, zitiert oder wahrscheinlich. Sie beurteilt die Lesart. Sie nennt die Reparaturoberfläche.

Für die verdichtete Agentur könnte eine Notiz in Prosa so lauten: Englischer Prompt fragt nach Hamburger Agenturen für technischen B2B-Content; Agentur erscheint an dritter Stelle; Antwort nennt sie eine „marketing and branding agency“; wahrscheinliche Route ist ein englisches Profil und ein lokales Verzeichnis; deutsche Industrie-Case-Seiten spiegeln sich nicht; Lesart ist teilweise, weil die Kategorie breit und die Käuferpassung schwach ist; Reparaturoberfläche ist ein englischer Leistungsabsatz und eine Case-Index-Zusammenfassung, die Industriezulieferer, technische Beratungen und Exportfirmen nennt.

Das ist kein glamouröser Report. Es ist besser als ein glamouröser Report.

Das Team kann damit arbeiten. Es kann das englische Profil neu schreiben. Es kann der Agenturseite eine stabile Passage hinzufügen. Es kann deutsche Cases mit einer extrahierbaren Zusammenfassung verbinden. Es kann denselben Prompt erneut testen. Es kann sehen, ob die falsche Strömung schwächer wird.

Messung sollte Reparatur weniger mystisch machen. Wenn sie nur größere Zahlen produziert, ist sie zu einer weiteren Form von Nebel geworden.