0171 838 89 58 info@stackofstones.de
Seite auswählen

AI Scores: Warum Token-Nutzung kein Leistungsnachweis ist

Zurzeit wird viel über AI Scores gesprochen.

Über die Frage, wie intensiv Mitarbeitende KI nutzen. Wie viele Prompts sie schreiben. Wie viele Tokens sie verbrauchen. Wie oft sie Chatbots, Copilots und Agenten in ihren Arbeitsalltag einbauen.

Manche Unternehmen feiern hohe Nutzungszahlen bereits als Fortschritt.

Wir bei StackofStones fragen uns:

  • Ist das wirklich Fortschritt?

Oder messen wir gerade die falsche Sache mit hoher Präzision?

Die Leistungsfähigkeit eines Buchhalters anhand der Anzahl verbrauchter Stifte zu messen, wirkt absurd. Vielleicht kann man daraus irgendetwas ableiten. Vielleicht arbeitet jemand viel. Vielleicht schreibt jemand sorgfältig. Vielleicht kritzelt jemand aber auch nur auf Papier herum.

Die Zahl allein sagt fast nichts.

Bei KI droht uns gerade genau dieser Fehler.

Viele Tokens bedeuten nicht automatisch viel Wirkung. Viele Prompts bedeuten nicht automatisch gute Arbeit. Viel KI-Nutzung bedeutet nicht automatisch bessere Entscheidungen.

Es kann auch einfach bedeuten: Jemand lässt eine Maschine sehr beschäftigt aussehen.

Entwickler sind keine Buchhalter

Der Vergleich mit dem Buchhalter ist natürlich unfair. Auch Buchhaltung ist anspruchsvoll.

Aber die Pointe bleibt: Nicht jede Arbeit lässt sich sinnvoll über Verbrauch messen.

Bei kreativer Wissensarbeit wird es besonders gefährlich. Und Softwareentwicklung ist in weiten Teilen kreative Wissensarbeit. Gute Entwicklerinnen und Entwickler sind nicht gut, weil sie besonders viele Tools benutzen.

Sie sind gut, weil sie Zusammenhänge erkennen. Weil sie die richtigen Abstraktionen finden. Weil sie entscheiden, was man nicht bauen sollte. Weil sie Komplexität reduzieren. Weil sie an der richtigen Stelle skeptisch sind.

Kurz gesagt:

Die besten Entwicklerinnen und Entwickler sind oft eher Künstler als Fließbandarbeiter. Und Künstler misst man nicht daran, wie viel Farbe sie verbrauchen.

Effizienz ist nicht Effektivität

KI macht vieles schneller. Keine Frage.

Sie kann Texte strukturieren, Code vorschlagen, Dokumentationen zusammenfassen, Tests generieren, Ideen sortieren und lästige Routinen beschleunigen.

Das ist wertvoll.

Aber Geschwindigkeit allein ist noch kein Wert.

Effizienz beantwortet die Frage:

  • Wie schnell und intensiv nutzen wir ein Werkzeug?

Effektivität beantwortet eine andere Frage:

  • Nutzen wir das Werkzeug für das richtige Problem?

Das ist der entscheidende Unterschied.

Ein Team kann extrem effizient die falschen Dinge tun. Es kann mit KI schneller Tickets schließen, die nie hätten geöffnet werden sollen. Es kann schneller Features bauen, die niemand braucht. Es kann schneller Code produzieren, der später noch schneller wieder gelöscht wird.

KI beschleunigt nicht nur gute Arbeit.

Sie beschleunigt auch schlechte Prioritäten.

Die wichtigste Frage ist nicht: „Wie oft nutzt du KI?“

Die bessere Frage lautet:

  • Stellst du die richtigen Fragen?

Denn genau dort entsteht der Unterschied.

Nicht beim Prompt-Volumen. Nicht beim Token-Verbrauch. Nicht bei der Anzahl der Chatbot-Sessions. Sondern bei der Qualität der Fragestellung.

Wer ein Problem schlecht versteht, bekommt mit KI schneller eine plausible Antwort auf eine falsche Frage. Das fühlt sich produktiv an. Ist es aber nicht.

Vielleicht ist das sogar eine der größten Gefahren aktueller KI-Nutzung: Sie erzeugt ein sehr angenehmes Gefühl von Fortschritt. Es passiert etwas. Es entsteht Text. Es entsteht Code. Es entsteht Output. Nur leider ist Output nicht dasselbe wie Wirkung.

AI Scores können nützlich sein — aber nur als schwaches Signal

Natürlich kann man KI-Nutzung messen.

Manchmal sollte man das sogar.

Es kann helfen zu verstehen, ob neue Werkzeuge überhaupt angenommen werden. Ob Teams experimentieren. Ob Schulungen wirken. Ob bestimmte Prozesse automatisierbar sind.

Aber ein AI Score ist kein Leistungsnachweis. Er ist höchstens ein Nutzungssignal. Und Nutzungssignale sind gefährlich, sobald sie zum Ziel werden.

Wenn Menschen daran gemessen werden, wie viel KI sie verwenden, werden sie mehr KI verwenden. Nicht unbedingt besser. Nur mehr.

Dann wird aus Adoption schnell Theater. Aus Produktivität wird Aktivität. Aus Lernen wird Reporting. Und am Ende optimiert die Organisation auf eine Kennzahl, nicht auf ein Ergebnis.

Wir sind da selbst nicht frei von Schuld

Auch wir bei StackofStones merken: Wir sind oft zu stark auf Effizienz getrimmt. Mehr Automatisierung. Schnellere Workflows. Kürzere Durchlaufzeiten. Mehr Output mit weniger Reibung. Das ist verführerisch. Gerade für Menschen, die gern Systeme bauen.

Aber vielleicht sollten wir öfter einen Schritt zurückgehen und fragen:

  • Ist das überhaupt das richtige Problem?

Sollten wir diese Aufgabe beschleunigen — oder abschaffen? Brauchen wir hier wirklich mehr KI — oder mehr Klarheit? Würde ein besserer Entscheidungsprozess mehr bringen als der nächste Agent? KI kann uns helfen, bessere Arbeit zu machen. Aber sie nimmt uns nicht ab, zu entscheiden, was gute Arbeit ist.

Der bessere AI Score

Vielleicht brauchen wir also keinen AI Score, der misst, wie viel KI genutzt wird. Vielleicht brauchen wir einen, der bessere Fragen stellt:

  • Hat KI geholfen, eine bessere Entscheidung zu treffen?
  • Wurde ein echtes Problem gelöst?
  • Wurde Komplexität reduziert?
  • Wurde Qualität verbessert?
  • Wurde Zeit dort frei, wo sie wirklich wertvoll ist?
  • Wurde etwas nicht gebaut, weil man früher verstanden hat, dass es Unsinn wäre?

Gerade der letzte Punkt wird oft unterschätzt.

Eine der wertvollsten Leistungen guter Entwicklerinnen und Entwickler besteht darin, Dinge nicht zu tun.

  • Nicht jedes Feature bauen.
  • Nicht jede Abstraktion einführen.
  • Nicht jede technische Möglichkeit ausschöpfen.
  • Nicht jeden Output feiern.

Das sieht in Dashboards schlecht aus. Für Unternehmen ist es oft Gold wert.

Unser Fazit

AI Scores können helfen, Nutzung sichtbar zu machen. Aber sie dürfen nicht mit Leistung verwechselt werden.

  • Wer Token zählt, misst Verbrauch. Nicht Wirkung.
  • Wer Prompts zählt, misst Aktivität. Nicht Qualität.
  • Wer KI-Nutzung belohnt, bekommt KI-Nutzung. Nicht automatisch bessere Arbeit.

Die eigentliche Herausforderung liegt woanders:

Wir müssen lernen, KI nicht nur intensiver, sondern sinnvoller zu nutzen. Mehr Effektivität. Nicht nur mehr Effizienz. Mehr bessere Fragen. Nicht nur schnellere Antworten. Mehr Wirkung. Nicht nur mehr Tokens.

Wie seht ihr das?

Messen wir bei KI gerade die richtigen Dinge?

Oder bauen wir uns die nächste Kennzahl, die am Ende mehr Verhalten erzeugt als Wert?

Ein Beitrag von StackofStones. (c) 2014-2026

Christian Knoll

Christian Knoll

Managing Partner

christian.knoll@stackofstones.de

Kai Thomsen

Kai Thomsen

Managing Partner

kat@stackofstones.de

Klar. Pragmatisch. Ohne Abhängigkeiten.

KI-Bereit & Ohne Abhängigkeit

Wir machen Stadtwerke, Energieversorger, Tourist-Informationen und KMU KI-ready — mit strukturiertem Wissen, klaren Prozessen und digitaler Souveränität. DSGVO-konform. Ohne Vendor-Lock-in.

R

Steigende Erwartungen, begrenzte Ressourcen

R

Fragmentierte Daten und uneinheitliche Antworten

R

Wachsende Abhängigkeit von US-Clouds & KI-Plattformen

Wir helfen Stadtwerken, Energieversorgern, Tourist-Informationen und KMU, Wissen und Prozesse so zu strukturieren, dass KI verlässlich eingesetzt werden kann. Dabei steht digitale Souveränität im Fokus: Datenhoheit, DSGVO-Konformität und eine Architektur ohne Vendor-Lock-in.

30 Minuten. Kostenlos. Klarer nächster Schritt.

Stein für Stein: Klartext statt Buzzwords • Umsetzung statt Folien • Souveränität als Prinzip

Accessibility Toolbar