Skip to main content
search

Künstliche Intelligenz gilt in immer mehr Unternehmen und Service-Organisationen als Heilsbringer für Effizienz, Produktivität und sinkende Personalkosten. Gerade im technischen Service, im Contact Center oder im Backoffice werden große Hoffnungen in Automatisierung, generative Assistenten und intelligente Datenauswertung gesetzt – wir haben das beim KVD Praxistag bei Dematic ausführlich diskutiert. Was sich in der Diskussion herauskristallisiert hat: Während über Use Cases, Pilotprojekte und Produktivitätsgewinne intensiv diskutiert wird, bleibt eine Frage erstaunlich oft im Hintergrund – was kostet der KI-Betrieb eigentlich dauerhaft, insbesondere dann, wenn über Token abgerechnet wird? Meine Einschätzung dazu: Wer KI nur als Lizenzthema betrachtet, unterschätzt eine neue, variable Kostenlogik.

Token statt Lizenz: Ein neues Kostenparadigma

Kurz zur Erklärung, worüber ich spreche: Viele moderne KI-Anwendungen – insbesondere große Sprachmodelle – werden nutzungsbasiert abgerechnet. Grundlage ist in der Regel der sogenannte Token-Verbrauch. Ein Token entspricht vereinfacht gesagt einem Wortteil oder Zeichenfragment. Sowohl Prompts als auch die Antworten des Modells werden in Token gemessen. Je komplexer die Anfrage, je länger der Kontext, je umfangreicher die Antwort – desto höher der Verbrauch.

Anbieter wie OpenAI, Microsoft, Anthropic oder Google kalkulieren ihre Preise pro Million Input- und Output-Tokens. Je nach Modell und Leistungsfähigkeit variieren diese Kosten erheblich. Leistungsstärkere Modelle mit größerem Kontextfenster oder höherer Genauigkeit liegen preislich deutlich über kleineren Varianten. Hinzu kommen gegebenenfalls Infrastrukturkosten (Cloud-Hosting), Integrationsaufwand, Monitoring, Sicherheitsmechanismen oder API-Management.

Was zunächst nach Cent-Beträgen klingt, kann bei Skalierung schnell relevante Größenordnungen erreichen. Ein Beispiel: Wenn ein KI-gestützter Servicebot im Contact Center täglich mehrere tausend Kundenanfragen verarbeitet und jede Interaktion einige tausend Tokens verbraucht, summiert sich das auf Millionen Tokens pro Tag. Hochgerechnet auf Wochen und Monate entstehen daraus fünf- oder sechsstellige Jahresbeträge – allein für die Modellnutzung.

Skalierungseffekte im Service: Kleine Einheit, große Wirkung

Gerade im technischen Service wirken Skaleneffekte besonders stark. Ein einzelner Servicetechniker, der sich punktuell von einem KI-Assistenten unterstützen lässt, erzeugt überschaubare Kosten. Anders sieht es aus, wenn KI tief in Prozesse integriert wird: bei der automatisierten Ticketklassifizierung im Helpdesk zum Beispiel, bei KI-gestützten Gesprächszusammenfassungen im Contact Center oder auch bei der Generierung von Serviceberichten.

Was man sich immer vor Augen halten muss: Sobald KI in hochfrequenten Prozessen arbeitet, wird aus einer punktuellen Nutzung ein dauerhafter, transaktionsbasierter Kostenstrom. Besonders kritisch wird es, wenn lange Kontexte verarbeitet werden – etwa bei der Analyse umfangreicher Servicehistorien oder technischer Dokumentationen. Große Kontextfenster erhöhen den Token-Verbrauch signifikant.

Heißt in der Praxis: Betriebskosten generativer KI-Anwendungen können sich bei starker Nutzung schnell zu einem relevanten Anteil der Budgets entwickeln. Gleichzeitig zeigen Studien zur Produktivität durch KI-Einsatz deutliche Effizienzpotenziale – insbesondere bei wissensintensiven Tätigkeiten. Entscheidend ist jedoch: Produktivitätsgewinne sind kein Selbstläufer, sondern hängen stark von Governance, Use-Case-Design und Integrationstiefe ab.

Die große Leerstelle: Kaum jemand rechnet sauber gegen

Haben diesen Faktor Unternehmen im Blick? Ich glaube: In vielen Unternehmen wird KI derzeit aus Innovationsdruck heraus eingeführt. Pilotprojekte werden gestartet, erste Quick Wins realisiert, und die Begeisterung über Geschwindigkeit und Qualität der Ergebnisse ist groß. Was häufig fehlt, ist eine saubere betriebswirtschaftliche Gegenrechnung.

Wenn ein Contact Center beispielsweise durch KI-Unterstützung 20 Prozent Bearbeitungszeit pro Ticket einspart, wird schnell von Personalkostensenkungen oder Kapazitätsgewinnen gesprochen. Doch werden diesen Einsparungen systematisch die laufenden Token-Kosten gegenübergestellt? Werden Lastspitzen, saisonale Schwankungen oder steigende Nutzungsszenarien in der Kostenprojektion berücksichtigt?

Gerade im Service ist die Versuchung groß, KI als Ersatz für knappe Fachkräfte zu betrachten. Doch Personalkosten sind in der Regel fixe oder zumindest planbare Größen. Token-Kosten hingegen sind variabel, nutzungsabhängig und potenziell volatil – insbesondere bei dynamisch wachsenden Datenmengen oder zunehmender Prozessautomatisierung. Hinzu kommt: KI-Anwendungen erzeugen häufig zusätzlichen Output – etwa automatisch generierte Dokumentationen, Zusammenfassungen oder Analysen. Diese Mehrwerte sind gewollt, erhöhen aber ebenfalls den Token-Verbrauch. Effizienz auf Prozessebene bedeutet nicht automatisch Kosteneffizienz auf Systemebene.

Beispiel Contact Center: Rechnet sich das wirklich?

Nehmen wir ein vereinfachtes Szenario: Ein mittelständisches Unternehmen betreibt ein Service-Contact-Center mit 25 Mitarbeitenden. Durchschnittlich werden 10.000 Anfragen pro Monat bearbeitet. Eine KI-Lösung übernimmt Vorqualifizierung, Antwortvorschläge und Gesprächszusammenfassungen. Pro Interaktion fallen – konservativ geschätzt – mehrere tausend Tokens an.

Multipliziert mit der monatlichen Fallzahl ergibt sich ein Token-Volumen im zweistelligen Millionenbereich pro Jahr. Je nach gewähltem Modell entstehen daraus erhebliche Betriebskosten. Gleichzeitig könnten pro Mitarbeitendem Zeitersparnisse von beispielsweise 15 bis 30 Prozent realisiert werden.

Die entscheidende Frage lautet: Wird die frei werdende Zeit tatsächlich in Kostensenkung übersetzt – oder in Qualitätssteigerung, zusätzliche Services und höhere Kundenzufriedenheit investiert? Wenn Personal nicht reduziert, sondern anders eingesetzt wird, bleiben Personalkosten bestehen, während Token-Kosten hinzukommen. Strategisch kann das sinnvoll sein – betriebswirtschaftlich muss es jedoch transparent gesteuert werden.

Backoffice und Datenverarbeitung: Der stille Kostentreiber

Besonders unterschätzt wird der Token-Verbrauch in datenintensiven Backoffice-Prozessen. CRM-Systeme integrieren zunehmend KI-Funktionalitäten – von automatischen Forecasts über Textgenerierung bis hin zu Analysefunktionen. Jede automatisierte Auswertung, jede generierte E-Mail, jede Zusammenfassung von Kundendaten verursacht im Hintergrund Rechen- und Tokenkosten.

In datenreichen Serviceorganisationen mit umfangreicher Historie kann allein die Kontextbereitstellung – also das Einlesen relevanter Daten in das Modell – erhebliche Kosten verursachen. Je komplexer der Use Case, desto höher der Verbrauch.

Was jetzt zu tun ist

Für Service-Verantwortliche bedeutet das: KI-Einführung ist nicht nur eine Technologie- oder Change-Frage, sondern eine Controlling-Aufgabe.

Dazu gehören aus meiner Sicht:

  • Transparente Messung des Token-Verbrauchs pro Use Case
  • Szenario-Rechnungen bei Skalierung
  • Gegenüberstellung von Token-Kosten und realisierten Produktivitätsgewinnen
  • Definition von Leitplanken für Kontextlängen und Antwortvolumina
  • Auswahl geeigneter Modellklassen je nach Anforderung

Nicht jeder Anwendungsfall benötigt das leistungsstärkste und teuerste Modell. Eine differenzierte Modellstrategie kann erhebliche Kostenvorteile bringen. Ebenso wichtig ist ein bewusstes Prompt-Design, das unnötigen Kontext vermeidet und Antworten zielgerichtet begrenzt.

Für die Praxis im technischen Service bedeutet das: KI strategisch einsetzen, wirtschaftlich steuern und nicht als Black Box behandeln. Nur dann wird aus technologischer Begeisterung nachhaltiger Mehrwert.

Carsten Neugrodda, KVD Geschäftsführer

Close Menu