KI-Telefon-Agenten: Voice-Bots mit Pipecat & Asterisk
KI-Chatbots kennen wir. Aber was passiert, wenn der Kunde nicht tippt, sondern anruft? Die Echtzeit-Sprachpipeline — Speech-to-Text, LLM, Text-to-Speech — ist technisch anspruchsvoll, aber mit Pipecat und Asterisk umsetzbar.
Die Pipeline: STT → LLM → TTS
Ein Anrufer spricht. Asterisk (oder eine andere SIP-PBX) nimmt den Anruf entgegen und leitet den Audiostream an Pipecat weiter. Pipecat orchestriert:
- STT: Sprache wird in Echtzeit transkribiert — Whisper, Deepgram oder ein lokales Modell.
- LLM: Das Transkript wird an ein LLM geschickt, das antwortet — kontextbewusst, mit Prompts, die den Agenten definieren.
- TTS: Die Textantwort wird synthetisiert — ElevenLabs-Klasse oder lokale Modelle wie XTTS.
Das alles passiert in weniger als zwei Sekunden. Die Latenz ist der kritische Pfad.
Pipecat: Das Framework für die Pipeline
Pipecat ist ein Python-Framework, das die Transport- und Pipeline-Logik übernimmt. Es spricht mit Asterisk über SIP oder WebRTC, steuert Audio-Input/Output und schaltet zwischen den Pipeline-Stufen um.
from pipecat.pipeline.pipeline import Pipeline
from pipecat.services.deepgram import DeepgramSTTService
from pipecat.services.openai import OpenAILLMService
Der Code definiert die Pipeline. Pipecat macht den Rest — Audio-Chunks fliessen, das LLM bekommt Kontext, die Antwort geht zurück ans Telefon.
SIP-Anbindung über Asterisk
Asterisk ist die Brücke zum Telefonnetz. Es empfängt den SIP-Trunk, leitet den Audiostream um und behandelt den KI-Agenten wie eine Extension — nur dass dahinter kein Mensch sitzt.
Der Vorteil: Asterisk kann parallel menschliche Agenten und KI-Agenten routen. Komplexe Anfragen landen beim Menschen, Standardfragen (Öffnungszeiten, Statusabfragen) beim Bot.
Was noch nicht geht
Natürliche Pausen, Unterbrechungen, emotionale Nuancen — das ist noch Forschung. Echtzeit-Voice ist beeindruckend, aber die Latenz und die Unfähigkeit, „äh" und Zögern zu verstehen, erinnern nach drei Sätzen daran, dass kein Mensch am anderen Ende ist.
Fazit
KI-Telefon-Agenten sind kein Ersatz für Support-Mitarbeiter, aber sie sind eine Entlastung für Standardfragen. Pipecat und Asterisk machen die Technik zugänglich — der Rest ist Prompt-Design und ehrliches Erwartungsmanagement.