senn-techsenn-tech
Zurück zum Blog
KI & Entwicklung2027-01-19

KI-Telefon-Agenten: Voice-Bots mit Pipecat & Asterisk

KI-Chatbots kennen wir. Aber was passiert, wenn der Kunde nicht tippt, sondern anruft? Die Echtzeit-Sprachpipeline — Speech-to-Text, LLM, Text-to-Speech — ist technisch anspruchsvoll, aber mit Pipecat und Asterisk umsetzbar.

Die Pipeline: STT → LLM → TTS

Ein Anrufer spricht. Asterisk (oder eine andere SIP-PBX) nimmt den Anruf entgegen und leitet den Audiostream an Pipecat weiter. Pipecat orchestriert:

  1. STT: Sprache wird in Echtzeit transkribiert — Whisper, Deepgram oder ein lokales Modell.
  2. LLM: Das Transkript wird an ein LLM geschickt, das antwortet — kontextbewusst, mit Prompts, die den Agenten definieren.
  3. TTS: Die Textantwort wird synthetisiert — ElevenLabs-Klasse oder lokale Modelle wie XTTS.

Das alles passiert in weniger als zwei Sekunden. Die Latenz ist der kritische Pfad.

Pipecat: Das Framework für die Pipeline

Pipecat ist ein Python-Framework, das die Transport- und Pipeline-Logik übernimmt. Es spricht mit Asterisk über SIP oder WebRTC, steuert Audio-Input/Output und schaltet zwischen den Pipeline-Stufen um.

from pipecat.pipeline.pipeline import Pipeline
from pipecat.services.deepgram import DeepgramSTTService
from pipecat.services.openai import OpenAILLMService

Der Code definiert die Pipeline. Pipecat macht den Rest — Audio-Chunks fliessen, das LLM bekommt Kontext, die Antwort geht zurück ans Telefon.

SIP-Anbindung über Asterisk

Asterisk ist die Brücke zum Telefonnetz. Es empfängt den SIP-Trunk, leitet den Audiostream um und behandelt den KI-Agenten wie eine Extension — nur dass dahinter kein Mensch sitzt.

Der Vorteil: Asterisk kann parallel menschliche Agenten und KI-Agenten routen. Komplexe Anfragen landen beim Menschen, Standardfragen (Öffnungszeiten, Statusabfragen) beim Bot.

Was noch nicht geht

Natürliche Pausen, Unterbrechungen, emotionale Nuancen — das ist noch Forschung. Echtzeit-Voice ist beeindruckend, aber die Latenz und die Unfähigkeit, „äh" und Zögern zu verstehen, erinnern nach drei Sätzen daran, dass kein Mensch am anderen Ende ist.

Fazit

KI-Telefon-Agenten sind kein Ersatz für Support-Mitarbeiter, aber sie sind eine Entlastung für Standardfragen. Pipecat und Asterisk machen die Technik zugänglich — der Rest ist Prompt-Design und ehrliches Erwartungsmanagement.