Ein typisches Sprachdialogsystem besteht aus mehreren Komponenten:
- Spracherkennung (Speech-to-Text, STT): Wandelt gesprochene Sprache in Text um.
- Natürliche Sprachverarbeitung (Natural Language Processing, NLP): Verarbeitet den transkribierten Text, extrahiert Bedeutungen (Intents und Entitäten) und führt Dialogmanagement durch.
- Dialogmanagement (Modell für spezifische Anwendungsfälle): Hier wird der Text analysiert und eine entsprechende Aktion oder Antwort abgeleitet. Es kann auf spezifische Kontexte, Domänen Wissen oder Benutzerpräferenzen abgestimmt sein.
- Antwortgenerierung (Natural Language Generation, NLG): Generiert eine Antwort in natürlicher Sprache basierend auf der erkannten Absicht und Kontextinformationen.
- Sprachausgabe (Text-to-Speech, TTS): Wandelt die generierte Antwort in gesprochene Sprache um.
Im Abschnitt 2.4 Multimodales Dialogmanagement wird beschrieben wie das Dialogsystem mit der Bild- und Videoerkennung ergänzt wird.