Im Grunde bezeichnet ein Chatbot eine Maschine, die auf Anfragen in natürlicher Sprache antwortet. Die meisten Bots lösen diese Aufgabe nach demselben Prinzip. Zunächst erhält der Bot die Eingabe eines Nutzers aus dem Frontend. Ein Frontend kann zum Beispiel der Facebook Messenger, WhatsApp oder Amazon Alexa sein.
Wird die Nachricht über einen Sprachbot übermittelt, dann muss das Audiofile zunächst von der Spracherkennung, der sogenannten Automatic Speech Recognition, transkribiert und somit in Textform gebracht werden. Dieser Text wird anschließend an die Language-Understanding-Schicht weitergegeben. Im Falle eines Chatbots kann die eingegebene Nachricht direkt aus dem Frontend übergeben werden.
Die Language-Understanding-Schicht versucht nun, die Bedeutung der Nachricht zu analysieren. Dafür extrahiert sie die Intention („Intents“) des Nutzers sowie eventuell vorhandene Zusatzinformationen („Entities“).
Die gesammelten Informationen werden dann in der nächsten Schicht, dem Dialog Management, weiterverarbeitet. An dieser Stelle muss der Bot entscheiden, was als nächstes zu tun ist, um die Anfrage zu beantworten. Für diesen Prozess kann er häufig auf 3rd-Party-Applikationen zugreifen und deren CRM- oder ERP-Systeme nutzen.
Hat der Bot festgelegt, was zu tun ist, bekommt die Language-Understanding-Schicht den Auftrag, dem Nutzer zu antworten. Mit den Informationen aus dem Dialog Management wird ein Antwortsatz formuliert und, im Falle eines Textbots, direkt an das Frontend geschickt. Handelt es sich um einen Sprachbot, dann muss der Text zunächst in ein gesprochenes Audiofile umgewandelt werden, welches dem Nutzer anschließend im Frontend vorgespielt wird.