Sprachaufnahmen um ein CNN Model für die Wake Word Detection zu trainieren, um die Ergebnisse des CNN Model mit den Ergebnissen mit dem Model VOSK vergleichen zu können. Für das CNN der „Wake Word Detection“ nutze ich aktuell 100 Sprach-Samples von „Hey CulinAIBot“ Trainingsgenauigkeit von 90%.
Für die Modelle wie VOSK, OpenAI, Rasa, und Llama 3.1 benötige ich im ersten Schritt keine Daten für das Modeltraining. In Zukunft werde ich mich mit dem Fine-Tuning von LLMs beschäftigen. Hierfür werden dann Daten aus dem Kontext der Küche, Rezept-Datenbanken, usw. benötigt.