Ich habe vor einiger Zeit schon einmal mit Spracherkennung experimentiert und war damals enttäuscht - vielleicht aber auch deshalb, weil ich nur mäßig motiviert war und mich deshalb bereits früh abschrecken ließ, als nicht alles sofort so funktioniert hat wie ich es wollte. Nun habe ich das Thema nochmals aufgegriffen...
Die von mir ausprobierte Lösung ist Nerd-Dictation, ein auf Vosk basierendes Python-Framework, das man als Anwender zielgerichtet an eigene Bedürfnisse anpassen kann.
Die Lösung selbst kommt zunächst einmal ohne Wörterbücher - man muss sich also zunächst eines herunterladen und an die korrekte Stelle im Dateisystem entpacken. Solche Wörterbücher oder Modelle liegen für viele Sprachen vor - oft auch in unterschiedlichen Versionen - die sich zum Beispiel in der Größe des herunterzuladenden Archivs unterscheiden, jedoch auch im Funktionsumfang - doch dazu später mehr.
Nachdem ich die Lösung auf meinem Rechner und eines der Modelle heruntergeladen und entpackt hatte stand ein erster Test an: Dabei zeigt es sich, dass die Erkennungsrate hervorragend war, jedoch der Rechner ständig einfror und dann bis zu über eine halbe Minute nicht benutzbar war, während die Lösung an der Erkennung arbeitete (zumindest dachte ich, dass es das war, was das Einfrieren verursachte).
Nachdem ich im Netz dazu recherchiert hatte, fand ich eine Lösung, die den Einsatz einer Alternative zu xdotool vorschlug. Die Installation dieser Alternative (ydotool) ist mit ein wenig Handarbeit verbunden - unter anderem muss man Benutzer, die die Lösung einsetzen möchten, zu einer bestimmten Gruppe hinzufügen und noch eine udev-Regel im System anlegen. Danach konnte ich einen weiteren Test starten und stellte fest, dass der Rechner sich angenehm schnell anfühlte und das Einfrieren konnte ich gar nicht mehr beobachten. Nach einigen Tests stellte ich aber fest, dass Umlaute im erkannten Text fehlten.
Ich wollte jetzt herausbekommen, ob das am Einsatz von ydotool lag und schwenkte zeitweise zurück zu xdotool. Meine Überraschung war riesig, da das Einfrieren jetzt auch mit xdotool der Vergangenheit angehörte! Des Weiteren wurde klar, dass das Fehlen der Umlate wirklich an ydotool lag: mit xdotool und ohne weitere Änderungen am System funtionierten diese nämlich!
Während der Tests war mir auch aufgefallen, dass jedes erkannte Wort kleingeschrieben wurde - das wäre natürlich eine Behinderung gewesen, die in der deutschen Sprache den sinnvoillen und effektiven Einsatz der Lösung infrage gestellt hätte. Nach einigen weiteren Tests stellte es sich heraus, dass das daran lag, dass ich zu einem sehr kleinen Modell zurückgekehrt war, als ich noch nach den Ursachen für das ständige Einfrieren suchte: Ich nahm an, dass der Rechner einfach zu schwachbrüstig für große Modelle wäre. Mit einem großen Sprachmodell wurde auch die Groß- und Kleinschreibung vollommen korrekt erkannt und angewendet.
Jetzt blieben nur noch zwei Dinge, die einem Einsatz der Lösung im großen Stil entgegenstanden: Die Tatsache, dass in einem Diktat naturgemäß keine Zeilenumbrüche vorkommen und die Tatsache, dass das System keine Satzenden erkannte und demgemäß keine Punkte zwischen Sätze setzte.
Das System bietet zwar die Möglichkeit an, längere Pausen im Diktat zu erkennen und an diesen Stellen Satzendezeichen (Punkte) zu setzen. Allerdings habe ich erstens dieses Feature nicht (zuverlässig) zum Funktionieren gebracht und zweitens ist das Setzen von nur Punkten nicht wirklich befriedigend, nicht wahr?
Aber das System bietet die Möglichkeit, an die jeweiligen Anforderungen individueller Nutzer angepasst zu werden - unter anderem kann man über eine Konfigurationsdatei angeben, dass erkannte Worte oder Wortgruppen gegen anderen Text ausgetauscht werden sollen.
So sieht meine Datei ~/.config/nerd-dictation/nerd-dictation.py jetzt wie folgt aus:
# A list of substitutions to make within the dictated text
substitutions = [
('setze Punkt', '. '),
('Sätze Punkt', '. '),
('setze Komma', ', '),
('Sätze Komma', ', '),
('beginne neue Zeile', '\r'),
('beginnen neue Zeile', '\r'),
('setze minus', '- '),
('Sätze minus', '- '),
('back slash', '\\'),
('forward slash', '/'),
('setze Fragezeichen', '? '),
('Sätze Fragezeichen', '? '),
('setze Ausrufezeichen', '! '),
('Sätze Ausrufezeichen', '! '),
('setze Kaufmann', '& '),
('Sätze Kaufmann', '& '),
('setze Stern', '* '),
('Sätze Stern', '* ')
]
def nerd_dictation_process(text):
# Substitute in alternate text for any entries within substitutions list
for substitution in substitutions:
text = text.replace(' ' + substitution[0], substitution[1])
text = text.replace(substitution[0], substitution[1])
# Fix any new lines with a trailing space
text = text.replace('\r ', '\r')
return text
Solche Ersetzungen sollte man auf jeden Fall gut testen: Bei mir stellte sich - wie auch zu erkennen - heraus, dass ich Befehle wie "setze Komma" offenbar nicht sehr sauber spreche, weswegen das System hier oft "Sätze Komma" erkannt hat. Solche Fehler gilt es in den Mappings zu berücksichtigen. Man kann erkennen, dass ich auf diese Weise auch das Problem fehlender Zeilenumbrüche lösen konnte.
So kann man das System noch um weitere Spezialkommandos ergänzen - es sollte etwa möglich sein, entsprechende Kommandos für Markdown-Syntaxkonstrukte hinzuzufügen, die es erlauben, komplette Markdown-Dokumente zu verfassen, ohne die Tastatur berühren zu müssen.
Aktuell existieren verschiedene Bestrebungen, das System dazu zu befähigen, auch Tastenkürzel oder Hotkeys auszulösen oder ganz allgemein eine Sprachsteuerung für das Smart-Homa zu bauen. Ich werde das weiter beobachten und gegebenenfalls hier davon berichten.
Vorhaben 2020
03.01.2020
Genau wie letztes Jahr habe ich auch dieses Jahr wieder ein "Listche" verfasst, um mir all die interessanten Vorhaben zu notieren, die ich mit mittlerem zeitlichen Horizont anzugehen gedenke.
Weiterlesen...Android Basteln C und C++ Chaos Datenbanken Docker dWb+ ESP Wifi Garten Geo Go GUI Gui Hardware Java Jupyter Komponenten Links Linux Markdown Markup Music Numerik OpenSource PKI-X.509-CA Python QBrowser Rants Raspi Revisited Security Software-Test sQLshell TeleGrafana Verschiedenes Video Virtualisierung Windows Upcoming...
In eigener Sache...
Weiterlesen...Nach dem ersten Teil von mir als interessant eingestufter Vorträge des Chaos Communication Congress 2024 hier nun die Nachlese
Weiterlesen...Nach dem So - wie auch im letzten Jahr: Meine Empfehlungen für Vorträge vom Chaos Communication Congress 2024 - vulgo: 38c3:
Weiterlesen...Manche nennen es Blog, manche Web-Seite - ich schreibe hier hin und wieder über meine Erlebnisse, Rückschläge und Erleuchtungen bei meinen Hobbies.
Wer daran teilhaben und eventuell sogar davon profitieren möchte, muss damit leben, daß ich hin und wieder kleine Ausflüge in Bereiche mache, die nichts mit IT, Administration oder Softwareentwicklung zu tun haben.
Ich wünsche allen Lesern viel Spaß und hin und wieder einen kleinen AHA!-Effekt...
PS: Meine öffentlichen Codeberg-Repositories findet man hier.