Sie haben Fragen?
Gerne helfen wir Ihnen weiter
+49 (0) 921 / 898 577 von 8:00 - 17:00 Uhr

Digta 7

Die Anforderung

Es sollte ein neues Premium Diktiergerät für den mobilen entwickelt und produziert werden, welches auch das Thema „Spracherkennung“ adressiert. So sollte per Spracherkennung eine eindeutige Diktatkennung erfasst werden können, damit mobil aufgenommene Diktate sich später besser einem Fall zuordnen lassen. Auch unterschiedliche Steuerungsfunktionen per Sprache sollten möglich sein. Die Spracherkennung sollte auch für verschiedene Sprachen zur Verfügung stehen. Eine weitere Anforderung war, dass das mobile Gerät serverunabhängig, also ohne jeden Netzwerkzugriff funktionieren muss. Da diese eher komplexen Anforderungen an die Spracherkennung einige Prozessorleistung im Gerät benötigen, war die größte Herausforderung bezüglich dieser Funktionalität, dies mit den begrenzten Rechenressourcen eines mobilen Gerätes zu realisieren.

Die Lösung

Aufgrund der verschiedenen Anforderungen wurde eine spezielle Speech Recognition Engine eingesetzt, welche auch auf embedded Systemen mit eingeschränkter Prozessorleistung lauffähig ist. Diese Lösung ist zwar sehr leistungsstark und flexibel, erforderte aber sehr gutes Entwickler-Knowhow. Auch musste sowohl ein für Spracherkennung geeignetes User-Interface entwickelt wie auch auf die Auswahl der Hardware-Komponenten ein besonderes Augenmerk gelegt werden. Durch das Zusammenspiel einer geeigneten Spracherkennungs-Engine mit einem angepasstem User-Interface und einer dezidierten Bauteilauswahl wurde das Ziel erreicht, in einem mobilen Gerät die gewünschte Erkennungsleistung zuverlässig bereitzustellen. Das angedachte Konzept wurde vorab auf einem Funktionsmuster getestet und optimiert, bevor es zur Serie umgesetzt wurde.

Die Vorteile

Durch eigene langjährige Erfahrung mit mobilen Aufnahmegeräten und ein starkes Netzwerk von Entwicklungspartnern vor allem im Bereich Spracherkennung, konnten die Komponenten optimal aufeinander abgestimmt und ein bestmögliches Ergebnis für den Nutzer erreicht werden.

Mobiles Diktieren mit Spracherkennung

Spracherkennungsdienste wie Siri oder Alexa setzen auf eine direkte Verbindung zu einem Server, der die Spracheingabe erkennt und als Befehl an das Gerät zurücksendet. Das digitale Diktiergerät Digta 7 ist, wie auch viele andere embedded Systeme, nicht (ständig) mit dem Internet verbunden und muss daher die Spracherkennung stand-alone gewährleisten. Ein Diktiergerät ist im Gegensatz zu einem Smartphone kein „mobiler Computer“ und verfügt nur über eingeschränkte Prozessorleistung um diese Aufgaben zu bewältigen. Außerdem ist durch den Einsatz bei wechselnden Personen kein anwenderspezifisches Training der Spracherkennung möglich.

Konzeption des User-Interfaces

Ein Gerät wie das Digta 7, welches täglich im Berufsalltag genutzt wird, muss intuitiv bedienbar sein. Auch muss schnell deutlich werden, ob die Erkennung erfolgreich war oder nicht. Wenn nicht, muss der Nutzer die Eingabe problemlos anpassen können.

Auswahl eines eingebetteten Spracherkennungssystems

Mit der Vocon Engine von Nuance setzt das Digta 7 auf die Technik des Marktführers. Das eingebettete System sorgt für die Erkennung des gesprochenen Dateinamens. Dazu kann der Nutzer ein limitiertes anwendungsangepasstes Vokabular verwenden, wodurch die benötigte Rechenleistung minimiert wird. Eine Herausforderung war dabei die Erkennung von abweichender Sprache. So muss das System den Befehl „119 aus 2000“ als „119/2000“ interpretieren.

Entwicklung eines Demoboards

Zur Überprüfung des Konzepts musste eine Testplatine gebaut werden. So konnte das Zusammenspiel von User-Interface, Spracherkennungsmodul und Prozessor getestet werden. Geachtet wurde dabei auf die Erkennungsrate und die Erkennungsgeschwindigkeit bei der Spracherkennung am Gerät. Es folgten mehrere Iterationen, um das Ergebnis schrittweise zu optimieren.

Fazit

Während des gesamten Prozesses konnten Grundig Business Systems GmbH & Co. KG auf ein Netzwerk aus erfahrenen Partnern zurückgreifen. Auf diese Weise konnten Komponenten sowie die Steuerung aufeinander abgestimmt werden. Das Ergebnis: Das optimale Diktiererlebnis für den Nutzer. Die Zahlenerkennung funktioniert zuverlässig, mit einer Geschwindigkeit, die die manuelle Eingabe in den Schatten stellt.