Willkommen beim LOGOX Application SDK 4 (Software Development Kit). Wenn von künstlicher Sprachausgabe die Rede ist, denkt man an Computer aus einschlägigen Filmen wie etwa "Star Trek" oder "2001". Dort können Computer Sprache derart synthetisieren, dass sie perfekt menschlich wirkt. Wenn auch nicht hundertprozentig perfekt, so kommen moderne Sprachsynthesen wie Logox diesem Ideal schon sehr nahe, und das auf handelsüblichen PC`s. In vielen Applikationen kann deshalb eine Sprachausgabe bereits heute sehr gute Dienste leisten, da sie die Interaktion zwischen Mensch und Maschine um den auditiven Kanal erweitert und damit entscheidend erleichtern oder verbessern kann.
Diese Seiten beschreiben, wie Sie die LOGOX Sprachausgabe in Ihren eigenen Softwareprojekten nutzen können. Sie lernen einfache Ansteuerungsmechanismen kennen, die Sie z.B. in Visual C verwenden können.
Folgende Kenntnisse sind von Vorteil:
Alle Rechte vorbehalten. Kein Teil dieses Buches/ dieser Seiten darf ohne schriftliche Genehmigung der G DATA Software AG reproduziert oder unter Verwendung elektronischer Systeme verarbeitet, vervielfältigt oder verbreitet werden. Die in diesem Buch verwendeten Markennamen sowie Soft- und Hardwarebezeichnungen unterliegen im allgemeinen dem warenzeichen-, marken- oder patentrechtlichen Schutz.
Bei vielen Problemen können oft bereits Hilfetexte und Handbuch weiterhelfen. Die aktuelle Version des Handbuchs finden Sie im Internet unter folgender Adresse.
http://www.logox.de/support/manual
Bitte beachten Sie außerdem die zum Produkt gehörenden FAQ auf unserer Homepage unter der Rubrik "Support": http://www.logox.de
Falls Sie dort keine Antwort auf Ihre Fragen finden, können Sie uns selbstverständlich auch per E-Mail erreichen: speech@gdata.de
LOGOX Application SDK 4 benötigt
Runtime Versionen von Logox 4
Die Systemanforderungen für Applikationen, die mit Logox Application SDK 4 erstellt wurden liegen deutlich unter denen des SDK.
LOGOX ist die einzigartige deutsche Sprachausgabe für Windows. Es wurde von G DATA in enger Zusammenarbeit mit dem Fachbereich Phonetik der Universität Saarbrücken entwickelt. Professor Dr. William J. Barry und seine Mitarbeiter haben in vieljähriger Arbeit mit der sogenannten Mikrosegmentsynthese eine völlig neuartige Sprachausgabe geschaffen und zum Patent angemeldet. Im Gegensatz zu vielen anderen Sprachausgaben, denen meistens synthetische Stimmen (Syntheziser) oder das Abspielen aufgezeichneter WAV-Dateien zugrundeliegen, funktioniert die Mikrosegmentsynthese folgendermaßen: Die menschliche Stimme wird in kleinste Einheiten - sogenannte Mikrosegmente - aufgeteilt. Diese Mikrosegmente können dann zu neuen Worten zusammengesetzt werden. Damit ist es möglich, eine menschliche Stimme beliebige Texte sprechen zu lassen. Der LOGOX Technologie zur Sprachausgabe bedienen sich inzwischen viele namhafte Softwareanbieter und mit LOGOX Application SDK 4 bietet G DATA Softwareentwicklern ein Tool, das professionelle Spracheinbindung in eigene Programme sehr komfortabel - und in LOGOX-Qualität - ermöglicht.
Bei Logox handelt es sich um eine deutsche Sprachsynthese nach dem konkatenativen Prinzip der Mikrosegmentsynthese. Dabei werden Dateien mit kleinen Sprachstücken (die Mikrosegmente) aneinander gehängt. Diese Mikrosegmente sind so ausgewählt, dass sie einen sparsamen Umgang mit Rechnerresourcen wie Speicherplatz und Rechenleistung ermöglichen. Dies wird u.a. durch das Zusammenfassen ähnlich klingender Sprachlaute erreicht.
Der Text wird zunächst in einzelne Wörter zerteilt und anschließend Wort für Wort weiterverarbeitet. Durch spezielle Lexika wird jeweils ein Wort in seine Aussprache umgewandelt. Durch diese Lexika werden die Wörter zudem mit weiteren Informationen versehen, so dass im folgenden Schritt die Satzstruktur analysiert werden kann, um einen melodischen und rhythmischen Verlauf zu erzeugen. Anschließend werden die „Ausspracheformen“ durch ein Regelwerk in eine Folge von Mikrosegmenten umgesetzt. Ein Mikrosegment ist ein kurzes Stück einer Aufnahme eines menschlichen Sprechers. Den Mikrosegmentfolgen werden die jeweiligen Mikrosegmentdateien zugeordnet. Für jedes Mikrosegment werden die Dauer- und Frequenzwerte gemäß der melodischen und rhythmischen Struktur berechnet und entsprechend zugewiesen. Die erzeugte Wellenform kann durch Audioeffekte manipuliert werden und wird dann über die Soundkarte oder in eine Datei ausgegeben.
Die Umwandlung von Text in Sprache erfolgt in Logox 4 in einzelnen Modulen, die hintereinander geschaltet sind. Alle Module zusammen bilden einen SpeechFont®. Folgende Module gibt es in Logox 4
Für die Ansteuerung von Logox 4 über das Speech Application Program Interface (kurz SAPI) von Microsoft stellen wir Ihnen gerne eine gesonderte Version der Speech Engine zur Verfügung. Diese Engine ist kompatibel zur Definition der SAPI 5.0 (siehe auch Anhang zu SAPI). Setzen Sie sich bitte direkt mit unserem Vertrieb in Verbindung: