Einführung - Logox Application SDK 4

Ein paar Worte vorab

Willkommen beim LOGOX Application SDK 4 (Software Development Kit). Wenn von künstlicher Sprachausgabe die Rede ist, denkt man an Computer aus einschlägigen Filmen wie etwa "Star Trek" oder "2001". Dort können Computer Sprache derart synthetisieren, dass sie perfekt menschlich wirkt. Wenn auch nicht hundertprozentig perfekt, so kommen moderne Sprachsynthesen wie Logox diesem Ideal schon sehr nahe, und das auf handelsüblichen PC`s. In vielen Applikationen kann deshalb eine Sprachausgabe bereits heute sehr gute Dienste leisten, da sie die Interaktion zwischen Mensch und Maschine um den auditiven Kanal erweitert und damit entscheidend erleichtern oder verbessern kann.
Diese Seiten beschreiben, wie Sie die LOGOX Sprachausgabe in Ihren eigenen Softwareprojekten nutzen können. Sie lernen einfache Ansteuerungsmechanismen kennen, die Sie z.B. in Visual C verwenden können.

Folgende Kenntnisse sind von Vorteil:

  • Visual C/C++ 6.0
  • WIN 32 Programmierung

  • Copyright

    Alle Rechte vorbehalten. Kein Teil dieses Buches/ dieser Seiten darf ohne schriftliche Genehmigung der G DATA Software AG reproduziert oder unter Verwendung elektronischer Systeme verarbeitet, vervielfältigt oder verbreitet werden. Die in diesem Buch verwendeten Markennamen sowie Soft- und Hardwarebezeichnungen unterliegen im allgemeinen dem warenzeichen-, marken- oder patentrechtlichen Schutz.

    Support

    Bei vielen Problemen können oft bereits Hilfetexte und Handbuch weiterhelfen. Die aktuelle Version des Handbuchs finden Sie im Internet unter folgender Adresse.
        http://www.logox.de/support/manual
    Bitte beachten Sie außerdem die zum Produkt gehörenden FAQ auf unserer Homepage unter der Rubrik "Support": http://www.logox.de
    Falls Sie dort keine Antwort auf Ihre Fragen finden, können Sie uns selbstverständlich auch per E-Mail erreichen: speech@gdata.de

    Systemvoraussetzungen

    LOGOX Application SDK 4 benötigt

    Rechner Pentium® ab 200 MHz, 64 MB Arbeitsspeicher, 200 MB freier Festplattenspeicher, am besten eine Soundblaster® kompatible 16 Bit Soundkarte und selbstverständlich Lautsprecher oder einen Kopfhörer.
    Betriebssysteme: Windows 9x,Me, 2000, NT 4.0 ab SP3
    Entwicklungsplatform empfohlen Microsoft Visual Studio ab Version 6.0

    Runtime Versionen von Logox 4

    Die Systemanforderungen für Applikationen, die mit Logox Application SDK 4 erstellt wurden liegen deutlich unter denen des SDK.

    Rechner Pentium® ab 200 MHz; 16 MB Arbeitsspeicher, bzw. 32 MB unter Windows 2000 und NT; freier Festplattenspeicher hängt von der Anzahl der mitgelieferten Stimmen und Lexika ab und liegt bei mindestens 5 MB. Am besten eine Soundblaster® kompatible 16 bit Soundkarte und selbstverständlich Lautsprecher oder einen Kopfhörer.
    Betriebssysteme: Windows 9x,Me, 2000, NT 4.0 ab SP3

    Wissenschaftliche Grundlagen

    LOGOX ist die einzigartige deutsche Sprachausgabe für Windows. Es wurde von G DATA in enger Zusammenarbeit mit dem Fachbereich Phonetik der Universität Saarbrücken entwickelt. Professor Dr. William J. Barry und seine Mitarbeiter haben in vieljähriger Arbeit mit der sogenannten Mikrosegmentsynthese eine völlig neuartige Sprachausgabe geschaffen und zum Patent angemeldet. Im Gegensatz zu vielen anderen Sprachausgaben, denen meistens synthetische Stimmen (Syntheziser) oder das Abspielen aufgezeichneter WAV-Dateien zugrundeliegen, funktioniert die Mikrosegmentsynthese folgendermaßen: Die menschliche Stimme wird in kleinste Einheiten - sogenannte Mikrosegmente - aufgeteilt. Diese Mikrosegmente können dann zu neuen Worten zusammengesetzt werden. Damit ist es möglich, eine menschliche Stimme beliebige Texte sprechen zu lassen. Der LOGOX Technologie zur Sprachausgabe bedienen sich inzwischen viele namhafte Softwareanbieter und mit LOGOX Application SDK 4 bietet G DATA Softwareentwicklern ein Tool, das professionelle Spracheinbindung in eigene Programme sehr komfortabel - und in LOGOX-Qualität - ermöglicht.

    Einblicke in die LOGOX-Sprachausgabe

    Bei Logox handelt es sich um eine deutsche Sprachsynthese nach dem konkatenativen Prinzip der Mikrosegmentsynthese. Dabei werden Dateien mit kleinen Sprachstücken (die Mikrosegmente) aneinander gehängt. Diese Mikrosegmente sind so ausgewählt, dass sie einen sparsamen Umgang mit Rechnerresourcen wie Speicherplatz und Rechenleistung ermöglichen. Dies wird u.a. durch das Zusammenfassen ähnlich klingender Sprachlaute erreicht.

    Arbeitsweise der Spracherzeugung

    Der Text wird zunächst in einzelne Wörter zerteilt und anschließend Wort für Wort weiterverarbeitet. Durch spezielle Lexika wird jeweils ein Wort in seine Aussprache umgewandelt. Durch diese Lexika werden die Wörter zudem mit weiteren Informationen versehen, so dass im folgenden Schritt die Satzstruktur analysiert werden kann, um einen melodischen und rhythmischen Verlauf zu erzeugen. Anschließend werden die „Ausspracheformen“ durch ein Regelwerk in eine Folge von Mikrosegmenten umgesetzt. Ein Mikrosegment ist ein kurzes Stück einer Aufnahme eines menschlichen Sprechers. Den Mikrosegmentfolgen werden die jeweiligen Mikrosegmentdateien zugeordnet. Für jedes Mikrosegment werden die Dauer- und Frequenzwerte gemäß der melodischen und rhythmischen Struktur berechnet und entsprechend zugewiesen. Die erzeugte Wellenform kann durch Audioeffekte manipuliert werden und wird dann über die Soundkarte oder in eine Datei ausgegeben.

    SpeechFonts®

    Die Umwandlung von Text in Sprache erfolgt in Logox 4 in einzelnen Modulen, die hintereinander geschaltet sind. Alle Module zusammen bilden einen SpeechFont®. Folgende Module gibt es in Logox 4

  • Preparser:
  • Normalisierung des Textes; Herausfiltern von Zeichen, die im Lexikon nicht verwendet werden; Gliederung des Textes in Sätze; Erkennung von Textmustern und textuelle Umwandlung von z.B. Datum, Abkürzungen, Zahlenformaten
  • TextFX:
  • Textuelle Ersetzungen (optional)
  • Parser:
  • Enthält das Lexikon; Erzeugt die Aussprache; Satzanalyse; Bestimmung von rhythmischen und melodischen Einheiten
  • PhonFX:
  • Textuelle Ersetzungen bei den Lauten (optional)
  • Intonation:
  • Bestimmt die Tonverläufe an Akzenten und Grenzen von Tongruppen
  • Voice:
  • Enthält die Stimmdaten und die Umwandlungsregeln von Lauten in Mikrosegmente
  • Mseg2Audio: 
  • Berechnung der Dauerwerte für Mikrosegmente; Berechnung der Frequenzwerte für Mikrosegmente; Umrechnung in Audiodaten
  • AudioFX:
  • Audioeffekte wie Reverb, Echo, Chorus, Flanger, Equalizer uvm. (optional)
  • AudioOut:
  • steuert die Audioausgabe (z.B. Soundkarte, Datei, ISDN-Karte)

    LOGOX 4 und die SAPI 5.0

    Für die Ansteuerung von Logox 4 über das Speech Application Program Interface (kurz SAPI) von Microsoft stellen wir Ihnen gerne eine gesonderte Version der Speech Engine zur Verfügung. Diese Engine ist kompatibel zur Definition der SAPI 5.0 (siehe auch Anhang zu SAPI). Setzen Sie sich bitte direkt mit unserem Vertrieb in Verbindung:

    per e-mail: b-vertrieb@gdata.de
    per Telefon: (0234) 9762 170
    per Fax: (0234) 9762 299
    per Post: G DATA Software AG
    Königsallee 178b
    44793 Bochum