Proprietäre Logox 4 Speechtags

Die folgenden Speechtags sind proprietäre Steuerzeichen, die es erlauben, die Sprachausgabe über das von der SAPI vorgesehene Maß hinaus zu beeinflussen. So können Sprecherwechsel veranlasst, Pausen eingefügt, Effekte gesteuert und die Sprechweise (Aussprache, Sprechmelodie, Phrasierung) beeinflusst werden.

Übersicht

Speechtag

Beschreibung

Wertebereich

BSPD

Grundlegende Sprechgeschwindigkeit eines Sprechers.

10 - 400%

SPD

Sprechgeschwindigkeit relativ zu BSPD

10 - 400%

BVOL

Grundlegende Lautstärke eines Sprechers

-100dB - +12dB
0 - 400 %

VOL

Lautstärke relativ zu BVOL

-100dB - +12dB
0 - 400 %

BPIT

Grundlegende Basistonhöhe der Stimme

10 - 800 Hz

PIT

Basistonhöhe relativ zu BPIT

10 - 800 Hz

MIDI

MIDI Notenwert als Notenname einer Oktave oder als Zahl

e-2 - g#4
10 - 800 Hz

BINT

Grundlegender Stimmumfang für einen Sprecher

0 - 400%

INT

Stimmumfang relativ zu BINT

0 - 400%

BROUGH

Grundlegende Rauheit einer Stimme

0 - 100 Hz

ROUGH

Rauheit relativ zu BROUGH

0 - 100 Hz

RST

Setzt die Werte von SPD, VOL, PIT, INT und ROUGH zurück

keine

PAU

Setzt eine Pause

0 - 5000 ms

VOICE

Wechselt den SpeechFont® inkl. Stimme und allen zugehörigen Einstellungen.

SpeechFont®

EMPH

Das nächste Wort ist hervorgehoben (emphatisch).

keine

POS

Bestimmt die Wortart des folgenden Wortes.

NOUN, NAME, VERB, ADJ, NUMB, PRON, ART, PREP, ADV, CONJ, PART, INTJ

FW

Das folgende Wort wird als Funktionswort betrachtet und abgeschwächt.

keine

CTX

Bestimmt, wie ein Text interpretiert wird.

SPELL

MARK

Marker, der eine Notification schickt, wenn die Position im Text erreicht ist.

0 - 65535

COM

Kommentar, dieser Text wird nicht vorgelesen.

beliebiger Text außer "#"

SAMPA

Aussprache gemäß der SAMPA-Konvention.
Ausführliche Beschreibung

ASCII Zeichen

AFX

Parametersatz für die Audioeffekte
Ausführliche Beschreibung

Control Code

ACC

Setzt einen Akzent auf das folgende Wort.

H*, L*, L+H*, H+L*, L*+H, H*+L, H+!H*, !H*, L*, L+!H*, !H+L*, L*+!H, !H*+L, !H+!H*, ^H*, L*, L+^H*, ^H+L*, L*+^H, ^H*+L, ^H+!H*

NOACC

Das nächste Wort ist nicht akzentuiert.

keine

LASTACC

Das nächste Wort trägt den letzten Akzent im Satz.

keine

IP

Setzt eine große Grenze, die sich melodisch auswirkt.

L-%, L-H%, H-%, H-H%, H-^H% L-%, L-!H%, !H-%, !H-^H% L-%, L-^H%, ^H-%, ^H-^H%

NOIP

Unterbindet das Setzen einer großen melodischen Grenze an dieser Stelle im Text.

keine

AP

Setzt eine kleine Grenze, die melodisch interpretiert wird.

L-, H-, !H-, ^H-

NOAP

Unterbindet das Setzen einer kleinen melodischen Grenze an dieser Stelle im Text.

keine

RP

Setzt eine kleine Grenze, die sich nur rhythmisch auswirkt.

keine

NORP

Unterbindet das Setzen einer rhythmische Grenze an dieser Stelle im Text.

keine



Syntax und allgemeine Eigenschaften

Während die SAPI 5 Tags dem XML-Standard folgen und oft mit Bereichen arbeiten, sind die Logox 4 spezifischen Speechtags eher punktuell wirksam. Sie gelten ab der Stelle, wo sie stehen, und wirken auf ein umliegendes Wort oder in manchen Fällen so lange, bis eine neue Anweisung folgt.

Ein Speechtag beginnt unmittelbar nach einem Rautenzeichen "#" und endet mit einem Rautezeichen "#" direkt nach dem letzten Argument. Innerhalb der Rauten können Leerzeichen auftreten. Nach der ersten Raute steht direkt der Tagname (ohne Leerzeichen). Groß- und Kleinschreibung der Tagbezeichnungen sowie deren Attribute und Werte wird in zwei Formaten akzeptiert: Alles klein oder alles groß. Die einzige Ausnahme bilden die Einheiten Hertz und Dezibel, die auch als "Hz" und "dB" akzeptiert werden.

Die Werte stehen nach einem Gleichheitszeichen "=", das auf den Tagnamen folgt. Die Werte können entweder absolut oder relativ angegeben werden. Absolut gilt als Default und wird nicht weiter gekennzeichnet. Wenn ein Wert relativ zu lesen ist, wird der Zahl ein "R" vorangestellt.

Die Einheit des angegebenen Wertes wird durch ein nachgestelltes Kürzel bestimmt:

Prozentangaben erfolgen in 1% Schritten. Die Werte für Hz, st und dB können auf eine Nachkommastelle genau angegeben werden. Bei Werten mit einer Nachkommastelle wird diese durch einen Punkt "." getrennt (kein Komma!!).

Unbekannte oder falsch aufgebaute Tags werden von Logox 4 ignoriert und im schlimmsten Fall vorgelesen.

Beispiele:

#PAU=500#
#pau=500#
#PIT=120Hz#
#PIT=R-20.4Hz#
#VOL=87%dB#

Die Beschreibung der Speechtags hat für jedes Speechtag den gleichen Aufbau. Zunächst wird dessen Syntax beschrieben. Dabei gelten folgende Konventionen:

Beispiel:

#SPD = short signedSpeed [%]#

Nach einer Beschreibung folgen Angaben über die möglichen Werte, Beispiele und Verweise auf ähnliche Speechtags.

zur Übersicht



BSPD

#BSPD = short signedBaseSpeed [%]#

Jede Stimme hat einen voreingestellten Wert für die Sprechgeschwindigkeit. Mit BSPD kann dieser grundlegende Wert geändert werden.
BSPD ist nur ein Bestandteil des endgültigen Sprechgeschwindigkeitswerts. Außer BSPD beeinflusst auch der Wert des Speechtags SPD und ggf. der per Methode SetSPD gesetzte Wert die Sprechgeschwindigkeit. Alle drei Werte werden miteinander multipliziert und durch 10000 dividiert. Das Ergebnis ist die tatsächlich umgesetzte Sprechgeschwindigkeit. Ein Beispiel:

BSPD = 120%; SPD = 80%; SetSPD = 150%
Resultierende Sprechgeschwindigkeit: 120x80x150/10000 = 144

BSPD sollte nur verändert werden, wenn die Voreinstellungen für Ihre Zwecke nicht adäquat sind. Das variablere Speechtag, das sich auch für häufige Wechsel der Sprechgeschwindigkeit eignet, ist SPD.

Werte

Die Werte für die Sprechgeschwindigkeit können nur prozentual angegeben werden. Ein Wert von 200% verdoppelt die Sprechgeschwindigkeit, ein Wert von 50 % halbiert sie. Zulässige Werte liegen zwischen 10% und 400%. Sinnvolle Werte liegen zwischen 66% und 200%.

Beispiele

#BSPD=120%#

Siehe auch

SPD, BPIT, BVOL

zur Übersicht



SPD

#SPD = short signedSpeed [%]#
#SPD = R short signedSpeed [%]#

SPD ist das Speechtag, das normalerweise für Veränderungen der Sprechgeschwindigkeit benutzt werden sollte. SPD bezieht sich auf den Wert von BSPD. Dabei wird der Wert von SPD mit BSPD multipliziert. Dadurch wirken sich die Änderungen mittels SPD auch bei unterschiedlichen Sprechern immer gleich aus.
Die Werte können aber nicht nur absolut angegeben werden, sondern auch relativ zum vorhergehenden Wert. Dem Wert wird dann ein R vorangestellt. Mit relativen Einstellungen wird die Sprechgeschwindigkeit verlangsamt oder beschleunigt unabhängig von den gerade aktuellen Einstellungen des Benutzers. Der aktuelle Wert wird um den angegebenen Prozentsatz variiert. Der aktuelle Wert (BSPD x Benutzereinstellung / 100) wird um den relativen Wert von SPD subtrahiert. Ein Beispiel:

 BSPD = 120%; SetSPD = 100%; SPD = R-50%
 Aktuelle Sprechgeschwindigkeit: 120 x 100 / 100 = 120
 Resultierende Sprechgeschwindigkeit: 120 - 50  = 70
 

Werte

Die Werte werden prozentual angegeben. 200 % führt zu einer Verdoppelung der Sprechgeschwindigkeit und 50% zu einer Halbierung. Zulässige Werte liegen zwischen 10% und 400%. Sinnvolle Werte liegen zwischen 66% und 200%.

Beispiele

#SPD=80%#

setzt die neue Sprechgeschwindigkeit auf 80% der Geschwindigkeit von BSPD.

#SPD=R40%#

setzt die neue Sprechgeschwindigkeit um 40% schneller.

#SPD=R-20%#

verringert die Sprechgeschwindigkeit um 20%

Siehe auch

BSPD, RST

zur Übersicht



BVOL

#BVOL = short signedBaseVol [dB,%]#

Für jeden Sprecher ist eine Grundlautstärke vordefiniert. BaseVolume definiert die Grundlautstärke für einen Sprecher neu. Normalerweise sollte für Änderungen der Lautstärke das Speechtag VOL verwendet werden. Mit beiden sollte die Lautstärke vornehmlich abgesenkt werden. Die Stimmen sind so optimiert, dass sie möglichst laut sind. Wenn die Lautstärke übermäßig angehoben wird, kann es zu Verzerrungen des Audiosignals kommen. Auch die Lautstärke errechnet sich aus 3 Parametern: Einstellungen durch einen Benutzer oder den Entwickler durch die Methode SetVOL, der Grundlautstärke BVOL und der relativen Lautstärke aus VOL. Die Prozentwerte werden miteinander multipliziert und durch 10000 geteilt (vgl. BSPD), die Dezibelwerte der einzelnen Komponenten werden addiert. Ein Beispiel:

SetVOL = -1.5 dB; BVOL = 1.2 dB; VOL = -6 dB
Resultierende Lautstärke: -1.5 + 1.2 -4.7 = -5 dB

Werte

Die Werte können in Dezibel (dB) oder prozentual (%) angegeben werden.

Intern wird mit Dezibelwerten gerechnet. Der Wertebereich liegt zwischen -100 dB und +12 dB in 0.1 dB Schritten. Eine Absenkung um 6 dB führt zu einer Halbierung der Energie des Signals. Eine Anhebung um 6 dB zu einer Verdoppelung der Energie. Sinnvolle Werte liegen zwischen -6dB und +1dB.

Entsprechend ist die Prozentskala aufgeteilt. 100% entsprechen 0dB, 200% + 6db und 50% -6dB. Die Prozentwerte können in 1%-Schritten angegeben werden. Gültige Werte liegen zwischen 10% und 400%. Sinnvolle Werte liegen im Bereich von 50% - 120%.

Beispiele

#BVOL=-3.2dB#
#BVOL=50%#

Siehe auch

VOL, BSPD

zur Übersicht



VOL

#VOL = short signedVol [dB,%]#
#VOL = R short signedVol [dB,%]#

VOL setzt die Lautstärke bezogen auf die aktuelle Lautstärke, die sich aus der per Methode gesetzten Lautstärke (SetVOL) und der Basislautstärke (BVOL) zusammensetzt. Lautstärkeänderungen sollten vornehmlich mit VOL vorgenommen werden. Die Änderungen können nicht nur absolut vorgenommen werden, sondern auch relativ. Relative Änderungen werden durch ein R vor dem Lautstärkewert gekennzeichnet.

Werte

Die Werte können in Dezibel (dB) oder prozentual (%) angegeben werden.

Intern wird mit Dezibelwerten gerechnet. Der Wertebereich liegt zwischen -100 dB und +12 dB in 0.1 dB Schritten. Eine Absenkung um 6 dB führt zu einer Halbierung der Energie des Signals. Eine Anhebung um 6 dB zu einer Verdoppelung der Energie. Sinnvolle Werte liegen zwischen -6dB und +1dB.

Entsprechend ist die Prozentskala aufgeteilt. 100% entsprechen 0dB, 200% + 6db und 50% -6dB. Die Prozentwerte können in 1%-Schritten angegeben werden. Gültige Werte liegen zwischen 10% und 400%. Sinnvolle Werte liegen im Bereich von 50% - 120%.

Die Lautstärke lässt sich nicht nur absolut setzen, sondern auch ausgehend vom aktuellen Lautstärkewert. Absolute Werte berechnen sich nach folgendem Schema:

SetVOL = -1.5 dB; BVOL = 1.2 dB; VOL = -6 dB
Resultierende Lautstärke: -1.5 + 1.2 -4.7 = -5 dB

Relative Werte werden ausgehend von der aktuellen Lautstärke berechnet. Ein Prozentwert bezieht sich dann auf die Summe der dB-Werte von SetVOL und BVOL und berechnet gemäß der Prozentskala den neuen Wert. Dieser Wert wird wiederum mit VOL verrechnet. Ein Beispiel:

SetVOL = -2.4 dB; BVOL = 1.2 dB; VOL = -50%

Aktuelle Lautstärke: -2.4 + 1.2 = -1.2 dB
Umrechnung: 50% entspricht 6 dB
Resultierende Lautstärke: -1.2 - 6dB = -7.2 dB

Beispiele

#VOL=2.4dB#
#VOL=R-20%

Siehe auch

BVOL, RST, BSPD, BPIT

zur Übersicht



BPIT

#BPIT = short signedBasePitch [Hz]#

Genauso wie für Lautstärke und Sprechgeschwindigkeit gibt es auch für die Basistonhöhe Voreinstellungen für jeden Sprecher. Diese vordefinierten Werte sind die Basis für die interne Berechnung der Sprechmelodie. Dieser Wert sollte also nur mit Bedacht geändert werden. Normalerweise sollten Änderungen der Tonhöhe mit dem Speechtag PIT vorgenommen werden.

Werte

Die Basistonhöhe kann nur in der Hertz-Skala angegeben werden.

Hertz  Hz-Werte sind die interne Berechnungsgrundlage. Zulässige Werte liegen zwischen 10 Hz und 800 Hz. Sie sind zugänglich in 0.1 Hz Schritten.
Da die Hz-Skala ein lineares Maß für die Frequenz darstellt, kann der gleiche Unterschied in Hz in verschiedenen Frequenzbereichen zu einem unterschiedlichen Höreindruck führen. Sinnvolle Werte hängen vom Sprecher ab. Für Männerstimmen liegen sie zwischen 70 und 130 Hertz, für Frauenstimmen zwischen 140 und 240 Hertz.

Beispiele

#BPIT=150Hz#

Siehe auch

PIT, MIDI, BVOL, RST, BSPD

zur Übersicht



PIT

#PIT = short signedPitch [Hz,ST,%]#

Die mittlere Tonhöhe für einen Sprecher berechnet sich aus den gesetzten Werten (SetPIT), der Basistonhöhe (BPIT) und dem relativen Wert PIT. Die Werte für PIT können nicht nur absolut gesetzt werden, sondern auch relativ zum gerade aktuellen Wert.

PIT sollte für Änderungen der Tonhöhe verwendet werden, nicht zuletzt deshalb, weil die vorherigen Werte wieder hergestellt werden können, indem man PIT auf 100% setzt.

Werte

Die Werte für PIT können in verschiedenen Skalen angegeben werden:

Hertz  Hz-Werte sind die interne Berechnungsgrundlage. Zulässige Werte liegen zwischen 10 Hz und 800 Hz. Sie sind zugänglich in 0.1 Hz Schritten. Die resultierende Frequenz muss in diesem Bereich liegen.
Da die Hz-Skala ein lineares Maß für die Frequenz darstellt, kann der gleiche Unterschied in Hz in verschiedenen Frequenzbereichen zu einem unterschiedlichen Höreindruck führen. Sinnvolle Werte hängen vom Sprecher ab. Für Männerstimmen liegen sie zwischen 70 und 130 Hertz, für Frauenstimmen zwischen 140 und 240 Hertz.
ST Halbtöne (semitones) sind ein logarithmisches Maß für die Frequenz. Werte in Halbtönen lassen sich auch auf unterschiedliche Tonlagen übertragen. Die Halbtöne brauchen immer einen Bezugspunkt, von dem aus sie in Hertzwerte umgerechnet werden.
Zulässige Werte liegen zwischen -24 und +24 Halbtönen in 0.1 ST Schritten. Sinnvolle Werte liegen zwischen -4 und +4 Halbtönen. Größere Änderungen führen zu klanglichen Einbußen.

Beispiele

#PIT=R-2.5st#
#PIT=25Hz#

Siehe auch

BPIT, MIDI, RST

zur Übersicht



MIDI

#MIDI = short signedMIDINote short signedOktav#
#MIDI = short unsignedMIDICode#

Die Tonhöhe kann in Logox auch über MIDI Notenwerte bestimmt werden. Das ist besonders sinnvoll, wenn Lieder gesungen werden sollen.

Wichtig: Damit die Notenwerte auch auf einer Tonhöhe gehalten werden, muss der Stimmumfang mit dem Speechtag #INT=0%# auf 0 gesetzt werden.

Die MIDI-Notenwerte können in zwei Formaten angegeben werden:

Notenwert im Format Note-Oktav

#MIDI=<note><oktav>#

Notenwert im MIDI-Zahlenwert der Note

#MIDI=<code>#

Werte

<note> kann folgende Werte haben:

"c", "c#", "db", "d", "d#", "eb", "e", "f", "f#", "gb", "g", "g#", "ab", "a", "a#", "bb", "b" "c", "cis", "des", "d", "dis", "es", "e", "f", "fis", "ges", "g", "gis", "as", "a", "ais", "bb", "h"

<oktav> ist eine Oktavnummer zwischen -2 und 8.
Es gilt die Beschränkung auf Notenwerte zwischen 10 Hz und 800 Hz. Das ist der in MIDI definierte Notenbereich zwischen f-2 und g#4. Werte unterhalb von f-2 werden mit 10 Hz abgespielt. Werte, die höher als g#4 liegen, mit einer Frequenz von 800 Hz.

<code> ist ein Wert zwischen 5 und 80, der den durch MIDI spezifizierten Notenbereich (F-2 - G#4) abdeckt. Werte unterhalb von f-2 werden mit 10 Hz abgespielt. Werte, die höher als g#4 liegen mit einer Frequenz von 800 Hz.

Hinweis: In diesem Tag können innerhalb der Rautenzeichen des Tags auch die Rautenzeichen der Notennamen vorkommen. Das Tag endet in diesem Fall an der dritten Raute.

Beispiele

#MIDI=cis-1#
#MIDI=Bb3#
#MIDI=h2#
#MIDI=fis3#
#MIDI=58#

Siehe auch

BPIT, PIT

zur Übersicht



BINT

#BINT = signed shortBaseInt [%]#

Der Umfang der Sprechmelodie kann mit BINT und INT bestimmt werden. BINT bezieht sich auf den voreingestellten Basiswert, der zusammen mit SetINT (per Methode gesetzt) und INT für den endgültigen Stimmumfang verantwortlich ist (vgl. BSPD).
Der Stimmumfang trägt zur Emotion bei. Ein kleiner Stimmumfang wird mit Trauer und Langeweile assoziiert. Ein erweiterter Stimmumfang wird als lebhaft und erregt wahrgenommen.
Änderungen des Stimmumfangs sollten normalerweise mit INT erfolgen.

Werte

Die Werte werden prozentual angegeben. Bei 100% findet keine Veränderung statt. Bei Werten unterhalb von 100% wird der Stimmumfang verringert, bei Werten darüber wird er erweitert (hoch wird höher und tief wird tiefer).
Gültige Werte liegen zwischen 0% und 400%. 200% verdoppelt den Stimmumfang, 50% halbiert ihn. Sinnvolle Werte liegen zwischen 30% und 150%.

Beispiele

#BINT=60%#

Siehe auch

INT, BSPD, BPIT, PIT

zur Übersicht



INT

#INT = signed shortIntRange [%]#

Der Umfang der Sprechmelodie kann mit BINT und INT bestimmt werden. INT ist ein relativer Wert, der sich auf BINT und SetINT (per Methode gesetzte Werte) bezieht.
Der Stimmumfang trägt zur Emotion bei. Ein kleiner Stimmumfang wird mit Trauer und Langeweile assoziiert. Ein erweiterter Stimmumfang wird als lebhaft und erregt wahrgenommen.
Änderungen des Stimmumfangs sollten mit INT erfolgen, da hier auch relative Werte angegeben werden können und so die Original-Einstellungen wieder hergestellt werden können.

Werte

Die Werte werden prozentual angegeben. Bei 100% findet keine Veränderung statt. Bei Werten unterhalb von 100% wird der Stimmumfang verringert und bei Werten darüber wird er erweitert (hoch wird höher und tief wird tiefer).
Gültige Werte liegen zwischen 0% und 400%. 200% verdoppelt den Stimmumfang, 50% halbiert ihn. Sinnvolle Werte liegen zwischen 30% und 150%.

Die Werte können aber nicht nur absolut angegeben werden, sondern auch relativ zum vorhergehenden Wert. Dem Wert wird dann ein R vorangestellt. Die endgültigen Werte für den Stimmumfang berechnen sich nach dem gleichen Muster, wie bei BSPD und SPD.

Beispiele

#INT=150%#

Siehe auch

BINT, RST, BSPD, SPD

zur Übersicht



BROUGH

#BROUGH = unsigned shortBaseRough [Hz]#

Dieser Parameter macht die Stimme rau. Das kann am Ende eines Satzes aber manchmal beabsichtigt sein (John Wayne).
Wie bei BPIT und BVOL setzt sich der Wert für die Rauheit aus 3 Werten zusammen: BROUGH, ROUGH und SetROUGH (per Methode gesetzt). BROUGH ist der voreingestellte Wert für eine Stimme. Änderungen der Rauheit sollten mit ROUGH erfolgen.

Werte

Der Wertebereich ist 0 bis 100 Hz in 0.1 Hz Schritten. Die Variation zwischen den einzelnen Perioden eines Sprechers liegt im Bereich von 1 - 3 Hz. Raue Stimmen werden durch Werte zwischen 20 und 100 Hz erzeugt. Die Natürlichkeit des Effektes kann noch erhöht werden, wenn zusätzlich in extrem rauen Passagen die mittlere Tonhöhe mit INT abgesenkt wird.

Beispiele

#BROUGH=1.5Hz#
#BROUGH=R15Hz#

Siehe auch

ROUGH, BVOL

zur Übersicht



ROUGH

#ROUGH = unsigned shortRough [%]#

Dieser Parameter macht die Stimme rau. Das kann am Ende eines Satzes aber manchmal beabsichtigt sein (John Wayne).

Werte

Der Wertebereich ist 0 bis 100 Hz in 0.1 Hz Schritten. Die natürliche Variation liegt im Bereich von 1 - 3 Hz. Raue Stimmen werden durch Werte zwischen 20 und 100 Hz erzeugt.

Beispiele

#ROUGH=90Hz#
#ROUGH=R-0.5Hz#

Siehe auch

BROUGH, RST ,VOL

zur Übersicht



RST

#RST strType strType#
#RST#

Setzt die Werte von VOL, PIT, SPD, INT und ROUGH zurück. Wenn keine Argumente übergeben werden, wird alles zurückgesetzt. Wenn nur einzelne akustische Merkmale zurückgesetzt werden sollen, stehen sie hinter einem Gleichheitszeichen durch Leerzeichen voneinander getrennt.

Werte

VOL setzt die Lautstärke zurück auf den Wert von BVOL
PIT setzt die Tonhöhe zurück auf den Wert von BPIT
SPD setzt die Sprechgeschwindigkeit auf den Wert von BSPD
INT setzt den Sprechstimmumfang auf den Wert von BINT
ROUGH setzt die Rauheit der Stimme auf den Wert von BROUGH

Beispiele

#RST#
#RST=PIT VOL#

Siehe auch

VOL, PIT, SPD, INT, ROUGH

zur Übersicht



PAU

#PAU = unsigned longDauer#

Fügt an der gesetzten Stelle im Text eine Pause ein. Dieses Speechtag setzt zusätzliche Pausen. Pausen innerhalb und am Ende von Sätzen sind unabhängig davon.

Werte

Dauer der Pause in Millisekunden (ms). Gültige Werte liegen zwischen 0 und 5000 ms. Für längere Pausen müssen mehrere Speechtags gesetzt werden.

Beispiele

#PAU=500#

Fügt eine Pause von 500 ms ein.

Siehe auch

IP, AP

zur Übersicht



VOICE

#VOICE = NAME:strVoiceName#
#VOICE = GENDER:strGender AGE:strAge LANG:short unsignedLangCode#
#VOICE = GENDER:strGender AGE:strAge#
#VOICE = GENDER:strGender#
#VOICE = AGE:strAge#

Sprecherwechsel erfolgen mit dem Speechtag VOICE. Dazu können entweder bestimmte Stimmen angefordert werden, oder bestimmte Eigenschaften von Sprechern wie Geschlecht, Alter und Sprache angegeben werden.

Werte

NAME Der Sprechername ist für jeden SpeechFont® festgelegt und setzt sich aus drei Bestandteilen zusammen:
  • CompanyID:  3 Zeichen, z.B.: "LGX"
  • SprachID:   2 Zeichen (nach ISO 639), z.B.: "DE"
  • SprecherID: bis zu 8 Zeichen, z.B.: "BILL"

Während die ersten beiden Bestandteile festgelegt sind, darf die SprecherID beliebige Buchstaben, Ziffern, sowie die Sonderzeichen "-", "_" und "." enthalten.


Folgende Sprechernamen stehen momentan zur Verfügung:
  • LGX.DE.BILL
  • LGX.DE.SILKE
  • LGX.DE.SILKEN
  • LGX.DE.MICHAEL
  • LGX.DE.MANDY
  • LGX.DE.MARTIN
  • LGX.DE.KATHI
GENDER
  • M (männlich)
  • F (weiblich)
AGE

Folgende Altersgruppe können angewählt werden:

CHILD Kinderstimme
TEEN Jugendliche Stimme
ADULT Stimme eines Erwachsenen
SENIOR    Stimme eines Senioren
LANG

Sprachcode gemäß der Windows LocaleID. Hier eine Auswahl der Sprachcodes:
0407  Deutsch
0409  US-Englisch
0809  UK-Englisch
040C  Französisch
0C0A  Spanisch
Momentan unterstützt Logox nur deutsch.

Beispiele

#VOICE=NAME:LGX.DE.BILL GENDER:M AGE:SENIOR LANG:0407#
#VOICE=NAME:LGX.DE.BILL#
#VOICE = GENDER:M AGE:SENIOR#

Siehe auch

zur Übersicht



EMPH

#EMPH#

Das folgende Wort ist hervorgehoben (emphatisch). Dies wird erreicht, indem die Dauer der Laute des Wortes etwas verlängert wird, und das Wort einen Akzent bekommt.

Werte

Dieses Tag nimmt keine Werte.

Beispiele

#EMPH#

Siehe auch

ACC, LASTACC, NOACC

zur Übersicht



POS

#POS = strWortart#

Für die Berechnung der Aussprache, der Sprechmelodie und des Sprechrhythmus ist es hilfreich, wenn die Wortart eines Wortes bekannt ist. Sie kann mit dem Speechtag POS bestimmt werden.

Werte

Wortart
 
Bedeutung
 
Beispiel
 
NOUN Substantiv, Nomen, Hauptwort Hase
NAME Eigenname Aida
VERB Verb, Tuwort laufen
ADJ Adjektiv, Eigenschaftswort grün
NUMB Zahlwort zwölf
PRON Pronomen sie
ART Artikel der
PREP Präposition nach
ADV Adverb damals
CONJ Konjunktion weil, und
PART Partikel vielleicht
INTJ Interjektion Ach!

Beispiele

#pos=NOUN#

Siehe auch

FW, SAMPA

zur Übersicht



FW

#FW#

Eine sehr grobe Untergliederung von Wortarten ist die Unterscheidung zwischen Inhaltswörtern, die wichtige Informationen tragen, und Funktionswörtern, die keine semantischen Informationen tragen und daher oft reduziert ausgesprochen werden. Inhaltswörter sind Substantive, Adjektive, Verben und Adverbien. Zu den Funktionswörtern zählen Präpositionen, Artikel und Konjunktionen. Ein Funktionswort wird reduzierter ausgesprochen, und die Dauer seiner Laute wird verkürzt.
FW bezieht sich auf das nachfolgende Wort, das als Funktionswort verarbeitet wird.

Werte

FW nimmt keine Werte.

Beispiele

#FW#

Siehe auch

POS, SAMPA

zur Übersicht



CTX

#CTX = strContext#
#CTX#

CTX beschreibt Kontexte und Formate, die zur Interpretation des Textes benutzt werden. Momentan wird nur ein Format unterstützt: SPELL (buchstabieren). Damit ist es möglich, Teile eines Textes buchstabieren zu lassen.

Werte

CTX wirkt ab der Position, wo es gesetzt wurde, so lange bis ein erneutes CTX Speechtag gesetzt wird. Ein Speechtag ohne Argumente führt zurück zur normalen Textinterpretation.

SPELL Buchstabieren von Wörtern; Zahlen werden in einzelnen Ziffern vorgelesen.

Beispiele

#CTX=SPELL# Hallo. #CTX# Das ist ein Test.

Das Wort "Hallo" wird buchstabiert. Der darauf folgende Satz wird normal gesprochen.

Siehe auch

zur Übersicht



MARK

#MARK = longMark#

MARK setzt einen Bookmark, der synchron durch ITTSBufNotifySink zurückgemeldet wird. Dadurch ist es möglich, Markierungen im Text zu setzen. Wenn sie erreicht werden, erfolgt eine Rückmeldung, und es können entsprechende Aktionen gestartet werden. Bei ausgiebigem Gebrauch von MARK empfiehlt sich die Verwendung von Kommentaren mit COM.

Werte

MARK nimmt einen Zahlenwert. Gültige Werte liegen zwischen 0 und 65535.

Beispiele

#MARK=1#

Siehe auch

COM

zur Übersicht



COM

#COM = strComment#

COM erlaubt, in den zu sprechenden Text Kommentare zu schreiben, die nicht vorgelesen werden. Dies ist z.B. sinnvoll, um Markierungen zu kommentieren.

Werte

Alle Zeichen außer "#"

Beispiele

#COM=Grafik Jahresbilanz einblenden#

Siehe auch

MARK

zur Übersicht



SAMPA

#SAMPA = strSAMPA;strWort;strWortart#
#SAMPA = strSAMPA;strWort;#
#SAMPA = strSAMPA;;strWortart#
#SAMPA = strSAMPA;;#

Die Aussprache kann in Logox 4 nach dem SAMPA Standard bestimmt werden. Dabei müssen neben der Aussprache auch Silbengrenzen und Wortakzente gesetzt werden, sonst können Fehler in der Sprechmelodie und beim Sprechrhythmus auftreten.

Ausführliche Beschreibung

Werte

Hier werden nur die Werte aufgelistet. Eine ausführliche Beschreibung des SAMPA-Alphabets finden Sie in der Darstellung des SAMPA-Speechtags: vgl. Werte für die SAMPA-Umschrift.

Vokale a, A, {, E, 8, e, I, i,
O, o, U, u, 9, 2, Y, y,
@, 6,
a~, O~, E~, 9~,
(ai),(au), (oy), (E6), (ei), (ou)
Unsilbische Vokale i=, o=, 6= u=
Konsonanten f, v, s, z, T, D, C, S, x,
m, n, N, l, r,
P_, p, B_, b, T_, t, D_, d, K_, k, G_, g,
(ts), (tS), (dZ), (pf),
h, ?, Q
Silbische Konsonanten m=, n=, N=, l=
Diakritika :, ', ", -

Beispiele

#SAMPA=v'Aks-tu:-b@;Wachstube;NOUN#
#SAMPA=v'Aks-tu:-b@;Wachstube;#
#SAMPA=v'Aks-tu:-b@;;#

Siehe auch

POS

zur Übersicht



AFX

#AFX = strAudioEffekt#

Logox 4 bietet eine Reihe von Audioeffekten:

Balance Positioniert die Stimme im Stereopanorama
Chorus Zufällige kurze Echos, die die Stimme vervielfachen
Delay Echo
Equalizer   Anhebung und Absenkung in verschiedenen Frequenzbereichen
Flanger Moduliertes Echo zur Verfremdung von Stimmen
Gain Anheben und Absenken der Lautstärke
Phaser Phasenverschiebung des Signals
Reverb Halleffekt
Shelving Anheben und Absenken von hohen und tiefen Frequenzen

Diese Audioeffekte können umfassend per Steuerzeichen angesteuert werden. Die resultierenden Parametersätze sind allerdings sehr komplex.

Werte

Die Menge der Steuerzeichen ist sehr umfangreich und deren Anordnung äußerst komplex. Daher können Steuerzeichen mit dem AudioFXEditor erstellt und über die Zwischenablage in den Text kopiert werden. Eine ausführliche Beschreibung von AudioFXEditor.exe finden sie hier.

WICHTIG: Audioeffekte ausschalten!!
Bei der Verwendung von Speechtags zur Ansteuerung von Audioeffekten müssen am Ende des Textes die Audioeffekte wieder ausgeschaltet werden, sonst bleibt der Effekt bis zur Wahl eines neuen Sprechers auch für andere Texte erhalten. Das geschieht indem man #AFX# ans Ende des Textes schreibt.

Beispiele

#AFX=DL70=1(Delay):$71=100.000000(Delay,0,1000),$72=0.400000(Mix,0,1),$73=0.000000(Feedback,0,1);#
Hier spricht Logox 4 mit Echo. #AFX#

Hiermit wird ein Echoeffekt eingefügt, und am Ende des Textes wird der Effekt wieder ausgeschaltet.

Siehe auch

VOL

zur Übersicht