Die folgenden Speechtags sind proprietäre Steuerzeichen, die es erlauben, die Sprachausgabe über das von der SAPI vorgesehene Maß hinaus zu beeinflussen. So können Sprecherwechsel veranlasst, Pausen eingefügt, Effekte gesteuert und die Sprechweise (Aussprache, Sprechmelodie, Phrasierung) beeinflusst werden.
Speechtag |
Beschreibung |
Wertebereich |
Grundlegende Sprechgeschwindigkeit eines Sprechers. |
10 - 400% |
|
Sprechgeschwindigkeit relativ zu BSPD |
10 - 400% |
|
Grundlegende Lautstärke eines Sprechers |
-100dB - +12dB |
|
Lautstärke relativ zu BVOL |
-100dB - +12dB |
|
Grundlegende Basistonhöhe der Stimme |
10 - 800 Hz |
|
Basistonhöhe relativ zu BPIT |
10 - 800 Hz |
|
MIDI Notenwert als Notenname einer Oktave oder als Zahl |
e-2 - g#4
|
|
Grundlegender Stimmumfang für einen Sprecher |
0 - 400% |
|
Stimmumfang relativ zu BINT |
0 - 400% |
|
Grundlegende Rauheit einer Stimme |
0 - 100 Hz |
|
Rauheit relativ zu BROUGH |
0 - 100 Hz |
|
Setzt die Werte von SPD, VOL, PIT, INT und ROUGH zurück |
keine |
|
Setzt eine Pause |
0 - 5000 ms |
|
Wechselt den SpeechFont® inkl. Stimme und allen zugehörigen Einstellungen. |
SpeechFont® |
|
Das nächste Wort ist hervorgehoben (emphatisch). |
keine |
|
Bestimmt die Wortart des folgenden Wortes. |
NOUN, NAME, VERB, ADJ, NUMB, PRON, ART, PREP, ADV, CONJ, PART, INTJ |
|
Das folgende Wort wird als Funktionswort betrachtet und abgeschwächt. |
keine |
|
Bestimmt, wie ein Text interpretiert wird. |
SPELL |
|
Marker, der eine Notification schickt, wenn die Position im Text erreicht ist. |
0 - 65535 |
|
Kommentar, dieser Text wird nicht vorgelesen. |
beliebiger Text außer "#" |
|
Aussprache gemäß der SAMPA-Konvention.
|
ASCII Zeichen |
|
Parametersatz für die Audioeffekte
|
Control Code |
|
Setzt einen Akzent auf das folgende Wort. |
H*, L*, L+H*, H+L*, L*+H, H*+L, H+!H*, !H*, L*, L+!H*, !H+L*, L*+!H, !H*+L, !H+!H*, ^H*, L*, L+^H*, ^H+L*, L*+^H, ^H*+L, ^H+!H* |
|
Das nächste Wort ist nicht akzentuiert. |
keine |
|
Das nächste Wort trägt den letzten Akzent im Satz. |
keine |
|
Setzt eine große Grenze, die sich melodisch auswirkt. |
L-%, L-H%, H-%, H-H%, H-^H% L-%, L-!H%, !H-%, !H-^H% L-%, L-^H%, ^H-%, ^H-^H% |
|
Unterbindet das Setzen einer großen melodischen Grenze an dieser Stelle im Text. |
keine |
|
Setzt eine kleine Grenze, die melodisch interpretiert wird. |
L-, H-, !H-, ^H- |
|
Unterbindet das Setzen einer kleinen melodischen Grenze an dieser Stelle im Text. |
keine |
|
Setzt eine kleine Grenze, die sich nur rhythmisch auswirkt. |
keine |
|
Unterbindet das Setzen einer rhythmische Grenze an dieser Stelle im Text. |
keine |
Während die SAPI 5 Tags dem XML-Standard folgen und oft mit Bereichen arbeiten, sind die Logox 4 spezifischen Speechtags eher punktuell wirksam. Sie gelten ab der Stelle, wo sie stehen, und wirken auf ein umliegendes Wort oder in manchen Fällen so lange, bis eine neue Anweisung folgt.
Ein Speechtag beginnt unmittelbar nach einem Rautenzeichen "#" und endet mit einem Rautezeichen "#" direkt nach dem letzten Argument. Innerhalb der Rauten können Leerzeichen auftreten. Nach der ersten Raute steht direkt der Tagname (ohne Leerzeichen). Groß- und Kleinschreibung der Tagbezeichnungen sowie deren Attribute und Werte wird in zwei Formaten akzeptiert: Alles klein oder alles groß. Die einzige Ausnahme bilden die Einheiten Hertz und Dezibel, die auch als "Hz" und "dB" akzeptiert werden.
Die Werte stehen nach einem Gleichheitszeichen "=", das auf den Tagnamen folgt. Die Werte können entweder absolut oder relativ angegeben werden. Absolut gilt als Default und wird nicht weiter gekennzeichnet. Wenn ein Wert relativ zu lesen ist, wird der Zahl ein "R" vorangestellt.
Die Einheit des angegebenen Wertes wird durch ein nachgestelltes Kürzel bestimmt:
Prozentangaben erfolgen in 1% Schritten. Die Werte für Hz, st und dB können auf eine Nachkommastelle genau angegeben werden. Bei Werten mit einer Nachkommastelle wird diese durch einen Punkt "." getrennt (kein Komma!!).
Unbekannte oder falsch aufgebaute Tags werden von Logox 4 ignoriert und im schlimmsten Fall vorgelesen.
#PAU=500# #pau=500# #PIT=120Hz# #PIT=R-20.4Hz# #VOL=87%dB#
Die Beschreibung der Speechtags hat für jedes Speechtag den gleichen Aufbau. Zunächst wird dessen Syntax beschrieben. Dabei gelten folgende Konventionen:
#SPD = short signedSpeed [%]#
Nach einer Beschreibung folgen Angaben über die möglichen Werte, Beispiele und Verweise auf ähnliche Speechtags.
#BSPD = short signedBaseSpeed [%]#
Jede Stimme hat einen voreingestellten Wert für die Sprechgeschwindigkeit. Mit BSPD kann dieser grundlegende Wert geändert werden.
BSPD ist nur ein Bestandteil des endgültigen Sprechgeschwindigkeitswerts. Außer BSPD beeinflusst auch der Wert des Speechtags SPD und ggf. der per Methode SetSPD gesetzte Wert die Sprechgeschwindigkeit. Alle drei Werte werden miteinander multipliziert und durch 10000 dividiert. Das Ergebnis ist die tatsächlich umgesetzte Sprechgeschwindigkeit. Ein Beispiel:
BSPD = 120%; SPD = 80%; SetSPD = 150% Resultierende Sprechgeschwindigkeit: 120x80x150/10000 = 144
BSPD sollte nur verändert werden, wenn die Voreinstellungen für Ihre Zwecke nicht adäquat sind. Das variablere Speechtag, das sich auch für häufige Wechsel der Sprechgeschwindigkeit eignet, ist SPD.
Die Werte für die Sprechgeschwindigkeit können nur prozentual angegeben werden. Ein Wert von 200% verdoppelt die Sprechgeschwindigkeit, ein Wert von 50 % halbiert sie. Zulässige Werte liegen zwischen 10% und 400%. Sinnvolle Werte liegen zwischen 66% und 200%.
#BSPD=120%#
#SPD = short signedSpeed [%]#
#SPD = R short signedSpeed [%]#
SPD ist das Speechtag, das normalerweise für Veränderungen der Sprechgeschwindigkeit benutzt werden sollte. SPD bezieht sich auf den Wert von BSPD. Dabei wird der Wert von SPD mit BSPD multipliziert. Dadurch wirken sich die Änderungen mittels SPD auch bei unterschiedlichen Sprechern immer gleich aus.
Die Werte können aber nicht nur absolut angegeben werden, sondern auch relativ zum vorhergehenden Wert. Dem Wert wird dann ein R vorangestellt. Mit relativen Einstellungen wird die Sprechgeschwindigkeit verlangsamt oder beschleunigt unabhängig von den gerade aktuellen Einstellungen des Benutzers. Der aktuelle Wert wird um den angegebenen Prozentsatz variiert. Der aktuelle Wert (BSPD x Benutzereinstellung / 100) wird um den relativen Wert von SPD subtrahiert. Ein Beispiel:
BSPD = 120%; SetSPD = 100%; SPD = R-50% Aktuelle Sprechgeschwindigkeit: 120 x 100 / 100 = 120 Resultierende Sprechgeschwindigkeit: 120 - 50 = 70
Die Werte werden prozentual angegeben. 200 % führt zu einer Verdoppelung der Sprechgeschwindigkeit und 50% zu einer Halbierung. Zulässige Werte liegen zwischen 10% und 400%. Sinnvolle Werte liegen zwischen 66% und 200%.
#SPD=80%#
setzt die neue Sprechgeschwindigkeit auf 80% der Geschwindigkeit von BSPD.
#SPD=R40%#
setzt die neue Sprechgeschwindigkeit um 40% schneller.
#SPD=R-20%#
verringert die Sprechgeschwindigkeit um 20%
#BVOL = short signedBaseVol [dB,%]#
Für jeden Sprecher ist eine Grundlautstärke vordefiniert. BaseVolume definiert die Grundlautstärke für einen Sprecher neu. Normalerweise sollte für Änderungen der Lautstärke das Speechtag VOL verwendet werden. Mit beiden sollte die Lautstärke vornehmlich abgesenkt werden. Die Stimmen sind so optimiert, dass sie möglichst laut sind. Wenn die Lautstärke übermäßig angehoben wird, kann es zu Verzerrungen des Audiosignals kommen. Auch die Lautstärke errechnet sich aus 3 Parametern: Einstellungen durch einen Benutzer oder den Entwickler durch die Methode SetVOL, der Grundlautstärke BVOL und der relativen Lautstärke aus VOL. Die Prozentwerte werden miteinander multipliziert und durch 10000 geteilt (vgl. BSPD), die Dezibelwerte der einzelnen Komponenten werden addiert. Ein Beispiel:
SetVOL = -1.5 dB; BVOL = 1.2 dB; VOL = -6 dB Resultierende Lautstärke: -1.5 + 1.2 -4.7 = -5 dB
Die Werte können in Dezibel (dB) oder prozentual (%) angegeben werden.
Intern wird mit Dezibelwerten gerechnet. Der Wertebereich liegt zwischen -100 dB und +12 dB in 0.1 dB Schritten. Eine Absenkung um 6 dB führt zu einer Halbierung der Energie des Signals. Eine Anhebung um 6 dB zu einer Verdoppelung der Energie. Sinnvolle Werte liegen zwischen -6dB und +1dB.
Entsprechend ist die Prozentskala aufgeteilt. 100% entsprechen 0dB, 200% + 6db und 50% -6dB. Die Prozentwerte können in 1%-Schritten angegeben werden. Gültige Werte liegen zwischen 10% und 400%. Sinnvolle Werte liegen im Bereich von 50% - 120%.
#BVOL=-3.2dB# #BVOL=50%#
#VOL = short signedVol [dB,%]#
#VOL = R short signedVol [dB,%]#
VOL setzt die Lautstärke bezogen auf die aktuelle Lautstärke, die sich aus der per Methode gesetzten Lautstärke (SetVOL) und der Basislautstärke (BVOL) zusammensetzt. Lautstärkeänderungen sollten vornehmlich mit VOL vorgenommen werden. Die Änderungen können nicht nur absolut vorgenommen werden, sondern auch relativ. Relative Änderungen werden durch ein R vor dem Lautstärkewert gekennzeichnet.
Die Werte können in Dezibel (dB) oder prozentual (%) angegeben werden.
Intern wird mit Dezibelwerten gerechnet. Der Wertebereich liegt zwischen -100 dB und +12 dB in 0.1 dB Schritten. Eine Absenkung um 6 dB führt zu einer Halbierung der Energie des Signals. Eine Anhebung um 6 dB zu einer Verdoppelung der Energie. Sinnvolle Werte liegen zwischen -6dB und +1dB.
Entsprechend ist die Prozentskala aufgeteilt. 100% entsprechen 0dB, 200% + 6db und 50% -6dB. Die Prozentwerte können in 1%-Schritten angegeben werden. Gültige Werte liegen zwischen 10% und 400%. Sinnvolle Werte liegen im Bereich von 50% - 120%.
Die Lautstärke lässt sich nicht nur absolut setzen, sondern auch ausgehend vom aktuellen Lautstärkewert. Absolute Werte berechnen sich nach folgendem Schema:
SetVOL = -1.5 dB; BVOL = 1.2 dB; VOL = -6 dB Resultierende Lautstärke: -1.5 + 1.2 -4.7 = -5 dB
Relative Werte werden ausgehend von der aktuellen Lautstärke berechnet. Ein Prozentwert bezieht sich dann auf die Summe der dB-Werte von SetVOL und BVOL und berechnet gemäß der Prozentskala den neuen Wert. Dieser Wert wird wiederum mit VOL verrechnet. Ein Beispiel:
SetVOL = -2.4 dB; BVOL = 1.2 dB; VOL = -50%
Aktuelle Lautstärke: -2.4 + 1.2 = -1.2 dB
Umrechnung: 50% entspricht 6 dB
Resultierende Lautstärke: -1.2 - 6dB = -7.2 dB
#VOL=2.4dB# #VOL=R-20%
#BPIT = short signedBasePitch [Hz]#
Genauso wie für Lautstärke und Sprechgeschwindigkeit gibt es auch für die Basistonhöhe Voreinstellungen für jeden Sprecher. Diese vordefinierten Werte sind die Basis für die interne Berechnung der Sprechmelodie. Dieser Wert sollte also nur mit Bedacht geändert werden. Normalerweise sollten Änderungen der Tonhöhe mit dem Speechtag PIT vorgenommen werden.
Die Basistonhöhe kann nur in der Hertz-Skala angegeben werden.
Hertz | Hz-Werte sind die interne Berechnungsgrundlage. Zulässige Werte liegen zwischen 10 Hz und 800 Hz. Sie sind zugänglich in 0.1 Hz Schritten. Da die Hz-Skala ein lineares Maß für die Frequenz darstellt, kann der gleiche Unterschied in Hz in verschiedenen Frequenzbereichen zu einem unterschiedlichen Höreindruck führen. Sinnvolle Werte hängen vom Sprecher ab. Für Männerstimmen liegen sie zwischen 70 und 130 Hertz, für Frauenstimmen zwischen 140 und 240 Hertz. |
#BPIT=150Hz#
#PIT = short signedPitch [Hz,ST,%]#
Die mittlere Tonhöhe für einen Sprecher berechnet sich aus den gesetzten Werten (SetPIT), der Basistonhöhe (BPIT) und dem relativen Wert PIT. Die Werte für PIT können nicht nur absolut gesetzt werden, sondern auch relativ zum gerade aktuellen Wert.
PIT sollte für Änderungen der Tonhöhe verwendet werden, nicht zuletzt deshalb, weil die vorherigen Werte wieder hergestellt werden können, indem man PIT auf 100% setzt.
Die Werte für PIT können in verschiedenen Skalen angegeben werden:
Hertz | Hz-Werte sind die interne Berechnungsgrundlage. Zulässige Werte liegen zwischen 10 Hz und 800 Hz. Sie sind zugänglich in 0.1 Hz Schritten. Die resultierende Frequenz muss in diesem Bereich liegen. Da die Hz-Skala ein lineares Maß für die Frequenz darstellt, kann der gleiche Unterschied in Hz in verschiedenen Frequenzbereichen zu einem unterschiedlichen Höreindruck führen. Sinnvolle Werte hängen vom Sprecher ab. Für Männerstimmen liegen sie zwischen 70 und 130 Hertz, für Frauenstimmen zwischen 140 und 240 Hertz. |
ST | Halbtöne (semitones) sind ein logarithmisches Maß für die Frequenz. Werte in Halbtönen lassen sich auch auf unterschiedliche Tonlagen übertragen. Die Halbtöne brauchen immer einen Bezugspunkt, von dem aus sie in Hertzwerte umgerechnet werden.
Zulässige Werte liegen zwischen -24 und +24 Halbtönen in 0.1 ST Schritten. Sinnvolle Werte liegen zwischen -4 und +4 Halbtönen. Größere Änderungen führen zu klanglichen Einbußen. |
#PIT=R-2.5st# #PIT=25Hz#
#MIDI = short signedMIDINote short signedOktav#
#MIDI = short unsignedMIDICode#
Die Tonhöhe kann in Logox auch über MIDI Notenwerte bestimmt werden. Das ist besonders sinnvoll, wenn Lieder gesungen werden sollen.
Wichtig: Damit die Notenwerte auch auf einer Tonhöhe gehalten werden, muss der Stimmumfang mit dem Speechtag #INT=0%# auf 0 gesetzt werden.
Die MIDI-Notenwerte können in zwei Formaten angegeben werden:
Notenwert im Format Note-Oktav
#MIDI=<note><oktav>#
Notenwert im MIDI-Zahlenwert der Note
#MIDI=<code>#
<note> kann folgende Werte haben:
"c", "c#", "db", "d", "d#", "eb", "e", "f", "f#", "gb", "g", "g#", "ab", "a", "a#", "bb", "b" "c", "cis", "des", "d", "dis", "es", "e", "f", "fis", "ges", "g", "gis", "as", "a", "ais", "bb", "h"
<oktav> ist eine Oktavnummer zwischen -2 und 8.
Es gilt die Beschränkung auf Notenwerte zwischen 10 Hz und 800 Hz. Das ist der in MIDI definierte Notenbereich zwischen f-2 und g#4. Werte unterhalb von f-2 werden mit 10 Hz abgespielt. Werte, die höher als g#4 liegen, mit einer Frequenz von 800 Hz.
<code> ist ein Wert zwischen 5 und 80, der den durch MIDI spezifizierten Notenbereich (F-2 - G#4) abdeckt. Werte unterhalb von f-2 werden mit 10 Hz abgespielt. Werte, die höher als g#4 liegen mit einer Frequenz von 800 Hz.
Hinweis: In diesem Tag können innerhalb der Rautenzeichen des Tags auch die Rautenzeichen der Notennamen vorkommen. Das Tag endet in diesem Fall an der dritten Raute.#MIDI=cis-1# #MIDI=Bb3# #MIDI=h2# #MIDI=fis3# #MIDI=58#
#BINT = signed shortBaseInt [%]#
Der Umfang der Sprechmelodie kann mit BINT und INT bestimmt werden. BINT bezieht sich auf den voreingestellten Basiswert, der zusammen mit SetINT (per Methode gesetzt) und INT für den endgültigen Stimmumfang verantwortlich ist (vgl. BSPD).
Der Stimmumfang trägt zur Emotion bei. Ein kleiner Stimmumfang wird mit Trauer und Langeweile assoziiert. Ein erweiterter Stimmumfang wird als lebhaft und erregt wahrgenommen.
Änderungen des Stimmumfangs sollten normalerweise mit INT erfolgen.
Die Werte werden prozentual angegeben. Bei 100% findet keine Veränderung statt. Bei Werten unterhalb von 100% wird der Stimmumfang verringert, bei Werten darüber wird er erweitert (hoch wird höher und tief wird tiefer).
Gültige Werte liegen zwischen 0% und 400%. 200% verdoppelt den Stimmumfang, 50% halbiert ihn. Sinnvolle Werte liegen zwischen 30% und 150%.
#BINT=60%#
#INT = signed shortIntRange [%]#
Der Umfang der Sprechmelodie kann mit BINT und INT bestimmt werden. INT ist ein relativer Wert, der sich auf BINT und SetINT (per Methode gesetzte Werte) bezieht.
Der Stimmumfang trägt zur Emotion bei. Ein kleiner Stimmumfang wird mit Trauer und Langeweile assoziiert. Ein erweiterter Stimmumfang wird als lebhaft und erregt wahrgenommen.
Änderungen des Stimmumfangs sollten mit INT erfolgen, da hier auch relative Werte angegeben werden können und so die Original-Einstellungen wieder hergestellt werden können.
Die Werte werden prozentual angegeben. Bei 100% findet keine Veränderung statt. Bei Werten unterhalb von 100% wird der Stimmumfang verringert und bei Werten darüber wird er erweitert (hoch wird höher und tief wird tiefer).
Gültige Werte liegen zwischen 0% und 400%. 200% verdoppelt den Stimmumfang, 50% halbiert ihn. Sinnvolle Werte liegen zwischen 30% und 150%.
Die Werte können aber nicht nur absolut angegeben werden, sondern auch relativ zum vorhergehenden Wert. Dem Wert wird dann ein R vorangestellt. Die endgültigen Werte für den Stimmumfang berechnen sich nach dem gleichen Muster, wie bei BSPD und SPD.
#INT=150%#
#BROUGH = unsigned shortBaseRough [Hz]#
Dieser Parameter macht die Stimme rau. Das kann am Ende eines Satzes aber manchmal beabsichtigt sein (John Wayne).
Wie bei BPIT und BVOL setzt sich der Wert für die Rauheit aus 3 Werten zusammen: BROUGH, ROUGH und SetROUGH (per Methode gesetzt). BROUGH ist der voreingestellte Wert für eine Stimme. Änderungen der Rauheit sollten mit ROUGH erfolgen.
Der Wertebereich ist 0 bis 100 Hz in 0.1 Hz Schritten. Die Variation zwischen den einzelnen Perioden eines Sprechers liegt im Bereich von 1 - 3 Hz. Raue Stimmen werden durch Werte zwischen 20 und 100 Hz erzeugt. Die Natürlichkeit des Effektes kann noch erhöht werden, wenn zusätzlich in extrem rauen Passagen die mittlere Tonhöhe mit INT abgesenkt wird.
#BROUGH=1.5Hz# #BROUGH=R15Hz#
#ROUGH = unsigned shortRough [%]#
Dieser Parameter macht die Stimme rau. Das kann am Ende eines Satzes aber manchmal beabsichtigt sein (John Wayne).
Der Wertebereich ist 0 bis 100 Hz in 0.1 Hz Schritten. Die natürliche Variation liegt im Bereich von 1 - 3 Hz. Raue Stimmen werden durch Werte zwischen 20 und 100 Hz erzeugt.
#ROUGH=90Hz# #ROUGH=R-0.5Hz#
#RST strType strType#
#RST#
Setzt die Werte von VOL, PIT, SPD, INT und ROUGH zurück. Wenn keine Argumente übergeben werden, wird alles zurückgesetzt. Wenn nur einzelne akustische Merkmale zurückgesetzt werden sollen, stehen sie hinter einem Gleichheitszeichen durch Leerzeichen voneinander getrennt.
VOL | setzt die Lautstärke zurück auf den Wert von BVOL |
PIT | setzt die Tonhöhe zurück auf den Wert von BPIT |
SPD | setzt die Sprechgeschwindigkeit auf den Wert von BSPD |
INT | setzt den Sprechstimmumfang auf den Wert von BINT |
ROUGH | setzt die Rauheit der Stimme auf den Wert von BROUGH |
#RST# #RST=PIT VOL#
#PAU = unsigned longDauer#
Fügt an der gesetzten Stelle im Text eine Pause ein. Dieses Speechtag setzt zusätzliche Pausen. Pausen innerhalb und am Ende von Sätzen sind unabhängig davon.
Dauer der Pause in Millisekunden (ms). Gültige Werte liegen zwischen 0 und 5000 ms. Für längere Pausen müssen mehrere Speechtags gesetzt werden.
#PAU=500#
Fügt eine Pause von 500 ms ein.
#VOICE = NAME:strVoiceName#
#VOICE = GENDER:strGender AGE:strAge LANG:short unsignedLangCode#
#VOICE = GENDER:strGender AGE:strAge#
#VOICE = GENDER:strGender#
#VOICE = AGE:strAge#
Sprecherwechsel erfolgen mit dem Speechtag VOICE. Dazu können entweder bestimmte Stimmen angefordert werden, oder bestimmte Eigenschaften von Sprechern wie Geschlecht, Alter und Sprache angegeben werden.
NAME | Der Sprechername ist für jeden SpeechFont® festgelegt und setzt sich aus drei Bestandteilen zusammen:
Während die ersten beiden Bestandteile festgelegt sind, darf die SprecherID beliebige Buchstaben, Ziffern, sowie die Sonderzeichen "-", "_" und "." enthalten. Folgende Sprechernamen stehen momentan zur Verfügung:
|
||||||||
GENDER |
|
||||||||
AGE | Folgende Altersgruppe können angewählt werden:
|
||||||||
LANG | Sprachcode gemäß der Windows LocaleID. Hier eine Auswahl der Sprachcodes:
|
#VOICE=NAME:LGX.DE.BILL GENDER:M AGE:SENIOR LANG:0407#
#VOICE=NAME:LGX.DE.BILL#
#VOICE = GENDER:M AGE:SENIOR#
#EMPH#
Das folgende Wort ist hervorgehoben (emphatisch). Dies wird erreicht, indem die Dauer der Laute des Wortes etwas verlängert wird, und das Wort einen Akzent bekommt.
#EMPH#
#POS = strWortart#
Für die Berechnung der Aussprache, der Sprechmelodie und des Sprechrhythmus ist es hilfreich, wenn die Wortart eines Wortes bekannt ist. Sie kann mit dem Speechtag POS bestimmt werden.
Wortart |
Bedeutung |
Beispiel |
NOUN | Substantiv, Nomen, Hauptwort | Hase |
NAME | Eigenname | Aida |
VERB | Verb, Tuwort | laufen |
ADJ | Adjektiv, Eigenschaftswort | grün |
NUMB | Zahlwort | zwölf |
PRON | Pronomen | sie |
ART | Artikel | der |
PREP | Präposition | nach |
ADV | Adverb | damals |
CONJ | Konjunktion | weil, und |
PART | Partikel | vielleicht |
INTJ | Interjektion | Ach! |
#pos=NOUN#
#FW#
Eine sehr grobe Untergliederung von Wortarten ist die Unterscheidung zwischen Inhaltswörtern, die wichtige Informationen tragen, und Funktionswörtern, die keine semantischen Informationen tragen und daher oft reduziert ausgesprochen werden. Inhaltswörter sind Substantive, Adjektive, Verben und Adverbien. Zu den Funktionswörtern zählen Präpositionen, Artikel und Konjunktionen. Ein Funktionswort wird reduzierter ausgesprochen, und die Dauer seiner Laute wird verkürzt.
FW bezieht sich auf das nachfolgende Wort, das als Funktionswort verarbeitet wird.
FW nimmt keine Werte.
#FW#
#CTX = strContext#
#CTX#
CTX beschreibt Kontexte und Formate, die zur Interpretation des Textes benutzt werden. Momentan wird nur ein Format unterstützt: SPELL (buchstabieren). Damit ist es möglich, Teile eines Textes buchstabieren zu lassen.
CTX wirkt ab der Position, wo es gesetzt wurde, so lange bis ein erneutes CTX Speechtag gesetzt wird. Ein Speechtag ohne Argumente führt zurück zur normalen Textinterpretation.
SPELL | Buchstabieren von Wörtern; Zahlen werden in einzelnen Ziffern vorgelesen. |
#CTX=SPELL# Hallo. #CTX# Das ist ein Test.
Das Wort "Hallo" wird buchstabiert. Der darauf folgende Satz wird normal gesprochen.
#MARK = longMark#
MARK setzt einen Bookmark, der synchron durch ITTSBufNotifySink zurückgemeldet wird. Dadurch ist es möglich, Markierungen im Text zu setzen. Wenn sie erreicht werden, erfolgt eine Rückmeldung, und es können entsprechende Aktionen gestartet werden. Bei ausgiebigem Gebrauch von MARK empfiehlt sich die Verwendung von Kommentaren mit COM.
MARK nimmt einen Zahlenwert. Gültige Werte liegen zwischen 0 und 65535.
#MARK=1#
#COM = strComment#
COM erlaubt, in den zu sprechenden Text Kommentare zu schreiben, die nicht vorgelesen werden. Dies ist z.B. sinnvoll, um Markierungen zu kommentieren.
Alle Zeichen außer "#"
#COM=Grafik Jahresbilanz einblenden#
#SAMPA = strSAMPA;strWort;strWortart#
#SAMPA = strSAMPA;strWort;#
#SAMPA = strSAMPA;;strWortart#
#SAMPA = strSAMPA;;#
Die Aussprache kann in Logox 4 nach dem SAMPA Standard bestimmt werden. Dabei müssen neben der Aussprache auch Silbengrenzen und Wortakzente gesetzt werden, sonst können Fehler in der Sprechmelodie und beim Sprechrhythmus auftreten.
Hier werden nur die Werte aufgelistet. Eine ausführliche Beschreibung des SAMPA-Alphabets finden Sie in der Darstellung des SAMPA-Speechtags: vgl. Werte für die SAMPA-Umschrift.
Vokale | a, A, {, E, 8, e, I, i,
O, o, U, u, 9, 2, Y, y, @, 6, a~, O~, E~, 9~, (ai),(au), (oy), (E6), (ei), (ou) |
Unsilbische Vokale | i=, o=, 6= u= |
Konsonanten | f, v, s, z, T, D, C, S, x,
m, n, N, l, r, P_, p, B_, b, T_, t, D_, d, K_, k, G_, g, (ts), (tS), (dZ), (pf), h, ?, Q |
Silbische Konsonanten | m=, n=, N=, l= |
Diakritika | :, ', ", - |
#SAMPA=v'Aks-tu:-b@;Wachstube;NOUN# #SAMPA=v'Aks-tu:-b@;Wachstube;# #SAMPA=v'Aks-tu:-b@;;#
#AFX = strAudioEffekt#
Logox 4 bietet eine Reihe von Audioeffekten:
Balance | Positioniert die Stimme im Stereopanorama |
Chorus | Zufällige kurze Echos, die die Stimme vervielfachen |
Delay | Echo |
Equalizer | Anhebung und Absenkung in verschiedenen Frequenzbereichen |
Flanger | Moduliertes Echo zur Verfremdung von Stimmen |
Gain | Anheben und Absenken der Lautstärke |
Phaser | Phasenverschiebung des Signals |
Reverb | Halleffekt |
Shelving | Anheben und Absenken von hohen und tiefen Frequenzen |
Diese Audioeffekte können umfassend per Steuerzeichen angesteuert werden. Die resultierenden Parametersätze sind allerdings sehr komplex.
Die Menge der Steuerzeichen ist sehr umfangreich und deren Anordnung äußerst komplex. Daher können Steuerzeichen mit dem AudioFXEditor erstellt und über die Zwischenablage in den Text kopiert werden. Eine ausführliche Beschreibung von AudioFXEditor.exe finden sie hier.
WICHTIG: Audioeffekte ausschalten!!
Bei der Verwendung von Speechtags zur Ansteuerung von Audioeffekten müssen am Ende des Textes die Audioeffekte wieder ausgeschaltet werden, sonst bleibt der Effekt bis zur Wahl eines neuen Sprechers auch für andere Texte erhalten. Das geschieht indem man #AFX# ans Ende des Textes schreibt.
#AFX=DL70=1(Delay):$71=100.000000(Delay,0,1000),$72=0.400000(Mix,0,1),$73=0.000000(Feedback,0,1);# Hier spricht Logox 4 mit Echo. #AFX#
Hiermit wird ein Echoeffekt eingefügt, und am Ende des Textes wird der Effekt wieder ausgeschaltet.