Navigation:
 
Online
  • Tutorial
  • Support
  • Forum
  • Handbuch
  • Download
  • HOME

    WebSpeech SDK Tutorial

    Steuerung der Sprechweise


    Sprechgeschwindigkeit    Lautstärke    Tonhöhe    MIDI Noten
    Stimmumfang    Rauheit    Sprechweise zurücksetzen


    Text vorlesenSprechgeschwindigkeit

    Der voreingestellten Wert für die Sprechgeschwindigkeit einer Stimme kann mit dem Speechtag BSPD geändert werden. BSPD sollte nur verändert werden, wenn die Voreinstellungen für Ihre Zwecke nicht adäquat sind. Das variablere Speechtag, das sich auch für häufige Wechsel der Sprechgeschwindigkeit eignet, ist SPD. SPD bezieht sich auf den Wert von BSPD.

    Werte
    Die Werte für BSPD und SPD können nur prozentual angegeben werden. Ein Wert von 200% verdoppelt die Sprechgeschwindigkeit, ein Wert von 50 % halbiert sie. Zulässige Werte liegen zwischen 10% und 400%. Sinnvolle Werte liegen zwischen 66% und 200%.
    SPD erlaubt auch relative Angaben, wobei dem Wert ein R vorangestellt wird. Mit relativen Einstellungen wird die Sprechgeschwindigkeit verlangsamt oder beschleunigt unabhängig von den gerade aktuellen Einstellungen des Benutzers.


    Syntax
    #BSPD = short signedBaseSpeed [%]#
    #SPD = short signedSpeed [%]#
    #SPD = R short signedSpeed [%]#


    Beispiele
    #BSPD=120%#
    #SPD=80%#
    #SPD=R-20%#


    Seitenanfang


    Text vorlesenLautstärke

    Jeder Sprecher hat eine Grundlautstärke, die mit dem Speechtag BVOL neu definiert werden kann. Das Tag VOL dagegen verändert die Lautstärke bezogen auf die aktuelle Lautstärke, die sich aus der gesetzten Lautstärke (Einstellungen) und der Basislautstärke (BVOL) zusammensetzt. Lautstärkeänderungen sollten vornehmlich mit VOL vorgenommen werden. Mit beiden Speechtags sollte die Lautstärke vornehmlich abgesenkt werden, da die Stimmen so optimiert sind, dass sie möglichst laut sind.

    Werte
    Die Werte für BVOL und VOL können in Dezibel (dB) oder prozentual (%) angegeben werden.
    Intern wird mit Dezibelwerten gerechnet. Der Wertebereich liegt zwischen -100 dB und +12 dB in 0.1 dB Schritten. Eine Absenkung um 6 dB führt zu einer Halbierung der Energie des Signals, eine Anhebung um 6 dB zu einer Verdoppelung der Energie. Sinnvolle Werte liegen zwischen -6dB und +1dB.
    Entsprechend ist die Prozentskala aufgeteilt. 100% entsprechen 0dB, 200% + 6db und 50% -6dB. Die Prozentwerte können in 1%-Schritten angegeben werden. Gültige Werte liegen zwischen 10% und 400%. Sinnvolle Werte liegen im Bereich von 50% - 120%.
    Relative Änderungen sind nur für VOL zulässig. Sie werden durch ein "R" vor dem Lautstärkewert gekennzeichnet und werden ausgehend von der aktuellen Lautstärke berechnet.


    Syntax
    #BVOL = short signedBaseVol [dB,%]#
    #VOL = short signedVol [dB,%]#
    #VOL = R short signedVol [dB,%]#


    Beispiele
    #BVOL=-3.2dB#
    #BVOL=50%#
    #VOL=2.4dB#
    #VOL=R-20%#



    Seitenanfang


    Text vorlesenTonhöhe

    Genauso wie für Lautstärke und Sprechgeschwindigkeit gibt es auch für die Basistonhöhe Voreinstellungen für jeden Sprecher. Sie kann mit dem Speechtag BPIT neu gesetzt werden. Da der vordefinierte Wert für die Tonhöhe die Basis für die interne Berechnung der Sprechmelodie ist, sollte er nur mit Bedacht geändert werden. Normalerweise sollten Änderungen der Tonhöhe mit dem Speechtag PIT vorgenommen werden, nicht zuletzt deshalb, weil die vorherigen Werte wieder hergestellt werden können, indem man PIT auf 100% setzt.

    Werte
    Die Werte für BPIT und PIT können in der Hertz-Skala angegeben werden, die die interne Berechnungsgrundlage bilden. Zulässige Werte liegen zwischen 10 Hz und 800 Hz und können in 0.1 Hz Schritten angegeben werden.
    Da die Hz-Skala ein lineares Maß für die Frequenz darstellt, kann der gleiche Unterschied in Hz in verschiedenen Frequenzbereichen zu einem unterschiedlichen Höreindruck führen. Sinnvolle Werte hängen vom Sprecher ab. Für Männerstimmen liegen sie zwischen 70 und 130 Hertz, für Frauenstimmen zwischen 140 und 240 Hertz.
    Ausschließlich für PIT sind auch Halbton-Werte (semitones) zulässig. Halbtöne sind ein logarithmisches Maß für die Frequenz, dessen Werte sich auch auf unterschiedliche Tonlagen übertragen lassen. Die Halbtöne brauchen immer einen Bezugspunkt, von dem aus sie in Hertzwerte umgerechnet werden. Zulässige Werte liegen zwischen -24 und +24 Halbtönen in 0.1 ST Schritten. Sinnvolle Werte liegen zwischen -4 und +4 Halbtönen. Größere Änderungen führen zu klanglichen Einbußen. Halbton-Werte in PIT können durch Voranstellen von "R" auch relativ angegeben werden.


    Syntax
    #BPIT = short signedBasePitch [Hz]#
    #PIT = short signedPitch [Hz,ST,%]#
    #PIT = R short signedPitch [ST]#


    Beispiele
    #BPIT=150Hz#
    #PIT=100%#
    #PIT=25Hz#
    Hallo, #PIT=R-2.5st# Hallo, #PIT=R-2.5st# Hallo.
    Hallo, #PIT=-2.5st# Hallo, #PIT=-5st# Hallo.



    Seitenanfang


    Text vorlesenMIDI Notenwert

    Die Tonhöhe kann in Logox 4 mit dem Speechtag MIDI auch über MIDI Notenwerte bestimmt werden. Das ist besonders sinnvoll, wenn Lieder gesungen werden sollen. Die MIDI-Notenwerte können entweder im Format "Note-Oktav" oder im MIDI-Zahlenwert angegeben werden.

    Werte
    Die folgenden Notenwerte sind im Format "Note-Oktav" möglich: "c", "c#", "db", "d", "d#", "eb", "e", "f", "f#", "gb", "g", "g#", "ab", "a", "a#", "bb", "b" "c", "cis", "des", "d", "dis", "es", "e", "f", "fis", "ges", "g", "gis", "as", "a", "ais", "bb", "h". Dazu muss in diesem Format nach jeder Note eine Oktavnummer zwischen -2 und 8 angegeben werden.
    Zulässige MIDI-Zahlenwerte liegen zwischen 5 und 80.
    Beide Formate, "Note-Oktav" und der MIDI-Zahlenwert, sind beschränkt auf Notenwerte zwischen 10 Hz und 800 Hz und decken den durch MIDI spezifizierten Notenbereich (F-2 - G#4) ab. Werte unterhalb von F-2 werden mit 10 Hz abgespielt. Werte, die höher als g#4 liegen, mit einer Frequenz von 800 Hz.

    Hinweis: In diesem Tag können innerhalb der Rautenzeichen des Tags auch die Rautenzeichen der Notennamen vorkommen. Das Tag endet in diesem Fall an der dritten Raute.


    Syntax
    #MIDI = short signedMIDINote short signedOktav#
    #MIDI = short unsignedMIDICode#


    Beispiele
    #MIDI=c#-1#
    #MIDI=Bb3#
    #MIDI=h2#
    #MIDI=fis3#
    #MIDI=58#



    Seitenanfang


    Text vorlesenStimmumfang

    Der Umfang der Sprechmelodie kann mit BINT und INT bestimmt werden. BINT bezieht sich auf den voreingestellten Basiswert, INT ist ein relativer Wert, der sich auf BINT und den per Einstellungen gesetzten Wert bezieht. Änderungen des Stimmumfangs sollten normalerweise mit INT erfolgen, da hier auch relative Werte angegeben werden können und so die Original-Einstellungen wieder hergestellt werden können.
    Der Stimmumfang trägt zur Emotion bei. Ein kleiner Stimmumfang wird mit Trauer und Langeweile assoziiert. Ein erweiterter Stimmumfang wird als lebhaft und erregt wahrgenommen.

    Werte
    Die Werte für BINT und INT werden prozentual angegeben. Bei 100% findet keine Veränderung statt. Bei Werten unterhalb von 100% wird der Stimmumfang verringert, bei Werten darüber wird er erweitert (hoch wird höher und tief wird tiefer).
    Gültige Werte liegen zwischen 0% und 400%. 200% verdoppelt den Stimmumfang, 50% halbiert ihn. Sinnvolle Werte liegen zwischen 30% und 150%.
    Für INT können die Werte auch relativ zum vorhergehenden Wert angegeben werden. Dem Wert wird dann ein "R" vorangestellt.


    Syntax
    #BINT = signed shortBaseInt [%]#
    #INT = signed shortIntRange [%]#
    #INT = R signed shortIntRange [%]#


    Beispiele
    #BINT=60%#
    #INT=150%#
    #INT=R-20%#



    Seitenanfang


    Text vorlesenRauheit

    Durch setzen der Speechtags BROUGH und ROUGH kann die die Stimme rau gemacht werden. Das kann am Ende eines Satzes manchmal beabsichtigt sein (John Wayne).
    BROUGH ändert den voreingestellte Wert für eine Stimme. In der Regel sollten Änderungen der Rauheit jedoch mit ROUGH erfolgen.

    Werte
    Der Wertebereich liegt bei 0 bis 100 Hz in 0.1 Hz Schritten. Für ROUGH ist auch eine relative Wertangabe ("R") zulässig. Die Variation zwischen den einzelnen Perioden eines Sprechers liegt im Bereich von 1 - 3 Hz. Raue Stimmen werden durch Werte zwischen 20 und 100 Hz erzeugt. Die Natürlichkeit des Effektes kann noch erhöht werden, wenn zusätzlich in extrem rauen Passagen die mittlere Tonhöhe mit PIT abgesenkt wird.


    Syntax
    #BROUGH = unsigned shortBaseRough [Hz]#
    #ROUGH = unsigned shortRough [Hz]#
    #ROUGH = R unsigned shortRough [Hz]#


    Beispiele
    #BROUGH=1.5Hz#
    #ROUGH=90Hz#
    #ROUGH=R0.5Hz#



    Seitenanfang


    Text vorlesenSprechweise zurücksetzen

    Die Einstellung für die Parameter der Sprechweise - Sprechgeschwindigkeit, Lautstärke, Tonhöhe, Stimmumfang und Rauheit - wird mit dem Speechtag RST auf den jeweiligen Basiswert zurückgesetzt. Wenn keine Argumente übergeben werden, werden alle Werte von SPD, VOL, PIT, INT und ROUGH zurückgesetzt auf den Werte von BSPD, BVOL, BPIT, BINT bzw. BROUGH.

    Werte
    RST kann ohne Wert oder mit einer beliebigen Auswahl aus den Tag-Namen SPD, VOL, PIT, INT und ROUGH aufgerufen werden. Durch Angabe eines Tag-Namens können einzelne dieser akustische Merkmale zurückgesetzt werden. Die Namen stehen dann hinter dem Gleichheitszeichen durch Leerzeichen voneinander getrennt.


    Syntax
    #RST = strType strType#
    #RST#


    Beispiele
    #RST#
    #RST=PIT VOL#



    Seitenanfang



    Übersicht    Speechtag Übersicht   zurück    weiter