Stimme XML

VoiceXML (VXML) ist das XML W3C's Standardformat, um interaktive Stimmendialoge zwischen einem Menschen und einem Computer anzugeben. Es erlaubt Stimmenanwendungen, entwickelt und auf eine analoge Weise zum HTML für Sehanwendungen aufmarschiert zu werden. Da HTML-Dokumente durch einen Seh-WWW-Browser interpretiert werden, werden Dokumente von VoiceXML durch einen Stimmenbrowser interpretiert. Eine allgemeine Architektur soll Banken von Public Switched Telephone Network (PSTN) beigefügten Stimmenbrowsern einsetzen, um Benutzern zu erlauben, mit Stimmenanwendungen über das Telefon aufeinander zu wirken.

Gebrauch

Viele kommerzielle Anwendungen von VoiceXML sind aufmarschiert worden, Millionen von Anrufen pro Tag bearbeitend. Diese Anwendungen schließen ein: Ordnungsuntersuchung, das Paket-Verfolgen, Richtungen, Notankündigung, Kielwasser, das Flugverfolgen, den Stimmenzugang zu E-Mail, Kundenbeziehungsmanagement, dem Vorschrift-Nachfüllen, den Audionachrichtenzeitschriften, Stimme wählende Grundeigentuminformation und nationale Telefonauskunft-Anwendungen steuernd.

VoiceXML hat Anhängsel, die den Stimmenbrowser beauftragen, Rede-Synthese, automatische Spracherkennung, Dialog-Management und Audioplay-Back zur Verfügung zu stellen. Der folgende ist ein Beispiel eines Dokumentes von VoiceXML:

Hallo Welt!

</schnell>

</Block>

</Form>

</vxml>

</Quelle>

Wenn interpretiert, durch einen Dolmetscher von VoiceXML dieser wird Produktion "Hallo Welt" mit der synthetisierten Rede.

Gewöhnlich wird HTTP als das Transportprotokoll verwendet, für Seiten von VoiceXML herbeizuholen. Einige Anwendungen können statische Seiten von VoiceXML verwenden, während sich andere auf die dynamische Seitengeneration von VoiceXML verlassen, die einen Anwendungsserver wie Kater, Weblogic, IIS oder WebSphere verwendet.

Historisch haben Plattform-Verkäufer von VoiceXML den Standard unterschiedlich durchgeführt, und Eigentumseigenschaften hinzugefügt. Aber VoiceXML 2.0 Standard, angenommen als eine W3C Empfehlung am 16. März 2004, hat die meisten Gebiete des Unterschieds geklärt. Das Forum von VoiceXML, eine Industriegruppe, die den Gebrauch des Standards fördert, stellt einen Übereinstimmungsprobeprozess zur Verfügung, der die Durchführungen von Verkäufern als conformant bescheinigt.

Geschichte

AT&T haben IBM, Lucent und Motorola das Forum von VoiceXML im März 1999 gebildet, um eine Standardpreiserhöhungssprache zu entwickeln, um Stimmendialoge anzugeben. Vor dem September 1999 hat das Forum VoiceXML 0.9 für die Mitglied-Anmerkung befreit, und im März 2000 haben sie VoiceXML 1.0 veröffentlicht. Bald später hat das Forum die Kontrolle des Standards zum W3C umgesetzt. Der W3C hat mehrere Zwischenversionen von VoiceXML 2.0 erzeugt, der die End-"Empfehlungs"-Bühne im März 2004 erreicht hat.

VoiceXML 2.1 hat einen relativ kleinen Satz von zusätzlichen Eigenschaften zu VoiceXML 2.0, gestützt auf dem Feed-Back von Durchführungen des 2.0 Standards hinzugefügt. Es ist mit VoiceXML 2.0 und erreichter W3C Empfehlungsstatus im Juni 2007 rückwärts kompatibel.

Zukünftige Versionen des Standards

  • VoiceXML 3.0 wird die folgende Hauptausgabe von VoiceXML mit neuen Haupteigenschaften sein. Es schließt einen neuen XML statechart Beschreibungssprache genannt SCXML ein.

Zusammenhängende Standards

Das W3C's Rede-Schnittstelle-Fachwerk definiert auch diese anderen mit VoiceXML nah vereinigten Standards.

SRGS und SISR

Speech Recognition Grammar Specification (SRGS) wird verwendet, um die Rede recognizer zu erzählen, welche Satz-Muster es annehmen sollte zu hören: Diese Muster werden Grammatiken genannt. Einmal die Rede bestimmt recognizer den wahrscheinlichsten Satz, den es gehört hat, muss es die semantische Bedeutung aus diesem Satz herausziehen und es dem Dolmetscher von VoiceXML zurückgeben. Diese semantische Interpretation wird über die Semantische Interpretation für die Spracherkennung (SISR) Standard angegeben. SISR wird innerhalb von SRGS verwendet, um die semantischen Ergebnisse anzugeben, die mit den Grammatiken, d. h., der Satz von ECMAScript Anweisungen vereinigt sind, die die semantische Struktur schaffen, die durch die Rede recognizer zurückgegeben ist.

SSML

Speech Synthesis Markup Language (SSML) wird verwendet, um textlich zu schmücken, veranlasst mit der Information darüber, wie man sie am besten in der synthetischen Rede zum Beispiel macht, welche Rede-Synthesizer-Stimme zu verwenden, oder wenn man lauter oder weicher spricht.

PLS

Pronunciation Lexicon Specification (PLS) wird verwendet, um zu definieren, wie Wörter ausgesprochen werden. Die erzeugte Artikulationsinformation wird gemeint, um sowohl durch die Rede recognizers als auch durch Rede-Synthesizer in Stimmendurchsuchen-Anwendungen verwendet zu werden.

CCXML

Die Anruf-Kontrolle ausziehbare Preiserhöhungssprache (CCXML) ist ein W3C Ergänzungsstandard. Ein CCXML Dolmetscher wird auf einigen Plattformen von VoiceXML verwendet, die anfängliche Anruf-Einstellung zwischen dem Anrufer und dem Stimmenbrowser zu behandeln, und Telefonie-Dienstleistungen wie Anruf zur Verfügung zu stellen, übertragen und trennen zum Stimmenbrowser. CCXML kann auch in non-VoiceXML Zusammenhängen verwendet werden.

MSML, MSCML, MediaCTRL

In Mediaserver-Anwendungen ist es häufig für mehrere Anruf-Beine notwendig, mit einander zum Beispiel in einer Mehrparteikonferenz aufeinander zu wirken. Einige Mängel wurden in VoiceXML für diese Anwendung identifiziert, und so haben Gesellschaften spezifische scripting Sprachen entworfen, um sich mit dieser Umgebung zu befassen. Media Server Markup Language (MSML) war die Lösung von Convedia, und Media Server Control Markup Language (MSCML) war Snowshore, der jetzt von Dialogic im Besitz ist. Diese Sprachen enthalten auch 'Haken', so dass Außenschriften (wie VoiceXML) auf Anruf-Beinen laufen können, wo IVR Funktionalität erforderlich ist.

Es gibt genannten mediactrl einer IETF Arbeitsgruppe ("Mediakontrolle"), der an einem Nachfolger für diese scripting Systeme arbeitet, die sie gehofft wird, wird zu einem offenen und weit angenommenen Standard fortschreiten.

Siehe auch

  • CCXML - Anruf-Kontrolle ausziehbare Preiserhöhungssprache
  • ECMAScript - die scripting Sprache, die in VoiceXML verwendet ist
  • OpenVXI - eine offene Quelle Dolmetscher von VoiceXML
  • Pronunciation Lexicon Specification (PLS)
  • SCXML - Staatskarte XML
  • SISR - semantische Interpretation für die Spracherkennung
  • SRGS - Spracherkennungsgrammatik-Spezifizierung
  • SSML - Rede-Synthese-Preiserhöhungssprache
  • MSML, MSCML - Mediaserver-Preiserhöhungssprachen

Außenverbindungen


Die Lombok-Straße / Die Karimata-Straße
Impressum & Datenschutz