Rede-Synthese

Rede-Synthese ist die künstliche Produktion der menschlichen Rede. Ein Computersystem verwendet wird für diesen Zweck einen Rede-Synthesizer genannt, und kann in der Software oder Hardware durchgeführt werden. Ein System des Textes zur Rede (TTS) wandelt normalen Sprachtext in die Rede um; andere Systeme machen symbolische Sprachdarstellungen wie fonetische Abschriften in die Rede.

Synthetisierte Rede kann durch das Verketten von Stücken der registrierten Rede geschaffen werden, die in einer Datenbank versorgt werden. Systeme unterscheiden sich in der Größe der versorgten Rede-Einheiten; ein System, das Kopfhörer oder diphones versorgt, stellt die größte Produktionsreihe zur Verfügung, aber kann an Klarheit Mangel haben. Für spezifische Gebrauch-Gebiete berücksichtigt die Lagerung von kompletten Wörtern oder Sätzen Qualitätsproduktion. Wechselweise kann ein Synthesizer ein Modell der stimmlichen Fläche und anderen menschlichen Stimmeneigenschaften vereinigen, um eine "völlig synthetische" Stimmenproduktion zu schaffen.

Wie man

beurteilt, wird die Qualität eines Rede-Synthesizers durch seine Ähnlichkeit zur menschlichen Stimme und durch seine Fähigkeit verstanden. Ein verständliches Programm des Textes zur Rede erlaubt Leuten mit Sehschwächungen oder Lesen-Körperbehinderungen, schriftlichen Arbeiten an einem Hauscomputer zuzuhören. Vieler Computer Betriebssysteme hat Rede-Synthesizer seit dem Anfang der 1990er Jahre eingeschlossen.

Übersicht der Textverarbeitung

Ein System des Textes zur Rede (oder "Motor") wird aus zwei Teilen zusammengesetzt: ein Vorderende und ein Zurückende. Das Vorderende hat zwei Hauptaufgaben. Erstens wandelt es rohen Text um, der Symbole wie Zahlen und Abkürzungen in die Entsprechung von geschriebenen Wörtern enthält. Dieser Prozess wird häufig Textnormalisierung, Aufbereitung oder tokenization genannt. Das Vorderende teilt dann fonetische Abschriften jedem Wort zu, und teilt und kennzeichnet den Text in prosodische Einheiten, wie Ausdrücke, Klauseln und Sätze. Der Prozess, fonetische Abschriften Wörtern zuzuteilen, wird Text zum Phonem oder Konvertierung des Graphems zum Phonem genannt. Fonetische Abschriften und Prosodie-Information setzen zusammen die symbolische Sprachdarstellung zusammen, die Produktion bis zum Vorderende ist. Das Zurückende — häufig gekennzeichnet als der Synthesizer — wandelt dann die symbolische Sprachdarstellung in den Ton um. In bestimmten Systemen schließt dieser Teil die Berechnung der Zielprosodie ein (Wurf-Kontur, Phonem-Dauern), der dann der Produktionsrede auferlegt wird.

Geschichte

Lange bevor elektronische Signalverarbeitung erfunden wurde, gab es diejenigen, die versucht haben, Maschinen zu bauen, um menschliche Rede zu schaffen. Einige frühe Legenden der Existenz von "sprechenden Leitern" haben Gerbert von Aurillac eingeschlossen (d. 1003 n.Chr.), Albertus Magnus (1198-1280) und Roger Bacon (1214-1294).

1779 hat der dänische Wissenschaftler Christian Kratzenstein, an der russischen Akademie von Wissenschaften arbeitend, Modelle der menschlichen stimmlichen Fläche gebaut, die die fünf langen Vokaltöne erzeugen konnte (in der Notation, sind sie, und). Dem wurde von der Gebläse-bedienten "akustisch-mechanischen Rede-Maschine" von Wolfgang von Kempelen von Pressburg, Ungarn gefolgt, das in einer 1791-Zeitung beschrieben ist. Diese Maschine hat Modelle der Zunge und Lippen hinzugefügt, ihm ermöglichend, Konsonanten sowie Vokale zu erzeugen. 1837 hat Charles Wheatstone eine "Sprechen-Maschine erzeugt, die" auf dem Design von von Kempelen, und 1857, M gestützt ist. Faber hat den "Euphonia" gebaut. Das Design von Wheatstone wurde 1923 von Paget wieder belebt.

In den 1930er Jahren haben Glockenlaboratorien das Sprachentschlüsselungsgerät entwickelt, das automatisch Rede in seinen grundsätzlichen Ton und Klangfülle analysiert hat. Von seiner Arbeit am Sprachentschlüsselungsgerät hat Homer Dudley einen manuell Tastatur-bedienten Stimmensynthesizer genannt Der Voder entwickelt (Stimmendemonstrant), der er in 1939 New York Messe In der Welt ausgestellt hat.

Das Muster-Play-Back wurde von Dr Franklin S. Cooper und seinen Kollegen an Haskins Laboratorien gegen Ende der 1940er Jahre gebaut und 1950 vollendet. Es gab mehrere verschiedene Versionen dieses Hardware-Geräts, aber nur ein überleben zurzeit. Die Maschine wandelt Bilder der akustischen Muster der Rede in der Form eines spectrogram zurück in den Ton um. Mit diesem Gerät sind Alvin Liberman und Kollegen im Stande gewesen, akustische Stichwörter für die Wahrnehmung von fonetischen Segmenten (Konsonanten und Vokale) zu entdecken.

Dominierende Systeme waren in den 1980er Jahren und 1990er Jahren das MITalk System, gestützt größtenteils auf der Arbeit von Dennis Klatt an MIT und dem Glockenlaboratorium-System; der Letztere war eines der ersten mehrsprachigen sprachunabhängigen Systeme, umfassenden Gebrauch von Methoden der Verarbeitung der natürlichen Sprache machend.

Früh haben elektronische Rede-Synthesizer robotic erklingen lassen und waren häufig kaum verständlich. Die Qualität der synthetisierten Rede hat sich fest verbessert, aber die Produktion von zeitgenössischen Rede-Synthese-Systemen ist noch aus der wirklichen menschlichen Rede klar unterscheidbar.

Da das Kostenleistungsverhältnis Rede-Synthesizer veranlasst, preiswerter und zugänglicher für die Leute zu werden, werden mehr Menschen aus dem Gebrauch von Programmen des Textes zur Rede einen Nutzen ziehen.

Elektronische Geräte

Die ersten computergestützten Rede-Synthese-Systeme wurden gegen Ende der 1950er Jahre geschaffen. Das erste allgemeine englische System des Textes zur Rede wurde von Noriko Umeda. 1968 am Electrotechnical Laboratorium, Japan entwickelt. 1961 haben Physiker John Larry Kelly der Jüngere und Kollege Louis Gerstman einen Computer von IBM 704 verwendet, um Rede, ein Ereignis unter dem prominentesten in der Geschichte von Laboratorien von Bell zu synthetisieren. Der Stimmenrecorder-Synthesizer von Kelly (Sprachentschlüsselungsgerät) hat das Lied "Daisy Bell" mit der Musikbegleitung von Max Mathews erfrischt. Zusammenfallend besuchte Arthur C. Clarke seinen Freund und Kollegen John Pierce an den Laboratorien von Bell Möglichkeit von Murray Hill. Clarke war durch die Demonstration so beeindruckt, dass er es in der Höheszene seines Drehbuches für seinen Roman verwendet hat, wo der HAL 9000 Computer singt dasselbe Lied, wie es gestellt wird, um durch den Astronauten Dave Bowman zu schlafen. Trotz des Erfolgs der rein elektronischen Rede-Synthese wird Forschung noch in mechanische Rede-Synthesizer geführt. Anthropomorpher sprechender Roboter-Waseda-Sprecher Elektronik von SeriesHandheld, die Rede-Synthese zeigt, hat begonnen, in den 1970er Jahren zu erscheinen. Einer der ersten war Telesensory Systems Inc. (TSI) Rede + tragbare Rechenmaschine für den Rollladen 1976. TSI Rede + & andere Sprechen-Rechenmaschinen Gevaryahu, Jonathan, "TSI S14001A Rede-Synthesizer LSI Einheitliches Stromkreis-Handbuch" Andere Geräte wurde in erster Linie zu Bildungszwecken, solchen erzeugt, die & Periode Sprechen, die durch Texas InstrumentsBreslow erzeugt ist, u. a. Offene USA-4326710:" Die Unterhaltung elektronischen Spiels" am 27. April 1982 1978. Treue hat eine Sprechen-Version seines elektronischen Schachcomputers 1979 veröffentlicht. Stimmenschachherausforderer Das erste Videospiel, um Rede-Synthese zu zeigen, war 1980, schießt Arkade-Spiel, Stratovox von Sun Electronics. Die wichtigsten Evolutionen des Spielens, GamesRadar ein Anderes frühes Beispiel war die Arkade-Version von Bezerk, haben dieses dasselbe Jahr veröffentlicht. Das elektronische Spiel des ersten Mehrfachabspiellaufwerks mit der Stimmensynthese war Milton von Milton Bradley Company, die das Gerät 1980 erzeugt hat.

Synthesizer-Technologien

Die wichtigsten Qualitäten eines Rede-Synthese-Systems sind Natürlichkeit und Verständlichkeit. Natürlichkeit beschreibt, wie nah die Produktion menschlicher Rede ähnlich ist, während Verständlichkeit die Bequemlichkeit ist, mit der die Produktion verstanden wird. Der ideale Rede-Synthesizer ist sowohl natürlich als auch verständlich. Rede-Synthese-Systeme versuchen gewöhnlich, beide Eigenschaften zu maximieren.

Die zwei primären Technologien, um synthetische Rede-Wellenformen zu erzeugen, sind concatenative Synthese und formant Synthese. Jede Technologie hat Kräfte und Schwächen, und der beabsichtigte Gebrauch eines Synthese-Systems wird normalerweise bestimmen, welche Annäherung verwendet wird.

Synthese von Concatenative

Synthese von Concatenative basiert auf der Verkettung (oder aneinander reihend) von Segmenten der registrierten Rede. Allgemein, concatenative Synthese erzeugt die am meisten natürlich klingende synthetisierte Rede. Jedoch laufen Unterschiede zwischen natürlichen Schwankungen in der Rede und der Natur der automatisierten Techniken, für die Wellenformen zu segmentieren, manchmal auf hörbare Störschübe auf die Produktion hinaus. Es gibt drei Hauptsubtypen der concatenative Synthese.

Einheitsauswahl-Synthese

Einheitsauswahl-Synthese verwendet große Datenbanken der registrierten Rede. Während der Datenbankentwicklung wird jede registrierte Äußerung in einige oder den ganzen folgenden segmentiert: individuelle Kopfhörer, diphones, Halbkopfhörer, Silben, Morpheme, Wörter, Ausdrücke und Sätze. Gewöhnlich wird die Aufteilung mit einer besonders modifizierten Rede recognizer Satz zu einer "erzwungenen Anordnung" Weise mit etwas manueller Korrektur später, mit Sehdarstellungen wie die Wellenform und spectrogram getan. Ein Index der Einheiten in der Rede-Datenbank wird dann gestützt auf der Segmentation und den akustischen Rahmen wie die grundsätzliche Frequenz (Wurf), Dauer, Position in der Silbe und benachbarte Kopfhörer geschaffen. In der Durchlaufzeit wird die gewünschte Zieläußerung durch die Bestimmung der besten Kette von Kandidat-Einheiten von der Datenbank (Einheitsauswahl) geschaffen. Dieser Prozess wird normalerweise mit einem besonders belasteten Entscheidungsbaum erreicht.

Einheitsauswahl stellt die größte Natürlichkeit zur Verfügung, weil es nur einen kleinen Betrag der Digitalsignalverarbeitung (DSP) zur registrierten Rede anwendet. DSP macht häufig registrierten Sprachlaut weniger natürlich, obwohl einige Systeme einen kleinen Betrag des Signals verwenden, das am Punkt der Verkettung in einer Prozession geht, um die Wellenform zu glätten. Die Produktion von den besten Einheitsauswahl-Systemen ist häufig von echten menschlichen Stimmen besonders in Zusammenhängen nicht zu unterscheidend, für die das TTS System abgestimmt worden ist. Jedoch, maximale Natürlichkeit verlangen normalerweise, dass Einheitsauswahl-Rede-Datenbanken in einigen Systemen sehr groß sind, die sich in die Gigabytes von registrierten Daten erstrecken, Dutzende von Stunden der Rede vertretend. Außerdem, wie man bekannt hat, haben Einheitsauswahl-Algorithmen Segmente von einem Platz ausgewählt, der auf weniger hinausläuft als ideale Synthese (z.B, werden geringe Wörter unklar), selbst wenn eine bessere Wahl in der Datenbank besteht. Kürzlich haben Forscher verschiedene automatisierte Methoden vorgeschlagen, unnatürliche Segmente in Einheitsauswahl-Rede-Synthese-Systemen zu entdecken.

Synthese von Diphone

Synthese von Diphone verwendet eine minimale Rede-Datenbank, die den ganzen diphones (Ton-zu-Ton-Übergänge) enthält, auf einer Sprache vorkommend. Die Zahl von diphones hängt vom phonotactics der Sprache ab: Zum Beispiel hat Spanisch ungefähr 800 diphones und Deutsch ungefähr 2500. In der diphone Synthese wird nur ein Beispiel jedes diphone in der Rede-Datenbank enthalten. An der Durchlaufzeit ist die Zielprosodie eines Satzes auf diesen minimalen Einheiten mittels Digitalsignalverarbeitungstechniken wie das geradlinige prophetische Codieren, PSOLA oder MBROLA überlagert. Synthese von Diphone leidet unter den Schallstörschüben der concatenative Synthese und der robotic-tönenden Natur der formant Synthese, und hat wenige der Vorteile jeder Annäherung außer der kleinen Größe. Als solcher neigt sich sein Gebrauch in kommerziellen Anwendungen, obwohl es fortsetzt, in der Forschung verwendet zu werden, weil es mehrere frei verfügbare Softwaredurchführungen gibt.

Bereichsspezifische Synthese

Bereichsspezifische Synthese verkettet bespielte Wörter und Ausdrücke, um ganze Äußerungen zu schaffen. Es wird in Anwendungen verwendet, wo die Vielfalt von Texten das System wird Produktion, auf ein besonderes Gebiet, wie Transitterminansagen oder Wetterberichte beschränkt wird. Die Technologie ist sehr einfach durchzuführen, und ist im kommerziellen Gebrauch seit langem, in Geräten wie Unterhaltung von Uhren und Rechenmaschinen gewesen. Das Niveau der Natürlichkeit dieser Systeme kann sehr hoch sein, weil die Vielfalt von Satz-Typen beschränkt wird, und sie nah die Prosodie und Tongebung der Uraufschreibungen vergleichen.

Weil diese Systeme durch die Wörter und Ausdrücke in ihren Datenbanken beschränkt werden, sind sie nicht Mehrzweck- und können nur die Kombinationen von Wörtern und Ausdrücken synthetisieren, mit denen sie vorprogrammiert worden sind. Das Mischen von Wörtern innerhalb der natürlich Sprache kann noch jedoch Probleme verursachen, wenn die vielen Schwankungen nicht in Betracht gezogen werden. Zum Beispiel in non-rhotic Dialekten von Englisch wird der "r" in Wörtern wie "klarer" gewöhnlich nur ausgesprochen, wenn das folgende Wort einen Vokal als sein erster Brief hat (z.B "verschwinden" wird als begriffen). Ebenfalls in Französisch werden viele Endkonsonanten nicht mehr still, wenn gefolgt, von einem Wort, das mit einem Vokal, eine Wirkung genannt Verbindung beginnt. Dieser Wechsel kann durch ein einfaches Wortverkettungssystem nicht wieder hervorgebracht werden, das verlangen würde, dass zusätzliche Kompliziertheit mit dem Zusammenhang empfindlich ist.

Synthese von Formant

Synthese von Formant verwendet menschliche Rede-Proben an der Durchlaufzeit nicht. Statt dessen wird die synthetisierte Rede-Produktion mit der zusätzlichen Synthese und einem akustischen Modell (physische modellierende Synthese) geschaffen. Rahmen wie grundsätzliche Frequenz, das Äußern und die Geräuschniveaus werden mit der Zeit geändert, um eine Wellenform der künstlichen Rede zu schaffen. Diese Methode wird manchmal Regel-basierte Synthese genannt; jedoch haben viele concatenative Systeme auch Regel-basierte Bestandteile.

Viele auf der formant Synthese-Technologie gestützte Systeme erzeugen künstliche, robotic-tönende Rede, die für die menschliche Rede nie falsch sein würde. Jedoch ist maximale Natürlichkeit nicht immer die Absicht eines Rede-Synthese-Systems, und formant Synthese-Systeme sind im Vorteil gegenüber concatenative Systemen. Formant-synthetisierte Rede kann sogar mit sehr hohen Geschwindigkeiten zuverlässig verständlich sein, die akustischen Störschübe dass allgemein Plage concatenative Systeme vermeidend. Synthetisierte Hochleistungsrede wird durch visuell verschlechtert verwendet, um Computer mit einem Schirm-Leser schnell zu befahren. Synthesizer von Formant sind gewöhnlich kleinere Programme als concatenative Systeme, weil sie keine Datenbank von Rede-Proben haben. Sie können deshalb in eingebetteten Systemen verwendet werden, wo Gedächtnis und Mikroprozessor-Macht besonders beschränkt werden. Weil mit Sitz in formant Systeme ganze Kontrolle aller Aspekte der Produktionsrede haben, kann ein großes Angebot an Prosodien und Tongebungen Produktion sein, nicht nur Fragen und Behauptungen, aber eine Vielfalt von Gefühlen und Töne der Stimme befördernd.

Beispiele der nichtschritthaltenden, aber hoch genauen Tongebungskontrolle in der formant Synthese schließen die geleistete Arbeit gegen Ende der 1970er Jahre für das Instrument-Spielzeug von Texas ein Sprechen & Periode, und am Anfang der 1980er Jahre Arkade-Maschinen von Sega und in vielen Arkade-Spielen von Atari, Inc. mit dem TMS5220 LPC Chips. Das Schaffen richtiger Tongebung für diese Projekte war sorgfältig, und die Ergebnisse müssen noch durch Echtzeitschnittstellen des Textes zur Rede verglichen werden.

Artikulationssynthese

Artikulationssynthese bezieht sich auf rechenbetonte Techniken, um Rede zu synthetisieren, die auf Modellen der menschlichen stimmlichen Fläche und der Aussprache-Prozesse gestützt ist, die dort vorkommen. Der erste für Laborexperimente regelmäßig verwendete Artikulationssynthesizer wurde an Haskins Laboratorien Mitte der 1970er Jahre von Philip Rubin, Tom Baer und Paul Mermelstein entwickelt. Dieser Synthesizer, bekannt als ASY, hat auf stimmlichen Fläche-Modellen basiert, die an Glockenlaboratorien in den 1960er Jahren und 1970er Jahren durch Paul Mermelstein, Cecil Coker und Kollegen entwickelt sind.

Bis neulich sind Artikulationssynthese-Modelle in kommerzielle Rede-Synthese-Systeme nicht vereinigt worden. Eine bemerkenswerte Ausnahme ist das FOLGENDE System, das ursprünglich entwickelt und durch die Trillium-Ton-Forschung, eine Nebenprodukt-Gesellschaft der Universität Calgarys auf den Markt gebracht ist, wo viel von der ursprünglichen Forschung geführt wurde. Im Anschluss an die Besitzübertragung der verschiedenen Verkörperungen von NeXT (angefangen mit Steve Jobs gegen Ende der 1980er Jahre und verschmolzen mit dem Apple Computer 1997) wurde die Software von Trillium laut der GNU-Lizenz der Breiten Öffentlichkeit mit der Arbeit veröffentlicht, die als gnuspeech weitergeht. Das System, zuerst auf den Markt gebracht 1994, stellt voller Artikulationskonvertierung des Textes zur Rede das Verwenden eines Wellenleiters oder Übertragungslinie-Analogons der menschlichen mündlichen und vom "kennzeichnenden Gebiet-Modell von Carré kontrollierten Nasenflächen" zur Verfügung.

HMM-basierte Synthese

HMM-basierte Synthese ist eine Synthese-Methode, die auf verborgenen Modellen von Markov auch gestützt ist, genannt Statistische Parametrische Synthese. In diesem System wird das Frequenzspektrum (stimmliche Fläche), grundsätzliche Frequenz (stimmliche Quelle), und Dauer (Prosodie) der Rede gleichzeitig durch HMMs modelliert. Rede-Wellenformen werden von auf dem maximalen Wahrscheinlichkeitskriterium selbst gestütztem HMMs erzeugt.

Sinuswelle-Synthese

Sinuswelle-Synthese ist eine Technik, um Rede durch das Ersetzen des formants (Hauptbänder der Energie) mit reinen Ton-Pfeifen zu synthetisieren.

Herausforderungen

Textnormalisierungsherausforderungen

Der Prozess, Text zu normalisieren, ist selten aufrichtig. Texte sind mit heteronyms, Zahlen und Abkürzungen voll, dass alle Vergrößerung in eine fonetische Darstellung verlangen. Es gibt viele Rechtschreibungen in Engländern, die verschieden gestützt auf dem Zusammenhang ausgesprochen werden. Zum Beispiel "Ist mein letztes Projekt zu erfahren, wie man besser plant, dass meine Stimme" zwei Artikulationen "des Projektes" enthält.

Die meisten Systeme des Textes zur Rede (TTS) erzeugen semantische Darstellungen ihrer Eingangstexte nicht, weil Prozesse, um so zu tun, gut verstandene nicht zuverlässig oder rechenbetont wirksam sind. Infolgedessen werden verschiedene heuristische Techniken verwendet, um die richtige Weise zu erraten, Homographen, wie das Überprüfen benachbarter Wörter und Verwenden der Statistik über die Frequenz des Ereignisses zu disambiguieren.

Kürzlich haben TTS Systeme begonnen, HMMs (besprochen oben) zu verwenden, "um Wortarten" zu erzeugen, um im Disambiguieren von Homographen zu helfen. Diese Technik ist für viele Fälle solcher als ziemlich erfolgreich, ob "gelesen" als "rote" Andeutungsvergangenheit, oder als "Rohr" ausgesprochen werden sollte, das Gegenwart einbezieht. Typische Fehlerraten, wenn sie HMMs auf diese Mode verwenden, sind gewöhnlich unter fünf Prozent. Diese Techniken arbeiten auch gut für die meisten europäischen Sprachen, obwohl der Zugang zur erforderlichen Lehrkorpora auf diesen Sprachen oft schwierig ist.

Das Entscheiden, wie man Zahlen umwandelt, ist ein anderes Problem, das TTS Systeme richten müssen. Es ist eine einfache Programmierherausforderung, eine Zahl in Wörter (mindestens in Englisch), wie "1325" das Werden "eintausenddreihundertfünfundzwanzig umzuwandeln." Jedoch kommen Zahlen in vielen verschiedenen Zusammenhängen vor; "1325" kann auch als "ein drei zwei fünf", "dreizehn fünfundzwanzig" oder "eintausenddreihundertfünfundzwanzig" gelesen werden. Ein TTS System kann häufig ableiten, wie man eine Zahl ausbreitet, die auf Umgebungswörtern, Zahlen und Zeichensetzung gestützt ist, und manchmal das System eine Weise zur Verfügung stellt, den Zusammenhang anzugeben, wenn es zweideutig ist. Römische Ziffern können auch verschieden abhängig vom Zusammenhang gelesen werden. Zum Beispiel liest "Henry VIII" als "Henry das Achte", während "Kapitel VIII" als "Kapitel Acht" liest.

Ähnlich können Abkürzungen zweideutig sein. Zum Beispiel muss die Abkürzung "in" für "Zoll" vom Wort "in", und die Adresse "12 St John St" Gebrauch dieselbe Abkürzung sowohl für "den Heiligen" als auch für "die Straße" unterschieden werden. TTS Systeme mit intelligenten Vorderenden können erzogene Annahmen über zweideutige Abkürzungen machen, während andere dasselbe zur Verfügung stellen, laufen auf alle Fälle hinaus, sinnlos (und manchmal komisch) Produktionen wie "Zusammenarbeit" hinauslaufend, die als "Firmenoperation" wird macht.

Herausforderungen des Textes zum Phonem

Rede-Synthese-Systeme verwenden zwei grundlegende Annäherungen, um die Artikulation eines Wortes zu bestimmen, das auf seiner Rechtschreibung, ein Prozess gestützt ist, der häufig Text zum Phonem oder Konvertierung des Graphems zum Phonem genannt wird (ist Phonem der von Linguisten gebrauchte Begriff, um kennzeichnende Töne auf einer Sprache zu beschreiben). Die einfachste Annäherung an die Konvertierung des Textes zum Phonem ist die Wörterbuch-basierte Annäherung, wo ein großes Wörterbuch, das alle Wörter einer Sprache und ihrer richtigen Artikulationen enthält, durch das Programm versorgt wird. Die Bestimmung der richtigen Artikulation jedes Wortes ist eine Sache, jedes Wort im Wörterbuch nachzuschlagen und die Rechtschreibung durch die im Wörterbuch angegebene Artikulation zu ersetzen. Die andere Annäherung ist regelbasierend, in dem Artikulationsregeln auf Wörter angewandt werden, um ihre auf ihren Rechtschreibungen gestützten Artikulationen zu bestimmen. Das ist dem "Loten" oder synthetischem phonics ähnlich, nähern Sie sich dem Lernen des Lesens.

Jede Annäherung ist im Vorteil und Nachteile. Die Wörterbuch-basierte Annäherung ist schnell und genau, aber scheitert völlig, wenn sie ein Wort gegeben wird, das nicht in seinem Wörterbuch ist. Als Wörterbuch-Größe wächst, so auch tut die Speicherraumvoraussetzungen des Synthese-Systems. Andererseits, die regelbasierenden Annäherungsarbeiten an jedem Eingang, aber die Kompliziertheit der Regeln wächst wesentlich, weil das System unregelmäßige Rechtschreibungen oder Artikulationen in Betracht zieht. (Denken Sie, dass das Wort "dessen" in Englisch sehr üblich ist, noch ist das einzige Wort, in dem der Brief "f" [v] ausgesprochen wird.) Infolgedessen verwenden fast alle Rede-Synthese-Systeme eine Kombination dieser Annäherungen.

Sprachen mit einer fonetischen Rechtschreibung haben ein sehr regelmäßiges Schreiben-System, und die Vorhersage der Artikulation von auf ihren Rechtschreibungen gestützten Wörtern ist ziemlich erfolgreich. Rede-Synthese-Systeme für solche Sprachen verwenden häufig die regelbasierende Methode umfassend, Wörterbücher nur für jene wenigen Wörter, wie Auslandsnamen und Anleihen aufsuchend, deren Artikulationen von ihren Rechtschreibungen nicht offensichtlich sind. Andererseits werden sich Rede-Synthese-Systeme für Sprachen wie Engländer, die äußerst unregelmäßige sich schreibende Systeme haben, mit größerer Wahrscheinlichkeit auf Wörterbücher verlassen, und regelbasierende Methoden nur für ungewöhnliche Wörter oder Wörter zu verwenden, die nicht in ihren Wörterbüchern sind.

Einschätzungsherausforderungen

Die konsequente Einschätzung von Rede-Synthese-Systemen kann wegen eines Mangels an allgemein abgestimmten objektiven Einschätzungskriterien schwierig sein. Verschiedene Organisationen verwenden häufig verschiedene Rede-Daten. Die Qualität von Rede-Synthese-Systemen hängt auch in großem Maße von der Qualität der Produktionstechnik ab (der Entsprechung oder Digitalaufnahme einschließen kann), und auf den Möglichkeiten, die an das Wiederholungsspiel die Rede verwendet sind. Das Auswerten von Rede-Synthese-Systemen ist deshalb häufig durch Unterschiede zwischen Produktionstechniken und Wiederholungsspiel-Möglichkeiten in Verlegenheit gebracht worden.

Kürzlich, jedoch, haben einige Forscher angefangen, Rede-Synthese-Systeme mit einer Umgangssprache dataset zu bewerten.

Prosodics und emotionaler Inhalt

Eine Studie in der Zeitschrift "Rede-Kommunikation" durch Amy Drahota und Kollegen an der Universität von Portsmouth, das Vereinigte Königreich, hat berichtet, dass Zuhörer, um Aufnahmen zu äußern, an besser bestimmen konnten als Zufallsniveaus, ob der Sprecher lächelte. Es wurde darauf hingewiesen, dass die Identifizierung der stimmlichen Eigenschaften, die emotionalem Inhalt Zeichen geben, verwendet werden kann, um zu helfen, synthetisierten Sprachlaut natürlicher zu machen.

Hingebungsvolle Hardware

  • Votrax
  • SC-01A (Analogon formant)
  • SC-02 / SSI-263 / "Zug 263"
  • Allgemeines Instrument SP0256-AL2 (CTS256A-AL2)
  • Magnevation SpeakJet (www.speechchips.com TTS256)
  • Nationaler Halbleiter DT1050 Digitalker (Mozer - Forrest Mozer)
  • Silikonsysteme SSI 263 (Analogon formant)
  • Instrumente von Texas LPC Rede-Chips ** TMS5110A ** TMS5200
  • MSP50C6XX - Verkauft an Sensory, Inc. 2001

Veröffentlicht 2011 24 Sprachkernmodul-System

Computer Betriebssysteme oder Ausgänge mit der Rede-Synthese

Atari

Wohl war das erste in ein Betriebssystem integrierte Rede-System die 1400XL/1450XL von Atari, Inc. entworfenen Personalcomputer mit dem Votrax SC01 steuern in 1983 bei. Die 1400XL/1450XL Computer haben eine Zustandsmaschine verwendet, um sich Schreibende englische Weltsynthese des Textes zur Rede zu ermöglichen. Leider haben sich die 1400XL/1450XL Personalcomputer nie in der Menge eingeschifft.

Die Atari ST-Computer wurden mit "stspeech.tos" auf der Diskette verkauft.

Apfel

Das erste Rede-System hat in ein Betriebssystem integriert, das sich in der Menge eingeschifft hat, war Apple Computer's MacInTalk 1984. Die Software wurde von 3. Parteientwicklern Joseph Katz und Mark Barton (später, SoftVoice, Inc.) lizenziert und wurde während der 1984-Einführung des Computers von Macintosh gezeigt. Seit den 1980er Jahren haben Computer von Macintosh Text Rede-Fähigkeiten durch Die Software von MacinTalk angeboten. Am Anfang der 1990er Jahre hat der Apfel sein Fähigkeitsangebotssystem breite Unterstützung des Textes zur Rede ausgebreitet. Mit der Einführung von schnelleren mit Sitz in PowerPC Computern haben sie höhere Qualitätsstimmenstichprobenerhebung eingeschlossen. Apfel hat auch Spracherkennung in seine Systeme eingeführt, die einen flüssigen Befehlssatz zur Verfügung gestellt haben. Mehr kürzlich hat Apfel beispielbasierte Stimmen hinzugefügt. Starting als eine Wissbegierde, das Rede-System von Apple Macintosh hat sich zu einem völlig unterstützten Programm, PlainTalk für Leute mit Visionsproblemen entwickelt. VoiceOver wurde zum ersten Mal in Mac OS X Tiger (10.4) gezeigt. Während 10.4 (Tiger) & die ersten Ausgaben 10.5 (Leopard) dort war nur eine Standardstimme, die sich mit Mac OS X. Starting mit 10.6 einschifft (Schnee-Leopard), der Benutzer kann aus einer breiten Reihe-Liste von vielfachen Stimmen wählen. Stimmen von VoiceOver zeigen die Einnahme des realistisch klingenden Atems zwischen Sätzen, sowie verbesserte Klarheit an hohen gelesenen Raten über PlainTalk. Mac OS X schließt auch ein sagen, eine Befehl-Linie hat Anwendung gestützt, die Text zur hörbaren Rede umwandelt. Die Standardhinzufügungen von AppleScript schließen ein sagen Verb ein, das einer Schrift erlaubt, einige der installierten Stimmen zu verwenden und den Wurf, die Sprechen-Rate und die Modulation des gesprochenen Textes zu kontrollieren.

Das Apfel-EIN/AUSGABE-STEUERSYSTEM Betriebssystem, das auf dem iPhone, iPad und iPod touch verwendet ist, verwendet Rede-Synthese von VoiceOver für die Zugänglichkeit. Einige Drittanwendungen stellen auch Rede-Synthese zur Verfügung, um das Steuern, Lesen von Webseiten oder Übersetzen des Textes zu erleichtern.

AmigaOS

Das zweite Betriebssystem mit fortgeschrittenen Rede-Synthese-Fähigkeiten war AmigaOS, eingeführt 1985. Die Stimmensynthese wurde von Commodore International von SoftVoice, Inc. lizenziert, die auch das ursprüngliche System des Textes zur Rede von MacinTalk entwickelt hat. Es hat ein ganzes System des Stimmenwetteifers, sowohl mit männlichen als auch mit weiblichen Stimmen und "Betonungs"-Anzeigeanschreibern, gemacht möglich durch fortgeschrittene Eigenschaften der Hardware von Amiga Audiochipset gezeigt. Es wurde in ein Erzähler-Gerät und eine Übersetzer-Bibliothek geteilt. Amiga Sprechen Dressierer hat einen Übersetzer des Textes zur Rede gezeigt. AmigaOS hat Rede-Synthese als ein virtuelles Hardware-Gerät betrachtet, so konnte der Benutzer sogar Konsole-Produktion dazu umadressieren. Einige Amiga Programme, wie Textverarbeitungsprogramme, haben umfassenden Gebrauch des Rede-Systems gemacht.

Windows von Microsoft

Moderne Windows-Tischsysteme können SAPI 4 und SAPI 5 Bestandteile verwenden, um Rede-Synthese und Spracherkennung zu unterstützen. SAPI 4.0 war als eine fakultative Erweiterung für Windows 95 und Windows 98 verfügbar. Windows 2000 hat Erzähler, ein Dienstprogramm des Textes zur Rede für Leute hinzugefügt, die Sehhandikaps haben. Drittprogramme wie CoolSpeech, Textaloud und Ultra Hal können verschiedene Aufgaben des Textes zur Rede wie das Lesen des Textes laut von einer angegebenen Website, E-Mail-Rechnung, Textdokument, der Windows-Zwischenablage, dem Tastatur-Schreiben des Benutzers usw. durchführen. Nicht alle Programme können Rede-Synthese direkt verwenden. Einige Programme können Einfügefunktionen, Erweiterungen oder Erweiterungen verwenden, um Text laut zu lesen. Drittprogramme sind verfügbar, der Text aus der Systemzwischenablage lesen kann.

Microsoft Speech Server ist ein Server-basiertes Paket für die Stimmensynthese und Anerkennung. Es wird für den Netzgebrauch mit Webanwendungen und Anruf-Zentren entworfen.

Text zur Rede (TTS) bezieht sich auf die Fähigkeit von Computern, Text laut zu lesen. Ein TTS Motor wandelt schriftlichen Text zu einer fonetischen Darstellung um, wandelt dann die fonetische Darstellung zu Wellenformen um, die Produktion als Ton sein können. TTS Motoren mit verschiedenen Sprachen, Dialekten und spezialisierten Vokabularen sind durch Drittherausgeber verfügbar.

Androide

Die Version 1.6 des Androiden hat Unterstützung für die Rede-Synthese (TTS) hinzugefügt.

Internet

Zurzeit gibt es mehrere Anwendungen, plugins und Geräte, die Nachrichten direkt von einem E-Mail-Kunden und Webseiten von einem WWW-Browser oder Google Werkzeugleiste wie Text-zu-stimmig lesen können, der eine Erweiterung zu Firefox ist. Eine Spezialsoftware kann RSS-Futter erzählen. Einerseits vereinfachen Online-RSS-Erzähler Informationsübergabe, indem sie Benutzern erlauben, ihren Lieblingsnachrichtenquellen zuzuhören und sie zu podcasts umzuwandeln. Andererseits sind Online-RSS-Leser auf fast jedem mit dem Internet verbundenen PC verfügbar. Benutzer können erzeugte Audiodateien zu tragbaren Geräten z.B mit einer Hilfe des podcast Empfängers herunterladen, und ihnen zuhören, während sie spazieren gehen, trottend oder zur Arbeit pendelnd.

Ein wachsendes Feld in gestütztem TTS des Internets wird assistive Technologie, z.B 'Browsealoud' von einer Gesellschaft des Vereinigten Königreichs und Readspeaker webgestützt. Es kann TTS Funktionalität jedem (aus Gründen von Zugänglichkeit, Bequemlichkeit, Unterhaltung oder Information) mit dem Zugang zu einem WWW-Browser liefern. Das gemeinnützige Projekt wurde 2006 geschaffen, um eine ähnliche webbasierte TTS-Schnittstelle zur Verfügung zu stellen.

Andere Arbeit wird im Zusammenhang des W3C durch W3C Audio Incubator Group mit der Beteiligung von BBC and Google Inc. getan

Andere

  • Einige E-Buchleser, wie der Amazonas, Flammen Samsung E6, PocketBook eReader Pro, Umgebungsrand und der Bebook Neo Auf.
  • Einige Modelle von Instrumenten von Texas Hauscomputer erzeugt 1979 und 1981 (Instrumente von Texas TI-99/4 und TI-99/4A) waren zur Synthese des Textes zum Phonem fähig oder ganze Wörter und Ausdrücke (Text zum Wörterbuch) mit einem sehr populären peripherischen Rede-Synthesizer rezitierend. TI hat einen Eigentumscodec verwendet, um ganze gesprochene Ausdrücke in Anwendungen, in erster Linie Videospiele einzubetten.
  • Das OS/2-Verziehen von IBM 4 eingeschlossene VoiceType, ein Vorgänger zu IBM ViaVoice.
  • Systeme, die auf freien und offenen Quellsoftwaresystemen einschließlich Linux funktionieren, sind verschieden, und schließen Programme der offenen Quelle wie das Festrede-Synthese-System ein, das mit Sitz in diphone Synthese verwendet (und eine begrenzte Zahl von MBROLA Stimmen verwenden kann), und gnuspeech, der Artikulationssynthese von der Organisation zur Förderung freier Software verwendet.
  • Gesellschaften, die Rede-Synthese-Systeme entwickelt haben, aber die nicht mehr in diesem Geschäft sind, schließen Rede von BeST (gekauft durch L&H), Beredte Technologie (gekauft von SpeechWorks), Lernout & Hauspie (gekauft durch die Nuance), SpeechWorks (gekauft durch die Nuance), Rhetorische Systeme (gekauft durch die Nuance) ein.
  • GPS Navigationseinheiten, die von Garmin, Magellan erzeugt sind, TomTom und andere verwenden Rede-Synthese für die Kraftfahrzeugnavigation.

Rede-Synthese-Preiserhöhungssprachen

Mehrere Preiserhöhungssprachen sind für die Interpretation des Textes als Rede in einem XML-entgegenkommenden Format gegründet worden. Das neuste ist Speech Synthesis Markup Language (SSML), die eine W3C Empfehlung 2004 geworden ist. Ältere Rede-Synthese-Preiserhöhungssprachen schließen Java Speech Markup Language (JSML) und ZOBEL ein. Obwohl jeder von diesen als ein Standard vorgeschlagen wurde, ist keiner von ihnen weit angenommen worden.

Rede-Synthese-Preiserhöhungssprachen sind aus Dialog-Preiserhöhungssprachen bemerkenswert. VoiceXML schließt zum Beispiel Anhängsel ein, die mit der Spracherkennung, dem Dialog-Management und touchtone verbunden sind, wählend, zusätzlich zur Preiserhöhung des Textes zur Rede.

Anwendungen

Rede-Synthese ist lange ein assistive Lebenstechnologiewerkzeug gewesen, und seine Anwendung in diesem Gebiet ist bedeutend und weit verbreitet. Es erlaubt Umweltbarrieren, für Leute mit einer breiten Reihe von Körperbehinderungen entfernt zu werden. Die längste Anwendung ist im Gebrauch von Schirm-Lesern für Leute mit der Sehschwächung gewesen, aber Systeme des Textes zur Rede werden jetzt von Leuten mit Legasthenie und anderen Lesen-Schwierigkeiten sowie von des Lesens und Schreibens vorkundigen Kindern allgemein verwendet. Sie werden auch oft angestellt, um denjenigen mit der strengen Rede-Schwächung gewöhnlich durch eine hingebungsvolle Stimmenproduktionsnachrichtenhilfe zu helfen.

Rede-Synthese-Techniken werden auch in der Unterhaltungsproduktion wie Spiele und Zeichentrickfilme verwendet. 2007 hat Animo Limited die Entwicklung eines Softwareanwendungspakets bekannt gegeben, das auf seiner Rede-Synthese-Software FineSpeech ausführlich gestützt ist, der zu Kunden in den Unterhaltungsindustrien eingestellt ist, fähig, Narration und Linien des Dialogs gemäß Benutzerspezifizierungen zu erzeugen. Die Anwendung hat Reife 2008 erreicht, als NEC Biglobe einen Webdienst bekannt gegeben hat, der Benutzern erlaubt, Ausdrücke von den Stimmen von Charakteren zu schaffen.

In den letzten Jahren ist der Text zur Rede für die Unfähigkeit und behinderte Nachrichtenhilfe weit aufmarschiert in der Massendurchfahrt geworden. Gesellschaften wie Systeme von TalkingSigns und TextSpeak haben für Lösungen wie TTS für die Digitalbeschilderung für den Rollladen, diese Arbeit über Standardsprecher und auch Radioempfänger den Weg gebahnt (ab: BARONET im SF Kastanienbraunen Gebiet). Der Text zur Rede findet auch neue Anwendungen außerhalb des Unfähigkeitsmarktes. Zum Beispiel berücksichtigt Rede-Synthese, die mit der Spracherkennung verbunden ist, Wechselwirkung mit beweglichen Geräten über Schnittstellen der Verarbeitung der natürlichen Sprache. Rede-Synthese wird auch verwendet, für die Entwicklung von Online-Präsentationen zu erleichtern.

Siehe auch

  • CereProc
  • Chinesische Rede-Synthese
  • Vergleich von Rede-Synthesizern
  • Loquendo
  • Stimmen des Textes zur Rede von Microsoft
  • Papierloses Büro
  • Vergleich von Schirm-Lesern
  • Rede, die in einer Prozession geht
  • Stille Rede-Schnittstelle
  • Text zur Stimme — Erweiterung von Mozilla Firefox
  • Vocaloid

Außenverbindungen


Sophie Marceau / 374
Impressum & Datenschutz