Spracherkennung

Anerkennung screensaver auf einem PC, in welchen der Charakter auf Fragen z.B antwortet, "Wo sind Sie?" oder Behauptungen, z.B "Hallo".]] In der Informatik ist Spracherkennung die Übersetzung von gesprochenen Wörtern in den Text. Es ist auch bekannt als "automatische Spracherkennung", "ASR", "Computerspracherkennung", "Rede zum Text", oder gerade "STT".

Spracherkennung ist Technologie, die gesprochene Wörter in den Text übersetzen kann. Einige SR Systeme verwenden "Ausbildung", wo ein individueller Sprecher Abteilungen des Textes ins SR System liest. Diese Systeme analysieren die spezifische Stimme der Person und verwenden sie an der feinen Melodie die Anerkennung der Rede dieser Person, auf genauere Abschrift hinauslaufend. Systeme, die Ausbildung nicht verwenden, werden Systeme "von Speaker Independent" genannt. Systeme, die Ausbildung verwenden, werden Systeme "von Speaker Dependent" genannt.

Spracherkennungsanwendungen schließen Stimmenbenutzerschnittstellen wie Stimme wählend (z.B, "Anruf nach Hause") ein, nennen Sie Routenplanung (z.B, "Ich würde gern ein R-Gespräch" machen), domotic Gerät-Kontrolle, gesucht (z.B, finden Sie einen podcast, wo besondere Wörter gesprochen wurden), einfacher Datenzugang (z.B, in eine Kreditkartennummer eingehend), Vorbereitung von strukturierten Dokumenten (z.B, ein Röntgenologie-Bericht), Verarbeitung der Rede zum Text (z.B, Textverarbeitungsprogramme oder E-Mails), und Flugzeug (hat gewöhnlich Direkten Stimmeneingang genannt).

Die Begriff-Stimmenanerkennung bezieht sich auf die Entdeckung der Identität dessen, "wer" spricht, aber nicht was sie sagen. Das Erkennen des Sprechers kann die Aufgabe vereinfachen, Rede in Systemen zu übersetzen, die auf den Stimmen der spezifischen Person erzogen worden sind oder es verwendet werden kann, um die Identität eines Sprechers als ein Teil eines Sicherheitsprozesses zu beglaubigen oder nachzuprüfen. Gut.

Anwendungen

Gesundheitsfürsorge

Im Gesundheitsfürsorge-Gebiet kann Spracherkennung am Vorderende oder Zurückende des medizinischen Dokumentationsprozesses durchgeführt werden. Vorderende-Spracherkennung ist, wo der Versorger in einen Spracherkennungsmotor diktiert, werden die anerkannten Wörter gezeigt, weil sie gesprochen werden, und der Diktator dafür verantwortlich ist, zu editieren und auf dem Dokument Schluss zu machen. Zurückende oder aufgeschobene Spracherkennung sind, wo der Versorger in ein Digitaldiktat-System diktiert, wird die Stimme durch eine Spracherkennungsmaschine aufgewühlt, und das anerkannte Draftdokument wird zusammen mit der ursprünglichen Stimmendatei dem Redakteur aufgewühlt, wo der Entwurf editiert wird und Bericht beendet. Aufgeschobene Spracherkennung wird in der Industrie zurzeit weit verwendet.

Viele Anwendungen von Electronic Medical Records (EMR) können wirksamer sein und können leichter wenn aufmarschiert, in Verbindung mit einem Spracherkennungsmotor durchgeführt werden. Suchen, Abfragen und Formularausfüllung können alle schneller sein, um durch die Stimme zu leisten, als durch das Verwenden einer Tastatur.

Eines der Hauptprobleme in Zusammenhang mit dem Gebrauch der Spracherkennung in der Gesundheitsfürsorge ist, dass das amerikanische Wiederherstellungs- und Wiederanlage-Gesetz 2009 (ARRA) für wesentliche Finanzvorteile für Ärzte sorgt, die einen EMR gemäß dem "Bedeutungsvollen Gebrauch" Standards verwerten. Diese Standards verlangen, dass eine wesentliche Datenmenge durch den EMR (jetzt allgemeiner gekennzeichnet als eine Elektronische Gesundheitsaufzeichnung oder EHR) aufrechterhalten wird. Leider, in vielen Beispielen, wird der Gebrauch der Spracherkennung innerhalb eines EHR zu Daten nicht führen, die innerhalb einer Datenbank, aber eher zum Bericht-Text aufrechterhalten sind. Deshalb werden wesentliche Mittel ausgegeben, um den Gebrauch des Vorderendes SR zu berücksichtigen, während man Daten innerhalb des EHR gewinnt.

Militär

Hochleistungskampfflugzeug

Wesentliche Anstrengungen sind im letzten Jahrzehnt dem Test und der Einschätzung der Spracherkennung im Kampfflugzeug gewidmet worden. Von besonderer Wichtigkeit ist das amerikanische Programm in der Spracherkennung für Advanced Fighter Technology Integration (AFTI)/F-16 Flugzeug (F-16 AUSSICHT) und ein Programm in Frankreich, das Spracherkennungssysteme auf dem Sinnestäuschungsflugzeug und auch Programme im Vereinigten Königreich installiert, das sich mit einer Vielfalt von Flugzeugsplattformen befasst. In diesen Programmen ist Rede recognizers erfolgreich im Kampfflugzeug mit Anwendungen bedient worden einschließlich: Das Setzen von Radiofrequenzen, Befehlen einem System der automatischen Kurssteuerung, Setzen von Steuern-Punkt-Koordinaten und Waffen veröffentlichen Rahmen und das Steuern von Fluganzeigen.

Mit schwedischen Piloten arbeitend, die im JAS-39 Gripen Cockpit, Englund (2004) fliegen, hat sich gefundene Anerkennung mit zunehmenden G-Lasten verschlechtert. Es wurde auch beschlossen, dass Anpassung außerordentlich die Ergebnisse in allen Fällen verbessert hat und Einführen-Modelle für das Atmen gezeigt wurde, Anerkennungshunderte bedeutsam zu verbessern. Wogegen erwartet werden könnte, wurden keine Effekten des gebrochenen Englisch der Sprecher gefunden. Es war offensichtlich, dass spontane Rede Probleme für den recognizer verursacht hat, wie erwartet werden konnte. Wie man so erwarten konnte, hat ein eingeschränktes Vokabular, und vor allem, eine richtige Syntax, Anerkennungsgenauigkeit wesentlich verbessert.

Der Eurokämpfer-Taifun zurzeit im Betrieb mit dem Vereinigten Königreich RAF verwendet ein vom Sprecher abhängiges System, d. h. verlangt es, dass jeder Pilot eine Schablone schafft. Das System wird für keine Sicherheit kritisch oder Waffe kritische Aufgaben, wie Waffenausgabe oder das Senken des Fahrgestells verwendet, aber wird für eine breite Reihe anderer Cockpit-Funktionen verwendet. Stimmenbefehle werden durch das Seh- und/oder Ohrenfeed-Back bestätigt. Das System wird als eine Hauptdesigneigenschaft in der Verminderung des Versuchsarbeitspensums gesehen, und erlaubt sogar dem Piloten, Ziele sich mit zwei einfachen Stimmenbefehlen oder einigen seiner wingmen mit nur fünf Befehlen zuzuteilen.

Sprecher werden unabhängige Systeme auch entwickelt und sind in der Prüfung für den F35 Blitz II (JSF) und die Alenia Aermacchi M 346 Master-Zuleitungskämpfer-Trainer. Diese Systeme haben Wortgenauigkeiten über 98 % erzeugt.

Hubschrauber

Die Probleme, hohe Anerkennungsgenauigkeit unter Betonung und Geräusch zu erreichen, gehören stark der Hubschrauberumgebung sowie der Düsenjäger-Umgebung. Das akustische Geräuschproblem ist wirklich in der Hubschrauberumgebung strenger, nicht nur weil der hohen Geräuschniveaus, sondern auch weil der Hubschrauberpilot im Allgemeinen keinen facemask trägt, der akustisches Geräusch im Mikrofon reduzieren würde. Wesentliche Test- und Einschätzungsprogramme sind im letzten Jahrzehnt in Spracherkennungssystemanwendungen in Hubschraubern, namentlich durch die amerikanische Armeeavionik-Forschungs- und Entwicklungstätigkeit (AVRADA) und von Royal Aerospace Establishment (RAE) im Vereinigten Königreich ausgeführt worden. Die Arbeit in Frankreich hat Spracherkennung in den Silberlöwe-Hubschrauber eingeschlossen. Es hat auch viel nützliche Arbeit in Kanada gegeben. Ergebnisse sind ermutigend gewesen, und Stimmenanwendungen haben eingeschlossen: Kontrolle von Nachrichtenradios, Einstellung von Navigationssystemen und Kontrolle eines automatisierten Zielablieferungssystems.

Als in Kämpfer-Anwendungen ist das überwiegende Problem für die Stimme in Hubschraubern der Einfluss auf Versuchswirksamkeit. Ermutigende Ergebnisse werden wegen der AVRADA-Tests berichtet, obwohl diese nur eine Durchführbarkeitsdemonstration in einem Testumfeld vertreten. Viel muss sowohl in der Spracherkennung als auch in der gesamten Spracherkennungstechnologie getan werden, um Leistungsverbesserungen in betrieblichen Einstellungen durchweg zu erreichen.

Kampfmanagement

Im Allgemeinen verlangen Kampfverwaltungsbefehl-Zentren schnellen Zugang zu und Kontrolle von großen, sich schnell ändernden Informationsdatenbanken. Kommandanten und Computersystemoperateure müssen diese Datenbanken so günstig fragen wie möglich in einer augenbeschäftigten Umgebung, wo viel von der Information in einem Anzeigeformat präsentiert wird. Die Wechselwirkung der menschlichen Maschine durch die Stimme hat das Potenzial, um in diesen Umgebungen sehr nützlich zu sein. Mehrere Anstrengungen sind übernommen worden, um gewerblich verfügbares isoliertes Wort recognizers in Kampfverwaltungsumgebungen zu verbinden. In einer Durchführbarkeitsstudie wurde Spracherkennungsausrüstung in Verbindung mit einer einheitlichen Informationsanzeige für Marinekampfverwaltungsanwendungen geprüft. Benutzer waren über das Potenzial des Systems sehr optimistisch, obwohl Fähigkeiten beschränkt wurden.

Verstehende Rede-Programme, die von Defense Advanced Research Projects Agency (DARPA) in den Vereinigten Staaten gesponsert sind, haben sich auf dieses Problem der natürlichen Rede-Schnittstelle konzentriert. Spracherkennungsanstrengungen haben sich auf eine Datenbank der dauernden Spracherkennung (CSR) konzentriert, Rede des großen Vokabulars hat vorgehabt, die Marinequellenverwaltungsaufgabe vertretend zu sein. Bedeutende Fortschritte in in CSR sind erreicht worden, und aktuelle Anstrengungen werden auf die Integrierung der Spracherkennung und Verarbeitung der natürlichen Sprache eingestellt, um Sprache-Wechselwirkung mit einem Marinequellenverwaltungssystem zu erlauben.

Lehrluftverkehr-Kontrolleure

Die Ausbildung für Luftverkehr-Kontrolleure (ATC) vertritt eine ausgezeichnete Anwendung für Spracherkennungssysteme. Viele ATC Lehrsysteme verlangen zurzeit, dass eine Person als ein "Pseudopilot" handelt, sich mit einem Stimmendialog mit dem Auszubildender-Kontrolleur beschäftigend, der den Dialog vortäuscht, den der Kontrolleur mit Piloten in einer echten ATC Situation würde führen müssen.

Spracherkennung und Synthese-Techniken bieten das Potenzial an, um das Bedürfnis nach einer Person zu beseitigen, als Pseudopilot zu handeln, so Ausbildung und Unterstützungspersonal reduzierend. In der Theorie werden Luftkontrolleur-Aufgaben auch durch die hoch strukturierte Rede charakterisiert, weil die primäre Produktion des Kontrolleurs, folglich die Schwierigkeit der Spracherkennungsaufgabe reduzierend, möglich sein sollte. In der Praxis ist das selten der Fall. Das FAA Dokument 7110.65 berichtet über die Ausdrücke ausführlich, die von Luftverkehr-Kontrolleuren verwendet werden sollten. Während dieses Dokument weniger als 150 Beispiele solcher Ausdrücke anführt, ist die Zahl von durch eines der Simulierungsverkäufer-Spracherkennungssysteme unterstützten Ausdrücken über 500,000.

Der USAF, USMC, die US-Armee, US-Marine, und FAA sowie mehrere internationale ATC Lehrorganisationen wie die Königlichen australischen Luftwaffen- und Zivilluftfahrt-Behörden in Italien, Brasilien und Kanada verwenden zurzeit ATC Simulatoren mit der Spracherkennung von mehreren verschiedenen Verkäufern.

Telefonie und andere Gebiete

ASR im Feld der Telefonie ist jetzt gewöhnlich und im Feld des Computerspielens, und Simulation wird weit verbreiteter. Trotz des hohen Niveaus der Integration mit der Textverarbeitung in der allgemeinen persönlichen Computerwissenschaft. Jedoch hat ASR im Feld der Dokumentenproduktion die erwarteten Zunahmen im Gebrauch nicht gesehen.

Die Verbesserung beweglicher Verarbeiter-Geschwindigkeiten hat ausführbar Rede-ermöglichter Symbian und Windows Beweglicher Smartphones gemacht. Rede wird größtenteils als ein Teil der Benutzerschnittstelle verwendet, um vorherbestimmte oder kundenspezifische Rede-Befehle zu schaffen. Hauptsoftwareverkäufer in diesem Feld sind: Microsoft Corporation (Microsoft Voice Command), Digitalsiphon (Schallex-Traktor), Nuance-Kommunikationen (Nuance-Stimmenkontrolle), Rede Zentrum von Technology, Vito Technology (VITO Voice2Go), Speereo Software (Speereo Stimmenübersetzer), Verbyx VRX und SVOX.

Weitere Anwendungen

  • Weltraum (z.B Raumerforschung, Raumfahrzeug, usw.) der Mars der NASA Polarer Lander hat Spracherkennung von der Technologie Sensory, Inc. im Mikrofon von Mars auf dem Lander verwendet
  • Automatische Übersetzung
  • Automobilspracherkennung (z.B, OnStar, Ford Sync)
  • Gerichtsbericht (das Echtzeitrede-Schreiben)
  • Freisprechcomputerwissenschaft: Spracherkennungscomputerbenutzer verbindet
  • Hausautomation
  • Interaktive Stimmenantwort
  • Mobilfunk, einschließlich der beweglichen E-Mail
  • Mehrmodale Wechselwirkung
  • Artikulationseinschätzung in computergestützten Sprachenerwerb-Anwendungen
  • Robotertechnik
  • Reporter der Rede zum Text (Abschrift der Rede in den Text, das Videountertiteln, den Gerichtsbericht)
  • Telematik (z.B, Fahrzeugnavigationssysteme)
  • Abschrift (digitale Rede zum Text)
  • Videospiele, mit EndWar von Tom Clancy und Rettungsleine als Arbeitsbeispiele

Leistung

Die Leistung von Spracherkennungssystemen wird gewöhnlich in Bezug auf die Genauigkeit und Geschwindigkeit bewertet. Genauigkeit wird gewöhnlich mit der Wortfehlerrate (WER) abgeschätzt, wohingegen Geschwindigkeit mit dem Echtzeitfaktor gemessen wird. Andere Maßnahmen der Genauigkeit schließen Single Word Error Rate (SWER) und Command Success Rate (CSR) ein.

Jedoch ist Spracherkennung (durch eine Maschine) ein sehr kompliziertes Problem. Stimmgebungen ändern sich in Bezug auf Akzent, Artikulation, Aussprache, Rauheit, nasality, Wurf, Volumen und Geschwindigkeit. Rede wird durch ein Nebengeräusch und Echos, elektrische Eigenschaften verdreht. Die Genauigkeit der Spracherkennung ändert sich mit dem folgenden:

  • Vokabular-Größe und confusability
  • Sprecher-Abhängigkeit gegen die Unabhängigkeit
  • Isolierte, diskontinuierliche oder dauernde Rede
  • Aufgabe und Spracheinschränkungen
  • Lesen Sie gegen die spontane Rede
  • Nachteilige Bedingungen

Genauigkeit der Spracherkennung

Wie erwähnt, früher in dieser Artikel-Genauigkeit der Rede ändern sich recogniton im folgenden:

  • Die Fehlerrate-Zunahme als die Vokabular-Größe wächst:

z.B. Die 10 Ziffern "Null" zu "neun" können im Wesentlichen vollkommen anerkannt werden, aber Vokabular-Größen 200, 5000 oder 100000 können Fehlerraten von 3 %, 7 % oder 45 % haben.

  • Vokabular ist Hart Anzuerkennen, ob es Confusable Wörter Enthält:

z.B. Die 26 Briefe des englischen Alphabetes sind schwierig zu unterscheiden, weil sie confusable Wörter sind (am notorischsten, der E-Satz: "B, C, D, E, G, P, T, V, Z");

Eine 8-%-Fehlerrate wird gut für dieses Vokabular betrachtet.

  • Sprecher-Abhängigkeit gegen die Unabhängigkeit:

Ein Sprecher-Abhängiger-System ist für den Gebrauch von einem einzelnen Sprecher beabsichtigt.

Ein Sprecher unabhängiges System ist für den Gebrauch von jedem Sprecher beabsichtigt, schwieriger.

  • Isolierte, Diskontinuierliche oder Dauernde Rede

Mit der isolierten Rede werden einzelne Wörter verwendet, deshalb wird es leichter, die Rede anzuerkennen.

Mit der diskontinuierlichen Rede voll verurteilt getrennt durch das Schweigen werden verwendet, deshalb wird es leichter, die Rede sowie mit der isolierten Rede anzuerkennen.

Mit der dauernden Rede werden natürlich gesprochene Sätze verwendet, deshalb wird es härter, die Rede anzuerkennen, die sowohl von isloated als auch von diskontinuierlicher Rede verschieden ist.

  • Aufgabe und Spracheinschränkungen

z.B das Fragen der Anwendung kann die Hypothese "Der Apfel abweisen ist rot."

z.B können Einschränkungen semantisch sein; Zurückweisung "Des Apfels ist böse."

z.B. Syntaktisch; Zurückweisung "Rot ist Apfel."

Einschränkungen werden häufig durch eine Grammatik vertreten.

  • Lesen Sie gegen die spontane Rede

Wenn eine Person liest, ist es gewöhnlich in einem Zusammenhang, der vorher bereit gewesen ist, aber wenn eine Person spontane Rede verwendet, ist es schwierig, die Rede anzuerkennen. wegen des disfluences (wie "uh" und "um", Fehlstarts, unvollständige Sätze, stutering, das Husten und Gelächter) und beschränktes Vokabular.

Nachteilige Bedingungen

Umweltgeräusch (z.B Geräusch in einem Auto oder einer Fabrik)

Akustische Verzerrungen (z.B Echos, Raumakustik)

Spracherkennung ist eine mehrgeebnete Muster-Anerkennungsaufgabe.

  • Akustische Signale werden in eine Hierarchie von Einheiten strukturiert;

z.B Phoneme, Wörter, Ausdrücke und Sätze;

  • Jedes Niveau stellt zusätzliche Einschränkungen zur Verfügung;

z.B. Bekannte Wortartikulationen oder gesetzliche Wortfolgen, die Fehler oder Unklarheiten an der niedrigeren Ebene ersetzen können;

  • Diese Hierarchie von Einschränkungen wird ausgenutzt;

Durch das Kombinieren von Entscheidungen probabilistically an allen niedrigeren Ebenen und das Treffen deterministischerer Entscheidungen nur am höchsten Niveau;

Rede recogniton durch eine Maschine ist ein Prozess eingebrochen mehrere Phasen. Rechenbetont ist es ein Problem, in dem ein gesundes Muster anerkannt oder in eine Kategorie eingeteilt werden muss, die eine Bedeutung einem Menschen vertritt. Jedes akustische Signal kann in kleineren grundlegenderen Subsignalen gebrochen werden. Da das kompliziertere Tonsignal in die kleineren Subtöne gebrochen wird, werden verschiedene Niveaus geschaffen, wo am Spitzenniveau wir komplizierte Töne haben, die aus einfacheren Tönen auf der niedrigeren Ebene gemacht werden, und zu niedrigeren Ebenen noch mehr gehend, schaffen wir grundlegendere und kürzere und einfachere Töne. Der Tiefststand, wo die Töne, eine Maschine am grundsätzlichsten sind, würde für den einfachen und mehr probabilistic Regeln dessen überprüfen, was Ton vertreten sollte. Sobald diese Töne in den komplizierteren Ton auf dem oberen Niveau zusammengestellt werden, sollte ein neuer Satz von deterministischeren Regeln voraussagen, was neuer komplizierter Ton vertreten sollte. Das am meisten obere Niveau einer deterministischen Regel sollte die Bedeutung von komplizierten Ausdrücken ausrechnen. Um unsere Kenntnisse über die Spracherkennung auszubreiten, müssen wir in eine Rücksicht Nervennetze nehmen. Es gibt vier Schritte von Nervennetzannäherungen:

  • Digitalisieren Sie die Rede, dass wir anerkennen
wollen

Für die Telefonrede ist die ausfallende Rate 8000 Proben pro Sekunde;

  • Rechnen Sie Eigenschaften des geisterhaften Gebiets der Rede (mit Fourier verwandeln sich);

Geschätzt alle 10 Millisekunden, mit der Abteilung einer 10 Millisekunde genannt einen Rahmen;

Die Analyse von vier Schritt Nervennetzannäherungen kann durch die weitere Information erklärt werden. Ton wird mit dem Flugzeug (oder ein anderes Medium) Vibrieren erzeugt, das wir durch Ohren, aber Maschinen durch Empfänger einschreiben. Grundlegender Ton schafft eine Welle, die 2 Beschreibungen hat; Umfang (wie stark es ist), und Frequenz (wie oft es pro Sekunde vibriert).

Das ist dasselbe als die Welle im Wasser. Große Welle ist stark, und kleinere sind gewöhnlich schneller, aber schwächer. Genau so wird Luft verdreht, aber wir sehen es leicht in der Größenordnung vom Ton nicht, um zu reisen. Diese Wellen können digitalized sein: Probe eine Kraft an kurzen Zwischenräumen wie im Bild oben, um Bündel von Zahlen zu bekommen, die jedes Mal Schritt die Kraft einer Welle näher kommen. Die Sammlung dieser Zahlen vertritt analoge Welle. Diese neue Welle ist digital. Schallwellen werden kompliziert, weil sie denjenigen aufeinander superauferlegen. Wie die Wellen würde. Auf diese Weise schaffen sie sonderbar aussehende Wellen. Zum Beispiel, wenn es zwei Wellen gibt, die mit einander aufeinander wirken, können wir sie hinzufügen, der neue sonderbar aussehende Welle schafft, wie im Bild rechts gezeigt wird.

  • Nervennetz teilt Eigenschaften in fonetische Kategorien ein;

In Anbetracht grundlegender gesunder Blöcke hat diese Maschine digitalisiert, wir haben ein Bündel von Zahlen, die eine Welle beschreiben und Wellen Wörter beschreiben. Jeder Rahmen hat einen Einheitsblock des Tons, die in grundlegende Schallwellen gebrochen und durch Zahlen vertreten werden, nachdem Sich Fourier Verwandelt, kann statistisch bewertet werden, um unterzugehen, zu der Klasse von Tönen es dem gehört. Die Knoten in der Figur auf einem Gleiten vertreten eine Eigenschaft eines Tons, in dem eine Eigenschaft einer Welle von der ersten Schicht von Knoten zu einer zweiten Schicht von Knoten auf etwas statistischer Analyse gestützt hat. Diese Analyse hängt von den Instruktionen des Programmierers ab. An diesem Punkt vertritt eine zweite Schicht von Knoten ein höheres Niveau Eigenschaften eines gesunden Eingangs, der wieder statistisch bewertet wird, um zu sehen, welcher Klasse sie gehören. Das letzte Niveau von Knoten sollte Produktionsknoten sein, die uns mit der hohen Wahrscheinlichkeit erzählen, wie ursprünglicher Ton wirklich war.

  • Suchen Sie, um die Nervennetz-Produktionshunderte für das beste Wort zu vergleichen, das Wort zu bestimmen, das am wahrscheinlichsten ausgesprochen wurde;

Eine Maschinenspracherkennung mit dem Nervennetz ist noch gerade eine Fantasiestatistik. Künstliches Nervennetz hat Produktionsknoten für Ergebnisse verschieden vom Gehirn spezialisiert. Unser Gehirn erkennt die Bedeutung von Wörtern auf die im Wesentlichen verschiedene Weise an. Unser Gehirn wird in die Wahrnehmung des Tons völlig begangen. Wenn wir Ton hören, wird unsere Lebenserfahrung zur Handlung des Hörens zusammengebracht, um einen Ton in eine passende Perspektive zu setzen, so ist es bedeutungsvoll. Gehirn hat einen Zweck, wenn es auf einen Ton horcht, der zu Handlungen gesteuert wird.

1982 hat Kurzweil Angewandte Nachrichtendienst- und Drache-Systeme Spracherkennungsprodukte veröffentlicht. Vor 1985 hatte die Software von Kurzweil ein Vokabular von 1,000 Wörtern — wenn ausgesprochen, ein Wort auf einmal. Zwei Jahre später, 1987, hat sein Lexikon 20,000 Wörter erreicht, in den Bereich von menschlichen Vokabularen eingehend, die sich von 10,000 bis 150,000 Wörtern erstrecken. Aber Anerkennungsgenauigkeit war nur 10 % 1993. Zwei Jahre später hat sich die Fehlerrate unter 50 % getroffen. Drache-Systeme haben veröffentlicht, "Natürlich" 1997 Sprechend, der normale menschliche Rede anerkannt hat. Fortschritt ist hauptsächlich aus der verbesserten Computerleistung und den größeren Quelltext-Datenbanken gekommen. Das Braune Korpus war die erste verfügbare Hauptdatenbank, mehrere Millionen Wörter enthaltend. 2006 hat Google eine Trillion Wortkorpus veröffentlicht, während Universitätsforscher von Carnegie Mellon keine bedeutende Zunahme in der Anerkennungsgenauigkeit gefunden haben.

Algorithmen

Sowohl das akustische Modellieren als auch Sprachmodellieren sind wichtige Teile von modernen statistischen Spracherkennungsalgorithmen. Verborgene Modelle von Markov (HMMs) werden in vielen Systemen weit verwendet. Das Sprachmodellieren hat viele andere Anwendungen wie kluge Tastatur und Dokumentenklassifikation.

Verborgene Modelle von Markov

Moderne Mehrzweckspracherkennungssysteme basieren auf Verborgenen Modellen von Markov. Das sind statistische Modelle dass Produktion eine Folge von Symbolen oder Mengen. HMMs werden in der Spracherkennung verwendet, weil ein Rede-Signal als ein piecewise stationäres Signal oder eine Kurzarbeit stationäres Signal angesehen werden kann. In kurze Zeitskalen (z.B, 10 Millisekunden), kann Rede als ein stationärer Prozess näher gekommen werden. Von Rede kann als ein Modell von Markov zu vielen stochastischen Zwecken gedacht werden.

Ein anderer Grund, warum HMMs populär sind, besteht darin, weil sie automatisch erzogen werden können und einfach und rechenbetont ausführbar sind zu verwenden. In der Spracherkennung würde das verborgene Modell von Markov Produktion eine Folge von n-dimensional reellwertigen Vektoren (mit n eine kleine ganze Zahl, solcher als 10 zu sein), outputting einer von diesen alle 10 Millisekunden. Die Vektoren würden aus cepstral Koeffizienten bestehen, die durch die Einnahme eines Fouriers erhalten werden, verwandeln sich eines Fensters der kurzen Zeit der Rede und decorrelating, den das Spektrum mit einem Kosinus umgestaltet, dann die ersten (bedeutendsten) Koeffizienten nehmend. Das verborgene Modell von Markov wird dazu neigen, in jedem Staat einen statistischen Vertrieb zu haben, der eine Mischung der diagonalen Kovarianz Gaussians ist, der eine Wahrscheinlichkeit für jeden beobachteten Vektoren geben wird. Jedes Wort, oder (für allgemeinere Spracherkennungssysteme), jedes Phonem, wird einen verschiedenen Produktionsvertrieb haben; ein verborgenes Modell von Markov für eine Folge von Wörtern oder Phonemen wird durch das Verketten von erzogenen verborgenen Modellen von Markov der Person für die getrennten Wörter und Phoneme gemacht.

Beschrieben oben sind die Kernelemente der allgemeinsten, HMM-basierten Annäherung an die Spracherkennung. Moderne Spracherkennungssysteme verwenden verschiedene Kombinationen mehrerer Standardtechniken, um Ergebnisse über die grundlegende Annäherung zu verbessern, die oben beschrieben ist. Ein typisches System des großen Vokabulars würde Zusammenhang-Abhängigkeit für die Phoneme brauchen (so haben Phoneme mit dem verschiedenen linken und richtigen Zusammenhang verschiedene Verwirklichungen als HMM Staaten); es würde cepstral Normalisierung verwenden, um für den verschiedenen Sprecher und die Aufnahme-Bedingungen zu normalisieren; für die weitere Sprecher-Normalisierung könnte es stimmliche Fläche-Länge-Normalisierung (VTLN) für die männlich-weibliche Normalisierung und maximale Wahrscheinlichkeit geradliniges rückwärts Gehen (MLLR) für die allgemeinere Sprecher-Anpassung verwenden. Die Eigenschaften würden so genannte Koeffizienten des Deltas und Delta-Deltas haben, um Rede-Dynamik zu gewinnen, und könnten außerdem heteroscedastic geradlinige Diskriminanten-Analyse (HLDA) verwenden; oder könnte die Koeffizienten des Deltas und Delta-Deltas und das Gebrauch-Verstärken auslassen, und ein LDA-basierter Vorsprung gefolgt vielleicht von der heteroscedastic geradlinigen Diskriminanten-Analyse oder einer globalen halbgebundenen Kovarianz verwandelt sich (auch bekannt als maximale geradlinige Wahrscheinlichkeit verwandeln sich, oder MLLT). Viele Systeme verwenden so genannte unterscheidende Lehrtechniken, die auf eine rein statistische Annäherung an die HMM Parameter-Bewertung verzichten und stattdessen ein Klassifikationszusammenhängendes Maß der Lehrdaten optimieren. Beispiele sind maximale gegenseitige Information (MMI), minimaler Klassifikationsfehler (MCE) und minimaler Telefonfehler (MPE).

Entzifferung der Rede (würde der Begriff dafür, was geschieht, wenn dem System eine neue Äußerung geboten wird und den wahrscheinlichsten Quellsatz schätzen muss), wahrscheinlich den Algorithmus von Viterbi verwenden, um den besten Pfad, und hier zu finden, gibt es eine Wahl zwischen dem dynamischen Schaffen einer Kombination verborgenes Modell von Markov, das sowohl das Hörgerät als auch die Sprachmusterinformation und das Kombinieren davon statisch im Voraus einschließt (der Zustandswandler oder FST, nähern Sie sich).

Eine mögliche Verbesserung zur Entzifferung soll eine Reihe guter Kandidaten behalten, anstatt gerade den besten Kandidaten zu behalten, und eine bessere zählende Funktion zu verwenden, die (wiederzählt), um diese guten Kandidaten abzuschätzen, so dass wir den besten gemäß dieser raffinierten Kerbe aufpicken können. Der Satz von Kandidaten kann irgendein als eine Liste (die N-Best-Listenannäherung) oder als eine Teilmenge der Modelle (ein Gitter) behalten werden. Das Wiederzählen wird gewöhnlich getan, indem es versucht wird, die Gefahr von Bayes (oder eine Annäherung davon) zu minimieren: Anstatt den Quellsatz mit der maximalen Wahrscheinlichkeit zu nehmen, versuchen wir, den Satz zu nehmen, der die Erwartung einer gegebenen Verlust-Funktion hinsichtlich aller möglichen Abschriften minimiert (d. h. wir nehmen den Satz, der die durchschnittliche Entfernung zu anderen möglichen Sätzen minimiert, die durch ihre geschätzte Wahrscheinlichkeit beschwert sind). Die Verlust-Funktion ist gewöhnlich die Entfernung von Levenshtein, obwohl es verschiedene Entfernungen für spezifische Aufgaben sein können; der Satz von möglichen Abschriften wird natürlich beschnitten, um Lenkbarkeit aufrechtzuerhalten. Effiziente Algorithmen sind ausgedacht worden, um vertretene Gitter wiedereinzukerben, weil beschwerte Zustandswandler damit Entfernungen editieren, hat sich als ein Zustandswandler vertreten, der bestimmte Annahmen nachprüft.

Dynamische Zeit sich wellend (DTW) - hat Spracherkennung gestützt

Dynamische Zeit sich wellend ist eine Annäherung, die für die Spracherkennung historisch verwendet wurde, aber jetzt größtenteils versetzt worden ist

durch die erfolgreichere HMM-basierte Annäherung.

Dynamische Zeit sich wellend ist ein Algorithmus, um Ähnlichkeit zwischen zwei Folgen zu messen, die sich rechtzeitig oder Geschwindigkeit ändern können. Zum Beispiel würden Ähnlichkeiten in Spaziermustern entdeckt, selbst wenn in einem Video die Person langsam spazieren ginge, und wenn in einem anderen er oder sie schneller spazieren ging, oder selbst wenn es Beschleunigungen und Verlangsamungen während des Kurses einer Beobachtung gab. DTW ist auf das Video angewandt, und Grafik - tatsächlich Audio-worden, irgendwelche Daten, die in eine geradlinige Darstellung verwandelt werden können, können mit DTW analysiert werden.

Eine wohl bekannte Anwendung ist automatische Spracherkennung gewesen, um mit verschiedenen Sprechen-Geschwindigkeiten fertig zu werden. Im Allgemeinen ist es eine Methode, die einem Computer erlaubt, ein optimales Match zwischen zwei gegebenen Folgen (z.B, Zeitreihe) mit bestimmten Beschränkungen zu finden. D. h. die Folgen werden nichtlinear "verzogen", um einander zu vergleichen. Diese Folge-Anordnungsmethode wird häufig im Zusammenhang von verborgenen Modellen von Markov verwendet......

Nervennetze

Nervennetze sind als eine attraktive akustische modellierende Annäherung in ASR gegen Ende der 1980er Jahre erschienen. Seitdem sind Nervennetze in vielen Aspekten der Spracherkennung wie Phonem-Klassifikation, isolierte Wortanerkennung und Sprecher-Anpassung verwendet worden.

Im Gegensatz zu HMMs machen Nervennetze keine Annahmen über die Eigenschaft statistische Eigenschaften und haben mehrere Qualitäten, die sie attraktive Anerkennungsmodelle für die Spracherkennung machen. Wenn verwendet, die Wahrscheinlichkeiten eines Rede-Eigenschaft-Segmentes zu schätzen, erlauben Nervennetze unterscheidende Ausbildung auf eine natürliche und effiziente Weise. Wenige Annahmen auf der Statistik von Eingangseigenschaften werden mit Nervennetzen gemacht. Jedoch, trotz ihrer Wirksamkeit im Klassifizieren von Kurzarbeit-Einheiten wie individuelle Kopfhörer und isolierte Wörter, sind Nervennetze für dauernde Anerkennungsaufgaben größtenteils wegen ihres Mangels an der Fähigkeit selten erfolgreich, zeitliche Abhängigkeiten zu modellieren. So soll eine alternative Annäherung Nervennetze als eine Aufbereitung verwenden z.B zeigen Transformation, dimensionality die Verminderung, weil der HMM Anerkennung gestützt hat.

Weitere Information

Populäre Spracherkennungskonferenzen haben jedes Jahr gehalten, oder zwei schließen SpeechTEK und SpeechTEK Europa, ICASSP, Eurospeech/ICSLP (jetzt genannt Zwischenrede) und der IEEE ASRU ein. Konferenzen im Feld der Verarbeitung der natürlichen Sprache, wie ACL, NAACL, EMNLP, und HLT, beginnen, Papiere auf der Rede-Verarbeitung einzuschließen. Wichtige Zeitschriften schließen die IEEE Transaktionen auf der Rede ein, und Audioverarbeitung (hat jetzt IEEE Transaktionen auf dem Audio-, der Rede und der Sprachverarbeitung genannt), Computerrede und Sprache und Rede-Kommunikation. Bücher wie "Grundlagen der Spracherkennung" durch Lawrence Rabiner können nützlich sein, um Grundkenntnisse zu erwerben, aber können (nicht 1993) sein völlig aktuell. Ein sehr neues Buch (Dez 2011), "Bedecken Grundlagen der Sprecher-Anerkennung" durch Homayoon Beigi die neueren Entwicklungen in einem Detail. Obwohl sich der Titel auf die Sprecher-Anerkennung konzentriert, aber ein großer Teil des Buches gilt direkt für die Spracherkennung mit viel wertvollem ausführlichem Hintergrundmaterial. Eine andere gute Quelle kann "Statistische Methoden für die Spracherkennung" durch Frederick Jelinek und "Sprache sein, die (2001)" durch Xuedong Huang usw. In einer Prozession geht. Aktueller ist "Computerrede", durch Manfred R. Schroeder, die zweite 2004 veröffentlichte Ausgabe. Das kürzlich aktualisierte Lehrbuch der "Rede und Sprache, die (2008)" durch Jurafsky und Martin In einer Prozession geht, präsentiert die Grundlagen und den Stand der Technik für ASR. Eine gute Scharfsinnigkeit in die in den besten modernen Systemen verwendeten Techniken kann dadurch gewonnen werden, Aufmerksamkeit gesponserten Einschätzungen der Regierung wie diejenigen zu schenken, die durch DARPA organisiert sind (das größte Spracherkennungszusammenhängende bezüglich 2007 andauernde Projekt ist das STURM-Projekt, das sowohl Spracherkennung als auch Übersetzungsbestandteile einschließt).

In Bezug auf frei verfügbare Mittel ist Universitäts-SPHINX-Werkzeug von Carnegie Mellon ein Platz anzufangen, über die Spracherkennung sowohl zu erfahren als auch anzufangen, zu experimentieren. Eine andere Quelle (frei als in freiem Bier, nicht als in der Redefreiheit) ist das HTK-Buch (und das Begleiten HTK Werkzeug). AT&T Bibliotheken sind GRM Bibliothek und DCD Bibliothek auch allgemeine Softwarebibliotheken für die Spracherkennung des großen Vokabulars.

Für mehr Softwaremittel, sieh Liste der Spracherkennungssoftware.

Eine nützliche Rezension des Gebiets der Robustheit in ASR wird von Junqua und Haton (1995) zur Verfügung gestellt.

Leute mit Körperbehinderungen

Leute mit Körperbehinderungen können aus Spracherkennungsprogrammen einen Nutzen ziehen. Für Personen, die taub oder Schwerhörig Sind, wird Spracherkennungssoftware verwendet, um einen geschlossen untertitelnden von Gesprächen wie Diskussionen in Konferenzräumen, Klassenzimmer-Vorträgen und/oder religiösen Dienstleistungen automatisch zu erzeugen.

Spracherkennung ist auch für Leute sehr nützlich, die Schwierigkeit mit ihren Händen im Intervall von milden wiederholenden Betonungsverletzungen zu beteiligten Körperbehinderungen haben, die ausschließen, herkömmliche Computereingangsgeräte zu verwenden. Tatsächlich sind Leute, die die Tastatur sehr verwendet haben und RSI entwickelt haben, ein dringender früher Markt für die Spracherkennung geworden. Spracherkennung wird in der tauben Telefonie, wie voicemail zum Text, den Relaisdienstleistungen verwendet, und hat Telefon untertitelt. Personen mit dem Lernen von Körperbehinderungen, die Probleme mit der Kommunikation des Gedankens zum Papier haben (im Wesentlichen denken sie an eine Idee, aber es wird falsch bearbeitet, es veranlassend, verschieden auf Papier zu enden), können aus der Software einen Nutzen ziehen.

Aktuelle Forschung und Finanzierung

Das Messen des Fortschritts in der Spracherkennungsleistung ist schwierig und umstritten. Einige Spracherkennungsaufgaben sind viel schwieriger als andere. Wortfehlerraten auf einigen Aufgaben sind weniger als 1 %. Auf anderen können sie nicht weniger als 50 % sein. Manchmal scheint es sogar, dass Leistung rückwärts geht, weil Forscher härtere Aufgaben übernehmen, die höhere Fehlerraten haben.

Weil Fortschritt langsam ist und schwierig ist zu messen, gibt es etwas Wahrnehmung, dass Leistung plateaued hat, und dass Finanzierung ausgetrocknet oder Prioritäten ausgewechselt hat. Solche Wahrnehmungen sind nicht neu. 1969 hat John Pierce einen offenen Brief geschrieben, der wirklich viel Finanzierung veranlasst hat, seit mehreren Jahren auszutrocknen. 1993 gab es ein starkes Gefühl, dass Leistung plateaued hatte und es dem Problem gewidmete Werkstätten gab. Jedoch, in den 1990er Jahren, finanziell zu unterstützen, hat mehr oder weniger ununterbrochen weitergegangen, und Leistung hat langsam aber fest weitergegangen, um sich zu verbessern.

Seit den letzten dreißig Jahren ist Spracherkennungsforschung durch die unveränderliche Anhäufung von kleinen zusätzlichen Verbesserungen charakterisiert worden. Es hat auch eine Tendenz gegeben, Fokus zu schwierigeren Aufgaben erwartet zu ändern, sowohl in der Spracherkennungsleistung als auch zur Verfügbarkeit von schnelleren Computern fortzuschreiten. Insbesondere diese Verschiebung zu schwierigeren Aufgaben hat DARPA-Finanzierung der Spracherkennung seit den 1980er Jahren charakterisiert. Im letzten Jahrzehnt hat es mit dem OHR-Projekt weitergegangen, das Anerkennung der Mandarine und des Arabisch zusätzlich zu Englisch und des STURM-Projektes übernommen hat, das sich allein auf die Mandarine und arabische und erforderliche Übersetzung gleichzeitig mit der Spracherkennung konzentriert hat.

Kommerzielle Forschung und andere akademische Forschung setzen auch fort, sich auf immer schwierigere Probleme zu konzentrieren. Ein Schlüsselgebiet soll Robustheit der Spracherkennungsleistung, nicht nur Robustheit gegen das Geräusch verbessern, aber die Robustheit gegen jede Bedingung, die eine Hauptdegradierung in der Leistung verursacht. Ein anderes Schlüsselgebiet der Forschung wird auf eine Gelegenheit aber nicht ein Problem eingestellt. Diese Forschung versucht, die Tatsache dass in vielen Anwendungen auszunutzen, es gibt eine große Menge von Rede-Daten verfügbar, bis zu Millionen von Stunden. Es ist zu teuer, Menschen solche großen Mengen der Rede abschreiben zu lassen, so ist der Forschungsfokus auf dem Entwickeln neuer Methoden der Maschine erfahrend, dass das große Mengen von unetikettierten Daten effektiv verwerten kann. Ein anderes Gebiet der Forschung versteht menschlicher Fähigkeiten besser und dieses Verstehen zu verwenden, um Maschinenanerkennungsleistung zu verbessern.

Siehe auch

  • AI Wirkung
  • ALPAC melden
  • Anwendungen der künstlichen Intelligenz
  • Artikulationsspracherkennung
  • Audiobergwerk
  • Audiovisuelle Spracherkennung
  • Automatischer Sprachübersetzer
  • Sprachmodell des geheimen Lagers
  • Schlüsselwort, das fleckig wird
  • Kinect
  • Mikrofon
  • Mondegreen
  • Multimediainformationsgewinnung
  • OpenDocument
  • Fonetische Suchtechnologie
  • Sprecher diarisation
  • Sprecher-Anerkennung
  • Rede-Analytik
  • Rede-Korpus
  • Rede-Schnittstelle-Richtlinie
  • Spracherkennung in Linux
  • Rede-Synthese einschließlich des Textes zur Rede (TTS)
  • Rede-Technologie
  • Rede-Überprüfung
  • VoiceXML
  • VoxForge
  • Windows-Spracherkennung

Listen

  • Liste von erscheinenden Technologien
  • Umriss der künstlichen Intelligenz

Links


Spinell / Saphir
Impressum & Datenschutz