Das Verstehen der natürlichen Sprache

Das Verstehen der natürlichen Sprache ist ein Subthema der Verarbeitung der natürlichen Sprache in der künstlichen Intelligenz, die sich mit Maschinenlesen-Verständnis befasst.

Der Prozess des Auseinanderbauens und der Syntaxanalyse des Eingangs ist komplizierter als der Rückprozess der sich versammelnden Produktion in der Generation der natürlichen Sprache wegen des Ereignisses von unbekannten und unerwarteten Eigenschaften im Eingang und dem Bedürfnis, die passenden syntaktischen und semantischen Schemas zu bestimmen, dafür, Faktoren zu gelten, die wenn outputting Sprache vorher bestimmt werden.

Es gibt beträchtliches kommerzielles Interesse am Feld wegen seiner Anwendung auf Nachrichtensammeln, Textkategorisierung, Stimmenaktivierung, archivierend und groß angelegte Inhaltsanalyse.

Geschichte

Der Programm-STUDENT, geschrieben 1964 von Daniel Bobrow für seine Doktordoktorarbeit an MIT ist einer der frühsten bekannten Versuche natürlicher Sprache, die durch einen Computer versteht. Acht Jahre, nachdem John McCarthy den Begriff künstliche Intelligenz ins Leben gerufen hat, hat die Doktorarbeit von Bobrow (betitelter Eingang der Natürlichen Sprache für ein Computerproblem-Lösen-System) gezeigt, wie ein Computer einfachen Eingang der natürlichen Sprache verstehen kann, um Algebra-Wortprobleme zu beheben.

Ein Jahr später, 1965, hat Joseph Weizenbaum an MIT ELIZA, ein interaktives Programm geschrieben, das einen Dialog in Englisch zu jedem Thema, das populärste fortgesetzt hat, das Psychotherapie ist. ELIZA, der durch die einfache Syntaxanalyse und den Ersatz von Schlüsselwörtern in konservierte Ausdrücke und Weizenbaum gearbeitet ist, ist das Problem ausgewichen, dem Programm eine Datenbank von wirklichen Kenntnissen oder einem reichen Lexikon zu geben. Und doch hat ELIZA überraschende Beliebtheit als ein Spielzeugprojekt gewonnen und kann als ein sehr früher Vorgänger zu aktuellen kommerziellen Systemen wie diejenigen gesehen werden, die durch Ask.com verwendet sind.

1969 hat Roger Schank an der Universität von Stanford die Begriffsabhängigkeitstheorie für das Verstehen der natürlichen Sprache eingeführt. Dieses Modell, teilweise unter Einfluss der Arbeit von Sydney Lamb, wurde von den Studenten von Schank an der Yale Universität, wie Robert Wilensky, Wendy Lehnert und Janet Kolodner umfassend verwendet.

1970 hat William A. Woods das vermehrte Übergang-Netz (ATN) eingeführt, um Eingang der natürlichen Sprache zu vertreten. Statt des Ausdrucks entscheidet Struktur, dass ATNs einen gleichwertigen Satz von Zustandsautomaten verwendet hat, die rekursiv genannt wurden. ATNs und ihr genanntes mehr allgemeines Format "haben verallgemeinert ATNs" hat fortgesetzt, seit mehreren Jahren verwendet zu werden.

1971 hat Terry Winograd beendet, SHRDLU für seine Doktorarbeit an MIT zu schreiben. SHRDLU konnte einfache englische Sätze in einer eingeschränkten Welt der Blöcke von Kindern verstehen, um einen robotic Arm zu leiten, um Sachen zu bewegen. Die erfolgreiche Demonstration von SHRDLU hat bedeutenden Schwung für die fortlaufende Forschung im Feld zur Verfügung gestellt. Winograd hat fortgesetzt, ein Haupteinfluss im Feld mit der Veröffentlichung seines Buches Sprache als ein Kognitiver Prozess zu sein. An Stanford war Winograd später der Berater für Larry Page, wer co-founded Google.

In den 1970er Jahren und 1980er Jahren hat die Gruppe der Verarbeitung der natürlichen Sprache an SRI International Forschung und Entwicklung im Feld fortgesetzt. Mehrere kommerzielle auf der Forschung gestützte Anstrengungen wurden z.B übernommen, 1982 hat Gary Hendrix Symantec Corporation ursprünglich als eine Gesellschaft gebildet, für eine Schnittstelle der natürlichen Sprache für Datenbankabfragen auf Personalcomputern zu entwickeln. Jedoch mit dem Advent der Maus verbindet gesteuerter, grafischer Benutzer geänderte Richtung von Symantec. Mehrere andere kommerzielle Anstrengungen wurden um dieselbe Zeit, z.B, Larry R. Harris an Artificial Intelligence Corporation und Roger Schank und seine Studenten an der Kognitiven Systemhandelsgesellschaft angefangen. 1983 hat Michael Dyer das BORIS System an Yale entwickelt, die Ähnlichkeiten zur Arbeit von Roger Schank und W. G. Lehnart tragen.

Spielraum und Zusammenhang

Der Überbegriff "das Verstehen der natürlichen Sprache" kann auf einen verschiedenen Satz von Computeranwendungen im Intervall von kleinen, relativ einfachen Aufgaben wie kurze Befehle angewandt werden, die zu Robotern, zu hoch komplizierten Versuchen wie das volle Verständnis von Zeitungsartikeln oder Dichtungsdurchgängen ausgegeben sind. Viele echte Weltanwendungen fallen zwischen den zwei Extremen, zum Beispiel verlangt die Textklassifikation für die automatische Analyse von E-Mails und ihrer Routenplanung zu einer passenden Abteilung in einer Vereinigung eingehend das Verstehen des Textes nicht, aber ist viel komplizierter als das Management von einfachen Abfragen zu Datenbanktischen mit festen Diagrammen.

Im Laufe der Jahre haben verschiedene Versuche der Verarbeitung der natürlichen Sprache oder einem Englisch ähnlichen Computern präsentierten Sätze an unterschiedlichen Graden der Kompliziertheit stattgefunden. Einige Versuche sind auf Systeme mit dem tiefen Verstehen nicht hinausgelaufen, aber haben gesamter Systembrauchbarkeit geholfen. Zum Beispiel hat Wayne Ratliff ursprünglich das Programm von Vulcanus mit einer einem Englisch ähnlichen Syntax entwickelt, um den englischen Sprechen-Computer im Sterntreck nachzuahmen. Vulcanus ist später das dBase System geworden, dessen gebrauchsfreundliche Syntax effektiv die Personalcomputerdatenbankindustrie gestartet hat. Systeme mit einem leichten, um zu verwenden, oder Englisch wie Syntax sind jedoch von Systemen, ziemlich verschieden, die ein reiches Lexikon verwenden und eine innere Darstellung (häufig als die erste Ordnungslogik) der Semantik von Sätzen der natürlichen Sprache einschließen.

Folglich bestimmen die Breite und Tiefe, gerichtet auf durch ein System "zu verstehen", sowohl die Kompliziertheit des Systems (als auch die implizierten Herausforderungen) und die Typen von Anwendungen, mit denen es sich befassen kann. Die "Breite" eines Systems wird durch die Größen seines Vokabulars und Grammatik gemessen. Die "Tiefe" wird durch den Grad gemessen, zu dem sein Verstehen dem eines fließenden Muttersprachlers näher kommt. Am schmalsten und seichtesten, einem Englisch ähnlichen Befehl verlangen Dolmetscher minimale Kompliziertheit, aber haben eine kleine Reihe von Anwendungen. Schmale, aber tiefe Systeme erforschen und Mustermechanismen zu verstehen, aber sie haben noch Anwendung beschränkt. Systeme, die versuchen, den Inhalt eines Dokumentes wie eine Pressemitteilung außer dem einfachen Schlüsselwort-Zusammenbringen zu verstehen und seine Eignung für einen Benutzer zu beurteilen, sind breiter und verlangen bedeutende Kompliziertheit, aber sie sind noch etwas seicht. Systeme, die sowohl sehr breit sind als auch sehr tiefe, sind außer dem aktuellen Stand der Technik.

Bestandteile und Architektur

Unabhängig von der verwendeten Annäherung können einige allgemeine Bestandteile in den meisten Verstehen-Systemen der natürlichen Sprache identifiziert werden. Das System braucht ein Lexikon der Sprache und eines parser und Grammatik-Regeln, Sätze in eine innere Darstellung zu brechen. Der Aufbau eines reichen Lexikons mit einer passenden Ontologie verlangt bedeutende Anstrengung z.B, das Lexikon von Wordnet hat viele Person-Jahre der Anstrengung verlangt.

Das System braucht auch eine semantische Theorie, das Verständnis zu führen. Die Interpretationsfähigkeiten zu einem Sprachverstehen-System hängen von der semantischen Theorie ab, die es verwendet. Konkurrierende semantische Theorien der Sprache haben spezifischen Handel offs in ihrer Eignung

weil die Basis des Computers semantische Interpretation automatisiert hat. Diese erstrecken sich von der naiven Semantik oder stochastischen semantischen Analyse zum Gebrauch der Pragmatik, um Bedeutung vom Zusammenhang abzuleiten.

Fortgeschrittene Anwendungen der natürlichen Sprache, die auch versteht, versuchen, logische Schlussfolgerung innerhalb ihres Fachwerks zu vereinigen. Das wird allgemein erreicht, indem es die abgeleitete Bedeutung in eine Reihe von Behauptungen in der Prädikat-Logik dann mit dem logischen Abzug kartografisch dargestellt wird, um Beschlüsse zu erreichen. Systeme, die auf funktionellen Sprachen wie Lispeln folglich gestützt sind, müssen ein Subsystem für die Darstellung von logischen Behauptungen einschließen, während Logik Systeme wie diejenigen orientiert hat, die die Spracheinleitung verwenden, allgemein verlassen sich auf eine Erweiterung des gebauten im logischen Darstellungsfachwerk.

Das Management des Zusammenhangs im Verstehen der natürlichen Sprache kann spezielle Herausforderungen präsentieren. Eine große Vielfalt von Beispielen und Gegenbeispielen ist auf vielfache Annäherungen an das formelle Modellieren des Zusammenhangs, jedes mit spezifischen Kräften und Schwächen hinausgelaufen.

Siehe auch

Referenzen


St. Canutes Kathedrale / SHRDLU
Impressum & Datenschutz