Verarbeitung der natürlichen Sprache

Verarbeitung der natürlichen Sprache (NLP) ist ein Feld der Informatik, künstlichen Intelligenz (auch genannt Maschine, die erfährt), und Linguistik, die mit den Wechselwirkungen zwischen Computern und menschlichen (natürlichen) Sprachen betroffen ist. Spezifisch ist es der Prozess eines Computers, der bedeutungsvolle Information aus dem Eingang der natürlichen Sprache herauszieht und/oder Produktion der natürlichen Sprache erzeugt.

In der Theorie ist Verarbeitung der natürlichen Sprache eine sehr attraktive Methode der Wechselwirkung des menschlichen Computers.

Das Verstehen der natürlichen Sprache wird manchmal ein AI-complete Problem genannt, weil es scheint, umfassende Kenntnisse über die Außenwelt und die Fähigkeit zu verlangen, es zu manipulieren.

Ob NLP davon verschieden, oder dazu identisch ist, ist das Feld der linguistischen Datenverarbeitung eine Sache der Perspektive. Die Vereinigung für die Linguistische Datenverarbeitung definiert die Letzteren als das Konzentrieren auf die theoretischen Aspekte von NLP. Andererseits, die Zeitschrift "Computational Linguistics" des offenen Zugangs, Stile selbst als "die längste laufende Veröffentlichung gewidmet exklusiv dem Design und der Analyse von Systemen der Verarbeitung der natürlichen Sprache" (Linguistische Datenverarbeitung (Zeitschrift))

Moderne NLP Algorithmen werden im Maschinenlernen, dem besonders statistischen Maschinenlernen niedergelegt. Die Forschung in moderne statistische NLP Algorithmen verlangt ein Verstehen mehrerer ungleicher Felder, einschließlich der Linguistik, Informatik und Statistik. Für eine Diskussion der Typen von in NLP zurzeit verwendeten Algorithmen, sieh den Artikel über die Muster-Anerkennung.

Geschichte

Die Geschichte von NLP fängt allgemein in den 1950er Jahren an, obwohl Arbeit von früheren Perioden gefunden werden kann.

1950 hat Alan Turing seinen berühmten Artikel "Computing Machinery and Intelligence" veröffentlicht, der vorgeschlagen hat, was jetzt den Test von Turing als ein Kriterium der Intelligenz genannt wird. Dieses Kriterium hängt von der Fähigkeit eines Computerprogramms ab, einen Menschen in einem schriftlichen Echtzeitgespräch mit einem menschlichen Richter genug gut zu imitieren, dass der Richter unfähig ist, zuverlässig — auf der Grundlage vom Unterhaltungsinhalt allein — zwischen dem Programm und einem echten Menschen zu unterscheiden.

Das Georgetown Experiment 1954 ist mit vollautomatischer Übersetzung von mehr als sechzig russischen Sätzen ins Englisch verbunden gewesen. Die Autoren haben behauptet, dass innerhalb von drei oder fünf Jahren maschinelle Übersetzung ein behobenes Problem sein würde. Jedoch war echter Fortschritt viel langsamer, und nachdem der ALPAC-Bericht 1966, der gefunden hat, dass zehn Jahre lange Forschung gescheitert hatte, die Erwartungen zu erfüllen, für die maschinelle Übersetzung finanziell unterstützend, drastisch reduziert wurde. Die wenig weitere Forschung in der maschinellen Übersetzung wurde bis zum Ende der 1980er Jahre geführt, als die ersten statistischen Systeme der maschinellen Übersetzung entwickelt wurden.

Einige namentlich erfolgreiche NLP Systeme entwickelt waren in den 1960er Jahren SHRDLU, ein System der natürlichen Sprache, das in eingeschränkten "Block-Welten" mit eingeschränkten Vokabularen, und ELIZA, einer Simulation eines Psychotherapeuten von Rogerian arbeitet, der von Joseph Weizenbaum zwischen 1964 bis 1966 geschrieben ist. Das Verwenden hat fast keiner Information über den Menschen gedacht oder Gefühl, ELIZA hat manchmal eine aufschreckend einem Menschen ähnliche Wechselwirkung zur Verfügung gestellt. Als der "Patient" die sehr kleine Kenntnisse-Basis überschritt, könnte ELIZA eine allgemeine Antwort zur Verfügung stellen, zum Beispiel auf "Meine Hauptschmerzen" mit antwortend, "Warum sagen Sie Ihre Hauptschmerzen?".

Während der 70er Jahre haben viele Programmierer begonnen, 'Begriffsontologie' zu schreiben, die wirkliche Information in computerverständliche Daten strukturiert hat. Beispiele sind MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), SCHWÄCHE (Lehnert, 1977), Politik (Carbonell, 1979), und Anschlag-Einheiten (Lehnert 1981). Während dieser Zeit wurden viele chatterbots einschließlich der ABWEHR, Racter und Jabberwacky geschrieben.

Bis zu den 1980er Jahren haben die meisten NLP Systeme auf komplizierten Sätzen von handschriftlichen Regeln basiert. Als es gegen Ende der 1980er Jahre jedoch angefangen hat, gab es eine Revolution in NLP mit der Einführung von Maschinenlernalgorithmen für die Sprachverarbeitung. Das war sowohl zur unveränderlichen Zunahme in der rechenbetonten Macht erwartet, die sich aus dem Gesetz von Moore als auch zum allmählichen Nachlassen der Überlegenheit von Theorien von Chomskyan der Linguistik ergibt (z.B Transformationsgrammatik), wessen theoretische Untermauerungen die Sorte der Korpus-Linguistik entmutigt haben, die der maschinenerfahrenden Annäherung an die Sprachverarbeitung unterliegt. Einige der am frühsten verwendeten Maschinenlernalgorithmen, wie Entscheidungsbäume, haben Systeme von harten wenn dann vorhandenen handschriftlichen Regeln ähnliche Regeln erzeugt. Zunehmend, jedoch, hat sich Forschung auf statistische Modelle konzentriert, die weich, probabilistic Entscheidungen gestützt auf der Befestigung reellwertiger Gewichte zu den Eigenschaften machen, die die Eingangsdaten zusammensetzen. Die Sprachmodelle des geheimen Lagers, auf die sich viele Spracherkennungssysteme jetzt verlassen, sind Beispiele solcher statistischen Modelle. Solche Modelle sind allgemein, wenn gegeben, fremder Eingang robuster, geben Sie besonders ein, der Fehler enthält (wie für wirkliche Daten sehr üblich ist), und erzeugen Sie zuverlässigere Ergebnisse, wenn integriert, in ein größeres System, das vielfache Teilaufgaben umfasst.

Viele der bemerkenswerten frühen Erfolge sind im Feld der maschinellen Übersetzung, erwartet besonders vorgekommen, an IBM Research zu arbeiten, wo nacheinander mehr komplizierte statistische Modelle entwickelt wurden. Diese Systeme sind im Stande gewesen, die vorhandene mehrsprachige Textkorpora auszunutzen, die vom Parlament Kanadas und der Europäischen Union infolge Gesetze erzeugt worden war, die nach der Übersetzung aller Regierungsverhandlungen in alle offiziellen Sprachen der entsprechenden Systeme der Regierung verlangen. Jedoch haben die meisten anderen Systeme von Korpora abgehangen, die spezifisch für die durch diese Systeme durchgeführten Aufgaben entwickelt ist, der war (und häufig fortsetzt zu sein) eine Hauptbeschränkung im Erfolg dieser Systeme. Infolgedessen ist sehr viel Forschung in Methoden effektiver des Lernens aus beschränkten Datenmengen eingetreten.

Neue Forschung hat sich unbeaufsichtigt zunehmend konzentriert und hat das Lernen von Algorithmen halbbeaufsichtigt. Solche Algorithmen sind im Stande, von Daten zu erfahren, der mit den gewünschten Antworten oder dem Verwenden einer Kombination von kommentierten und nichtkommentierten Daten nicht handkommentiert worden ist. Allgemein ist diese Aufgabe viel schwieriger als das beaufsichtigte Lernen, und erzeugt normalerweise weniger genaue Ergebnisse für einen gegebenen Betrag von Eingangsdaten. Jedoch gibt es einen enormen Betrag von nichtkommentierten verfügbaren Daten (einschließlich, unter anderem, der komplette Inhalt des World Wide Web), der häufig die untergeordneten Ergebnisse wettmachen kann.

NLP das Verwenden des Maschinenlernens

Wie beschrieben, oben werden moderne Annäherungen an die Verarbeitung der natürlichen Sprache (NLP) im Maschinenlernen niedergelegt. Das Paradigma der Maschine, die erfährt, ist von diesem von den meisten vorherigen Versuchen der Sprachverarbeitung verschieden. Vorherige Durchführungen von sprachbearbeitenden Aufgaben sind normalerweise mit dem direkten Handcodieren von großen Regelwerken verbunden gewesen. Das maschinenerfahrende Paradigma Anrufe stattdessen, allgemeine Lernalgorithmen — häufig, obwohl nicht immer zu verwenden, hat sich in der statistischen Schlussfolgerung gegründet — um solche Regeln durch die Analyse der großen Korpora von typischen wirklichen Beispielen automatisch zu erfahren. Ein Korpus (Mehrzahl-, "Korpora") ist eine Reihe von Dokumenten (oder manchmal, individuelle Sätze), die mit den richtigen zu erfahrenden Werten handkommentiert worden sind.

Betrachten Sie die Aufgabe der Wortart als markierend, d. h. Bestimmung der richtigen Wortart jedes Wortes in einem gegebenen Satz, normalerweise derjenige, der vorher nie gesehen worden ist. Eine typische maschinenlernbasierte Durchführung einer Wortart tagger geht in zwei Schritten, einem Lehrschritt und einem Einschätzungsschritt weiter. Der erste Schritt — der Lehrschritt — macht von einem Korpus von Lehrdaten Gebrauch, das aus einer Vielzahl von Sätzen besteht, von denen jeder die richtige Wortart jedem Wort beifügen ließ. (Ein Beispiel solch eines Korpus in der üblichen Anwendung ist der Penn Treebank. Das schließt (unter anderem) eine Reihe 500 Texte vom Braunen Korpus ein, Beispiele von verschiedenen Genres des Textes und der 2500 Artikel aus dem Wall Street Journal enthaltend.) Dieses Korpus wird analysiert, und ein Lernmodell wird davon erzeugt, aus automatisch geschaffenen Regeln bestehend, für die Wortart für ein Wort in einem Satz zu bestimmen, der normalerweise auf der Natur des fraglichen Wortes, der Natur von Umgebungswörtern und der wahrscheinlichsten Wortart für diejenigen Umgebungswörter gestützt ist. Das Modell, das erzeugt wird, ist normalerweise das beste Modell, das gefunden werden kann, dass gleichzeitig zwei widerstreitende Ziele entspricht: Sowie möglich auf den Lehrdaten zu leisten, und so einfach zu sein, wie möglich (so dass das Modell vermeidet, die Lehrdaten überzupassen, d. h. so dass es sowie möglich zu neuen Daten verallgemeinert aber nicht nur auf Sätzen erfolgreich seiend, die bereits gesehen worden sind). Im zweiten Schritt (der Einschätzungsschritt) wird das Modell, das erfahren worden ist, verwendet, um neue Sätze zu bearbeiten. Ein wichtiger Teil der Entwicklung jedes Lernalgorithmus prüft das Modell, das auf dem neuen, vorher ungesehenen Daten erfahren worden ist. Es ist kritisch, dass die für die Prüfung verwendeten Daten nicht dasselbe als die für die Ausbildung verwendeten Daten sind; sonst wird die Probegenauigkeit unrealistisch hoch sein.

Viele verschiedene Klassen von Maschinenlernalgorithmen sind auf NLP Aufgaben angewandt worden. Gemeinsam zu allen diesen Algorithmen ist, dass sie als Eingang einen großen Satz von "Eigenschaften" nehmen, die von den Eingangsdaten erzeugt werden. Als ein Beispiel, für eine Wortart tagger, könnten typische Eigenschaften die Identität des Wortes sein, das, die Identität der Wörter sofort nach links und des Rechts, des Wortart-Anhängsels des Wortes nach links wird bearbeitet, und ob das Wort, das wird betrachtet, oder seine unmittelbaren Nachbarn zufriedene Wörter oder Funktionswörter sind. Die Algorithmen unterscheiden sich jedoch in der Natur der erzeugten Regeln. Einige der am frühsten verwendeten Algorithmen, wie Entscheidungsbäume, haben Systeme von harten erzeugt, wenn dann Regeln, die den Systemen von handschriftlichen Regeln ähnlich sind, die dann üblich waren. Zunehmend, jedoch, hat sich Forschung auf statistische Modelle konzentriert, die weich, probabilistic Entscheidungen gestützt auf der Befestigung reellwertiger Gewichte zu jeder Eingangseigenschaft machen. Solche Modelle haben den Vorteil, dass sie die Verhältnisgewissheit von vielen verschiedenen möglichen Antworten aber nicht nur einem ausdrücken können, zuverlässigere Ergebnisse erzeugend, wenn solch ein Modell als ein Bestandteil eines größeren Systems eingeschlossen wird. Außerdem sind Modelle, die weiche Entscheidungen treffen, allgemein, wenn gegeben, fremder Eingang robuster, geben Sie besonders ein, der Fehler enthält (wie für wirkliche Daten sehr üblich ist).

Auf maschinenerfahrenden Algorithmen gestützte Systeme sind im Vorteil gegenüber handerzeugten Regeln:

  • Die Lernverfahren, die während der Maschine verwendet sind, die automatisch erfährt, konzentrieren sich auf die allgemeinsten Fälle, wohingegen, wenn man Regeln mit der Hand schreibt, es häufig überhaupt nicht offensichtlich ist, wo die Anstrengung geleitet werden sollte.
  • Automatische Lernverfahren können von statistischen Interferenzalgorithmen Gebrauch machen, um Modelle zu erzeugen, die zum fremden Eingang robust sind (z.B Wörter oder Strukturen enthaltend, die vorher nicht gesehen worden sind), und zum falschen Eingang (z.B mit falsch buchstabierten Wörtern oder Wörtern zufällig weggelassen). Allgemein sind das Berühren solchen Eingangs anmutig mit handschriftlichen Regeln — oder mehr allgemein, das Schaffen von Systemen von handschriftlichen Regeln, die weiche Entscheidungen treffen — äußerst schwierig, fehlbar und zeitraubend.
  • Auf dem automatischen Lernen der Regeln gestützte Systeme können genauer einfach durch die Versorgung von mehr Eingangsdaten gemacht werden. Jedoch können auf handschriftlichen Regeln gestützte Systeme nur genauer durch die Erhöhung der Kompliziertheit der Regeln gemacht werden, die eine viel schwierigere Aufgabe ist. Insbesondere es gibt eine Grenze zur Kompliziertheit von Systemen, die auf handgefertigten Regeln gestützt sind, außer denen die Systeme immer mehr schwer zu handhabend werden. Jedoch verlangt das Schaffen von mehr Daten, um zu maschinenerfahrenden Systemen einzugeben, einfach, dass eine entsprechende Zunahme in der Zahl von Arbeitsstunden allgemein ohne bedeutende Zunahmen in der Kompliziertheit des Anmerkungsprozesses gearbeitet hat.

Hauptaufgaben in NLP

Der folgende ist eine Liste von einigen der meistens erforschten Aufgaben in NLP. Bemerken Sie, dass einige dieser Aufgaben direkte wirkliche Anwendungen haben, während andere allgemeiner als Teilaufgaben dienen, die verwendet werden, um im Lösen größerer Aufgaben zu helfen. Was unterscheidet, diese Aufgaben von anderen potenziellen und wirklichen NLP Aufgaben ist nicht nur das Volumen der Forschung, die ihnen, aber die Tatsache dass für jeden gewidmet ist, was es normalerweise eine bestimmte Problem-Einstellung, ein Standard gibt, der metrisch ist, für die Aufgabe, Standardkorpora zu bewerten, auf der die Aufgabe, und der spezifischen Aufgabe gewidmete Konkurrenzen bewertet werden kann.

  • Automatische Zusammenfassung: Erzeugen Sie eine lesbare Zusammenfassung eines Klotzes des Textes. Häufig verwendet, um Zusammenfassungen des Textes eines bekannten Typs wie Artikel in der Finanzabteilung einer Zeitung zur Verfügung zu stellen.
  • Entschlossenheit von Coreference: In Anbetracht eines Satzes oder größeren Klotzes des Textes, bestimmen Sie, welche Wörter sich ("Erwähnungen") auf dieselben Gegenstände ("Entitäten") beziehen. Entschlossenheit von Anaphora ist ein spezifisches Beispiel dieser Aufgabe, und ist mit spezifisch dem Zusammenbringen von Pronomina mit den Substantiven oder Namen beschäftigt, auf die sie sich beziehen. Zum Beispiel in einem Satz wie "Ist er ins Haus von John durch die Haustür eingegangen" "ist die Haustür" ein sich beziehender Ausdruck und die zu identifizierende Überbrücken-Beziehung die Tatsache ist, dass die Tür, die darauf wird verweist, die Haustür des Hauses von John ist (aber nicht einer anderen Struktur, die auch auf verwiesen werden könnte).
  • Gespräch-Analyse: Dieser Titelkopf schließt mehrere zusammenhängende Aufgaben ein. Eine Aufgabe identifiziert die Gespräch-Struktur des verbundenen Textes, d. h. die Natur der Gespräch-Beziehungen zwischen Sätzen (z.B Weiterentwicklung, Erklärung, Unähnlichkeit). Eine andere mögliche Aufgabe erkennt an und klassifiziert die Rede-Taten in einem Klotz des Textes (z.B Alternativfrage, zufriedene Frage, Behauptung, Behauptung, usw.).
  • Maschinelle Übersetzung: Übersetzen Sie automatisch Text von einer menschlicher Sprache bis einen anderen. Das ist eines der schwierigsten Probleme, und ist ein Mitglied einer Klasse von Problemen umgangssprachlich hat "AI-complete", d. h. das Verlangen von allen verschiedenen Typen von Kenntnissen genannt, dass Menschen besitzen (Grammatik, Semantik, Tatsachen über die echte Welt, usw.), um richtig zu lösen.
  • Morphologische Segmentation: Getrennte Wörter in individuelle Morpheme und identifizieren die Klasse der Morpheme. Die Schwierigkeit dieser Aufgabe hängt außerordentlich von der Kompliziertheit der Morphologie (d. h. die Struktur von Wörtern) der Sprache ab, die wird betrachtet. Englisch hat ziemlich einfache Morphologie, besonders Beugungsmorphologie, und so ist es häufig möglich, diese Aufgabe völlig und einfach Modell alle möglichen Formen eines Wortes zu ignorieren (z.B "offen, öffnet sich, geöffnet, sich" öffnend), als getrennte Wörter. Auf Sprachen solch so türkisch, jedoch, ist solch eine Annäherung nicht möglich, wie jeder Lexikoneintrag Tausende von möglichen Wortformen hat.
  • Genannte Entitätsanerkennung (NER): In Anbetracht eines Stroms des Textes, bestimmen Sie, den Sachen im Text zu Eigennamen, wie Leute oder Plätze kartografisch darstellen, und was der Typ jedes solchen Namens (z.B Person, Position, Organisation) ist. Bemerken Sie, dass, obwohl Kapitalisierung im Erkennen von genannten Entitäten auf Sprachen wie Englisch helfen kann, diese Information in der Bestimmung des Typs der genannten Entität nicht helfen kann, und häufig jedenfalls ungenau oder ungenügend ist. Zum Beispiel wird das erste Wort eines Satzes auch kapitalisiert, und genannte Entitäten messen häufig mehrere Wörter ab, von denen nur einige kapitalisiert werden. Außerdem haben viele andere Sprachen in Nichtwestschriften (z.B Chinesisch oder Arabisch) keine Kapitalisierung überhaupt, und sogar Sprachen mit der Kapitalisierung können es nicht durchweg verwenden, um Namen zu unterscheiden. Zum Beispiel kapitalisiert Deutsch alle Substantive, unabhängig davon, ob sie sich auf Namen beziehen, und Französisch und Spanisch Namen nicht kapitalisieren, die als Adjektive dienen.
  • Generation der natürlichen Sprache: Bekehrter-Information von Computerdatenbanken in die lesbare menschliche Sprache.
  • Das Verstehen der natürlichen Sprache: Bekehrter-Klötze des Textes in mehr formelle Darstellungen wie Logikstrukturen der ersten Ordnung, die für Computerprogramme leichter sind zu manipulieren. Das Verstehen der natürlichen Sprache schließt die Identifizierung des beabsichtigten semantischen von der vielfachen möglichen Semantik ein, die aus einem Ausdruck der natürlichen Sprache abgeleitet werden kann, der gewöhnlich die Form von organisierten Notationen von Konzepten der natürlichen Sprachen annimmt. Einführung und Entwicklung der Sprache metamodel und Ontologie sind jedoch empirische Lösungen effizient. Eine ausführliche Formalisierung der Semantik der natürlichen Sprachen ohne Verwirrungen mit impliziten Annahmen wie geschlossene Weltannahme (CWA) gegen die offene Weltannahme, oder subjektiv Ja/no gegen das Wahre/falsche Ziel wird für den Aufbau einer Basis der Semantik-Formalisierung erwartet.
  • Optische Charakter-Anerkennung (OCR): In Anbetracht eines Images, das gedruckten Text vertritt, bestimmen Sie den entsprechenden Text.
  • Markierende Wortart: In Anbetracht eines Satzes, bestimmen Sie die Wortart für jedes Wort. Viele Wörter, besonders allgemeine, können als vielfache Wortarten dienen. Zum Beispiel kann "Buch" ein Substantiv ("das Buch auf dem Tisch") oder Verb sein ("um einen Flug" vorzubestellen); "Satz" kann ein Substantiv, Verb oder adjektivisch sein; und kann einige von mindestens fünf verschiedenen Wortarten sein. Bemerken Sie, dass einige Sprachen mehr solche Zweideutigkeit haben als andere. Sprachen mit wenig Beugungsmorphologie, wie Englisch sind für solche Zweideutigkeit besonders anfällig. Chinesisch ist für solche Zweideutigkeit anfällig, weil es eine Tonsprache während der Verbalisierung ist. Solche Beugung wird über die innerhalb der Rechtschreibung verwendeten Entitäten nicht sogleich befördert, um beabsichtigte Bedeutung zu befördern.
  • Syntaxanalyse: Bestimmen Sie den Syntaxanalyse-Baum (grammatische Analyse) eines gegebenen Satzes. Die Grammatik für natürliche Sprachen ist zweideutig, und typische Sätze haben vielfache mögliche Analysen. Tatsächlich, vielleicht überraschend, für einen typischen Satz kann es Tausende von potenziellen Syntaxanalysen geben (von denen die meisten völlig sinnlos einem Menschen scheinen werden).
  • Das Frage-Antworten: In Anbetracht einer menschlich-sprachigen Frage, bestimmen Sie seine Antwort. Typische Fragen haben eine spezifische richtige Antwort (solcher als "Wie ist die Hauptstadt Kanadas?"), aber manchmal werden unbegrenzte Fragen auch betrachtet (solcher als "Wie ist die Bedeutung des Lebens?").
  • Beziehungsförderung: In Anbetracht eines Klotzes des Textes, identifizieren Sie die Beziehungen unter genannten Entitäten (z.B, wer die Frau wen ist).
  • Das Satz-Brechen (auch bekannt als Satz-Grenzbegriffserklärung): In Anbetracht eines Klotzes des Textes, finden Sie die Satz-Grenzen. Satz-Grenzen werden häufig durch Perioden oder andere Satzzeichen gekennzeichnet, aber diese dieselben Charaktere können anderen Zwecken dienen (z.B Abkürzungen kennzeichnend).
  • Gefühl-Analyse: Extrakt subjektive Information gewöhnlich aus einer Reihe von Dokumenten, häufig mit Online-Rezensionen, "um Widersprüchlichkeit" über spezifische Gegenstände zu bestimmen. Es ist besonders nützlich, um Tendenzen der öffentlichen Meinung in den sozialen Medien zum Zweck des Marketings zu identifizieren.
  • Spracherkennung: In Anbetracht einer gesunden Büroklammer einer Person oder Leute, die sprechen, bestimmen Sie die Textdarstellung der Rede. Das ist das Gegenteil des Textes zur Rede und ist eines der äußerst schwierigen Probleme umgangssprachlich hat "AI-complete" genannt (sieh oben). In der natürlichen Rede gibt es kaum irgendwelche Pausen zwischen aufeinander folgenden Wörtern, und so ist Rede-Segmentation eine notwendige Teilaufgabe der Spracherkennung (sieh unten). Bemerken Sie auch, dass auf den meisten Sprachen die Töne, die aufeinander folgende Brief-Mischung in einander in einem Prozess vertreten, coarticulation genannt haben, so kann die Konvertierung des analogen Signals zu getrennten Charakteren ein sehr schwieriger Prozess sein.
  • Rede-Segmentation: In Anbetracht einer gesunden Büroklammer einer Person oder Leute, die sprechen, trennen Sie es in Wörter. Eine Teilaufgabe der Spracherkennung und normalerweise gruppiert damit.
  • Thema-Segmentation und Anerkennung: In Anbetracht eines Klotzes des Textes, trennen Sie es in Segmente, von denen jedes einem Thema gewidmet wird, und identifizieren das Thema des Segmentes.
  • Wortsegmentation: Trennen Sie einen Klotz des Fließtextes in getrennte Wörter. Für eine Sprache wie Englisch ist das ziemlich trivial, da Wörter gewöhnlich durch Räume getrennt werden. Jedoch kennzeichnen einige geschriebene Sprachen wie Chinesisch, Japanisch und Thai Wortgrenzen auf solch eine Mode nicht, und auf jene Sprachen ist Textsegmentation bedeutende Aufgabe-Verlangen-Kenntnisse des Vokabulars und Morphologie von Wörtern auf der Sprache.
  • Wortsinnbegriffserklärung: Viele Wörter haben mehr als eine Bedeutung; wir müssen die Bedeutung auswählen, die den grössten Teil des Sinns im Zusammenhang hat. Für dieses Problem wird uns normalerweise eine Liste von Wörtern und verbundenen Wortsinnen z.B aus einem Wörterbuch oder von einer Online-Quelle wie WordNet gegeben.

In einigen Fällen werden Sätze von zusammenhängenden Aufgaben in Teilfelder von NLP gruppiert, die häufig getrennt von NLP als Ganzes betrachtet werden. Beispiele schließen ein:

  • Informationsgewinnung (IR): Das ist mit Speicherung, Suche und dem Wiederbekommen der Information beschäftigt. Es ist ein getrenntes Feld innerhalb der Informatik (näher an Datenbanken), aber IR verlässt sich auf einige NLP Methoden (zum Beispiel, stammend). Etwas aktuelle Forschung und Anwendungen bemühen sich, die Lücke zwischen IR und NLP zu überbrücken.
  • Informationsförderung (IE): Das wird im Allgemeinen mit der Förderung der semantischen Information aus dem Text betroffen. Das bedeckt Aufgaben solcher als genannt Entitätsanerkennung, coreference Entschlossenheit, Beziehungsförderung usw.
  • Rede-Verarbeitung: Das bedeckt Spracherkennung, Text zur Rede und verwandte Aufgaben.

Andere Aufgaben schließen ein:

  • Das Stammen
  • Textvereinfachung
  • Text zur Rede
  • Textfestmachen
  • Suche der natürlichen Sprache
  • Anfragenvergrößerung
  • Automatisierter Aufsatz, zählend
  • Truecasing

Statistischer NLP

Statistischer Gebrauch der Verarbeitung der natürlichen Sprache stochastisch, probabilistic und statistische Methoden, einige der Schwierigkeiten aufzulösen, haben oben, besonders diejenigen besprochen, die entstehen, weil längere Sätze, wenn bearbeitet, mit realistischen Grammatiken hoch zweideutig sind, Tausende oder Millionen von möglichen Analysen nachgebend. Methoden für die Begriffserklärung schließen häufig den Gebrauch der Korpora und Modelle von Markov ein. Statistischer NLP umfasst alle quantitativen Annäherungen an die automatisierte Sprachverarbeitung, einschließlich des Probabilistic-Modellierens, der Informationstheorie und der geradlinigen Algebra. Der

die Technologie für statistischen NLP kommt hauptsächlich aus dem Maschinenlernen und Datenbergwerk, von denen beide Felder der künstlichen Intelligenz sind

das schließt das Lernen aus Daten ein.

Einschätzung der Verarbeitung der natürlichen Sprache

Ziele

Die Absicht der NLP Einschätzung ist, eine oder mehr Qualitäten eines Algorithmus oder eines Systems zu messen, um zu bestimmen entweder (oder inwieweit), antwortet das System auf die Absichten seiner Entwerfer, oder deckt den Bedarf seiner Benutzer. Die Forschung in der NLP Einschätzung hat beträchtliche Aufmerksamkeit erhalten, weil die Definition von richtigen Einschätzungskriterien eine Weise ist, genau anzugeben, dass ein NLP Problem, so außer der Zweideutigkeit von Aufgaben gehend, nur als das Sprachverstehen oder die Sprachgeneration definiert hat. Ein genauer Satz von Einschätzungskriterien, der hauptsächlich Einschätzungsdaten und Einschätzungsmetrik einschließt, ermöglicht mehreren Mannschaften, ihre Lösungen eines gegebenen NLP Problems zu vergleichen.

Kurze Geschichte der Einschätzung in NLP

Die erste Einschätzungskampagne auf schriftlichen Texten scheint, eine Kampagne zu sein, die der Nachricht gewidmet ist, die 1987 (Palette 1998) versteht. Dann planen die Parseval/GEIG verglichene Grammatiken der Ausdruck-Struktur (Schwarzer 1991). Eine Reihe von Kampagnen innerhalb des Tippgeber-Projektes wurde auf Aufgaben wie Zusammenfassung, Übersetzung begriffen und (Hirschman 1998) suchend. 1994, in Deutschland, hat Morpholympics deutschen taggers verglichen. Dann wurden die Kampagnen von Senseval und Romanseval mit den Zielen der semantischen Begriffserklärung geführt. 1996 hat die Sprühen Kampagne syntaktischen parsers auf vier verschiedenen Sprachen (Englisch, Französisch, Deutsch und Italienisch) verglichen. In Frankreich hat sich das Gnade-Projekt eine Reihe 21 taggers für Französisch 1997 (Adda 1999) verglichen. 2004, während des Technolangue/Easy-Projektes, wurden 13 parsers für Französisch verglichen. Die groß angelegte Einschätzung der Abhängigkeit parsers wurde im Zusammenhang von geteilten Aufgaben von CoNLL 2006 und 2007 durchgeführt. In Italien wurde die EVALITA Kampagne 2007 und 2009 geführt, um verschiedenen NLP und Rede-Werkzeuge für Italienisch zu vergleichen; die 2011-Kampagne ist im vollen Fortschritt - EVALITA Website. In Frankreich, innerhalb des ANR-Durchgang-Projektes (Ende von 2007), wurden 10 parsers für Französisch - Durchgang-Website verglichen.

Adda G., Mariani J., Paroubek P., Rajman M 1999-L'action GRACE d'évaluation de l'assignation des parties du discours pour le français. Langues vol-2

Schwarzer E., Abney S., Flickinger D., Gdaniec C., Grishman R., Harrison P., Hindle D., Ingria R., Jelinek F., Klavans J., Liberman M., Marcus M., Reukos S., Santoni B., Strzalkowski T. 1991 Ein Verfahren, für den syntaktischen Einschluss von englischen Grammatiken quantitativ zu vergleichen. DARPA Rede und Werkstatt der Natürlichen Sprache

Hirschman L. 1998-Sprachverstehen-Einschätzung: Lehren haben von MUC und ATIS erfahren. LREC Granada

Palette D.S. 1998 Die NIST Rolle in der automatischen Spracherkennung bewertet Tests. LREC Granada

Verschiedene Typen der Einschätzung

Abhängig von den Einschätzungsverfahren werden mehrere Unterscheidungen in der NLP Einschätzung traditionell gemacht.

  • Inner gegen die unwesentliche Einschätzung

Innere Einschätzung denkt ein isoliertes NLP System und charakterisiert seine Leistung hauptsächlich in Bezug auf ein Goldwährungsergebnis, das von den Schätzern vorherbestimmt ist. Unwesentliche Einschätzung, auch genannt Einschätzung im Gebrauch denkt das NLP System in einer komplizierteren Einstellung, entweder als ein eingebettetes System oder als Portion einer genauen Funktion für einen menschlichen Benutzer. Die unwesentliche Leistung des Systems wird dann in Bezug auf sein Dienstprogramm in Bezug auf die gesamte Aufgabe des komplizierten Systems oder des menschlichen Benutzers charakterisiert. Denken Sie zum Beispiel einen syntaktischen parser, der auf der Produktion von einer neuen Wortart (POS) tagger basiert. Eine innere Einschätzung würde den POS tagger auf einigen etikettierten Daten führen, und die Systemproduktion des POS tagger zur Goldwährung (richtige) Produktion vergleichen. Eine unwesentliche Einschätzung würde den parser mit einem anderen POS tagger, und dann mit dem neuen POS tagger führen, und die Syntaxanalyse-Genauigkeit vergleichen.

  • Schwarzer Kasten gegen die Glaskasten-Einschätzung

Einschätzung des schwarzen Kastens verlangt, dass ein NLP System auf einer gegebenen Datei führt und mehrere Rahmen misst, die mit der Qualität des Prozesses (Geschwindigkeit, Zuverlässigkeit, Quellenverbrauch) und, am wichtigsten, zur Qualität des Ergebnisses (z.B die Genauigkeit der Datenanmerkung oder die Treue einer Übersetzung) verbunden sind. Glaskasten-Einschätzung schaut auf das Design des Systems, die Algorithmen, die, die Sprachmittel durchgeführt werden, die es (z.B Vokabular-Größe) usw. verwendet. In Anbetracht der Kompliziertheit von NLP Problemen ist es häufig schwierig, Leistung nur auf der Grundlage von der Glaskasten-Einschätzung vorauszusagen, aber dieser Typ der Einschätzung ist in Bezug auf die Fehleranalyse oder zukünftigen Entwicklungen eines Systems informativer.

  • Automatisch gegen die manuelle Einschätzung

In vielen Fällen können automatische Verfahren definiert, um ein NLP System durch das Vergleichen seiner Produktion mit der Goldwährung zu bewerten (oder gewünscht werden) ein. Obwohl die Kosten, die Goldwährung zu erzeugen, ziemlich hoch sein können, automatische Einschätzung so häufig, wie erforderlich, ohne viel zusätzliche Kosten (auf denselben Eingangsdaten) wiederholt werden kann. Jedoch, für viele NLP Probleme, ist die Definition einer Goldwährung eine komplizierte Aufgabe, und kann sich unmöglich erweisen, wenn Zwischenkommentator-Abmachung ungenügend ist. Manuelle Einschätzung wird von menschlichen Richtern durchgeführt, die beauftragt werden, die Qualität eines Systems, oder meistenteils einer Probe seiner Produktion zu schätzen, die auf mehreren Kriterien gestützt ist. Obwohl, dank ihrer Sprachkompetenz, menschliche Richter als die Verweisung für mehrere Sprachverarbeitungsaufgaben betrachtet werden können, gibt es auch beträchtliche Schwankung über ihre Einschaltquoten. Das ist, warum automatische Einschätzung manchmal objektive Einschätzung genannt wird, während die menschliche Art scheint, subjektiver zu sein.

Geteilte Aufgaben (Kampagnen)

  • BioCreative
  • Nachricht, Konferenz verstehend
  • Technolangue/Easy
  • Textsuche-Konferenz
  • Einschätzung trainiert auf der Semantischen Einschätzung (SemEval)
  • MorphoChallenge halbbeaufsichtigte und unbeaufsichtigte Morphem-Analyse

Standardisierung in NLP

Ein ISO Unterausschuss arbeitet, um Zwischenfunktionsfähigkeit zwischen lexikalischen Mitteln und NLP Programmen zu erleichtern. Der Unterausschuss ist ein Teil von ISO/TC37 und wird ISO/TC37/SC4 genannt. Einige ISO Standards werden bereits veröffentlicht, aber die meisten von ihnen sind im Bau hauptsächlich auf der Lexikaldarstellung (sieh LMF), Anmerkung und Datenkategorie-Registrierung.

Zeitschriften

  • Linguistische Datenverarbeitung
  • Internationale Konferenz für Sprachmittel und Einschätzung
  • Sprachprobleme in der Sprachtechnologie

Organisationen und Konferenzen

Vereinigungen

  • Vereinigung für die linguistische Datenverarbeitung (ACL)
  • Vereinigung für die maschinelle Übersetzung in den Amerikas (AMTA)
  • AFNLP - asiatische Föderation von Vereinigungen der Verarbeitung der natürlichen Sprache
  • ATALA - Association pour le Traitement Automatique des Langues
  • Australasian Language Technology Association (ALTA)
  • Spanische Gesellschaft der Verarbeitung der natürlichen Sprache (SEPLN)
  • Mexikanische Vereinigung der Verarbeitung der natürlichen Sprache (AMPLN)

Konferenzen

Hauptkonferenzen schließen ein:

  • Jahresversammlung der Vereinigung für die Linguistische Datenverarbeitung (auch bekannt als ACL Konferenz)
  • Internationale Konferenz für die linguistische Datenverarbeitung (COLING)
  • Internationale Konferenz für Sprachmittel und Einschätzung (LREC)
  • Konferenz für die intelligente Textverarbeitung und linguistische Datenverarbeitung (CICLing)
  • Empirische Methoden auf der Verarbeitung der natürlichen Sprache (EMNLP)

Softwarewerkzeuge

  • OpenNLP
  • Allgemeine Architektur für die Texttechnik (TOR)
  • Unstructured Information Management Architecture (UIMA)
  • Modulaudioanerkennungsfachwerk
  • MontyLingua
  • Werkzeug der Natürlichen Sprache (NLTK): ein Pythonschlange-Bibliotheksgefolge

Siehe auch

  • Attensity
  • Biomedizinischer Text, der abbaut
  • Zusammengesetzter Begriff, der in einer Prozession geht
  • Computergestützte Prüfung
  • Kontrollierte natürliche Sprache
  • Das fremdsprachige Lesen hilft
  • Das fremdsprachige Schreiben hilft
  • Sprachtechnologie
  • Das latente semantische Indexieren
  • LRE Karte
  • Natürliche Sprache, programmierend
OpenNLP
  • Reification (Linguistik)
  • Siri (Software)
  • Gesprochenes Dialog-System
  • Telligent Systeme
  • Transderivational suchen
  • Watson (Software der künstlichen Intelligenz)
  • Wolfram-Alpha

Zusammenhängende akademische Artikel

  • Ätzlaugen, M. (1995). Modelle des Verstehens der natürlichen Sprache. Verhandlungen der Nationalen Akademie von Wissenschaften der Vereinigten Staaten von Amerika, Vol. 92, Nr. 22 (am 24. Okt 1995), Seiten 9977-9982.

Weiterführende Literatur

  • Steven Bird, Ewan Klein und Edward Loper (2009). Verarbeitung der natürlichen Sprache mit der Pythonschlange. Medien von O'Reilly. Internationale Standardbuchnummer 978-0596516499.
  • Daniel Jurafsky und James H. Martin (2008). Rede und Sprachverarbeitung, 2. Ausgabe. Pearson Prentice Hall. Internationale Standardbuchnummer 978-0131873216.
  • Christopher D. Manning, Prabhakar Raghavan und Hinrich Schütze (2008). Einführung in die Informationsgewinnung. Universität von Cambridge Presse. Internationale Standardbuchnummer 978-0521865715. Offizielles HTML und pdf ohne Anklage verfügbare Versionen.
  • Christopher D. Manning und Hinrich Schütze (1999). Fundamente der Statistischen Verarbeitung der natürlichen Sprache. Die MIT-Presse. Internationale Standardbuchnummer 978-0262133609.

Links


North Dakota / New South Wales
Impressum & Datenschutz