Wortsinn-Begriffserklärung

In der linguistischen Datenverarbeitung ist Wortsinn-Begriffserklärung (WSD) ein offenes Problem der Verarbeitung der natürlichen Sprache, die den Prozess des Identifizierens regelt, welcher Sinn eines Wortes (d. h. Bedeutung) in einem Satz verwendet wird, wenn das Wort vielfache Bedeutungen (Polysemie) hat. Die Lösung dieses Problems presst das andere computerzusammenhängende Schreiben wie Gespräch zusammen, Relevanz von Suchmotoren, anaphora Entschlossenheit, Kohärenz, Schlussfolgerung und so weiter verbessernd.

Forschung ist fest zum Punkt fortgeschritten, wo WSD Systeme genug hohe Niveaus der Genauigkeit auf einer Vielfalt von Worttypen und Zweideutigkeiten erreichen. Eine reiche Vielfalt von Techniken ist von Wörterbuch-basierten Methoden erforscht worden, die die Kenntnisse verwenden, die in lexikalischen Mitteln zu beaufsichtigten Maschinenlernmethoden verschlüsselt sind, in denen ein classifier für jedes verschiedene Wort auf einem Korpus manuell sinnkommentierter Beispiele, zu völlig unbeaufsichtigten Methoden dass Traube-Ereignisse von Wörtern erzogen wird, dadurch Wortsinne veranlassend. Unter diesen ist das beaufsichtigte Lernen von Annäherungen die erfolgreichsten Algorithmen bis heute gewesen.

Aktuelle Genauigkeit ist schwierig, ohne einen Gastgeber von Verwahrungen festzusetzen. In Englisch, Genauigkeit am grobkörnigen (Homograph) ist Niveau alltäglich über 90 % mit einigen Methoden auf besonderen Homographen, die mehr als 96 % erreichen. Auf feineren-grained Sinnunterscheidungen sind Spitzengenauigkeiten von 59.1 % bis 69.0 % in neuen Einschätzungsübungen berichtet worden (SemEval-2007, Senseval-2), wo die Grundlinie-Genauigkeit des einfachstmöglichen Algorithmus, immer den häufigsten Sinn zu wählen, 51.4 % und 57 % beziehungsweise war.

Darüber

Ein Begriffserklärungsprozess verlangt zwei strenge Dinge: Ein Wörterbuch, um die Sinne anzugeben, die disambiguiert werden sollen und ein Korpus von zu disambiguierenden Sprachdaten (in einigen Methoden ist ein Lehrkorpus von Sprachbeispielen auch erforderlich). WSD Aufgabe hat zwei Varianten: "lexikalische Probe" und "alle Wörter" Aufgabe. Der erstere umfasst das Disambiguieren der Ereignisse einer kleinen Probe von Zielwörtern, die vorher ausgewählt wurden, während in den Letzteren alle Wörter in einem Stück des laufenden Textes disambiguiert werden müssen. Der Letztere wird eine realistischere Form der Einschätzung gehalten, aber das Korpus ist teurer, um zu erzeugen, weil menschliche Kommentatoren die Definitionen für jedes Wort in der Folge jedes Mal lesen müssen, wenn sie ein markierendes Urteil, aber nicht einmal für einen Block von Beispielen für dasselbe Zielwort machen müssen.

Um einen Hinweis zu geben, wie all das arbeitet, denken Sie zwei Beispiele der verschiedenen Sinne, die für das (schriftliche) Wort "Bass" bestehen:

  1. ein Typ des Fisches
  2. Töne der niedrigen Frequenz

und die Sätze:

  1. Ich bin gegangen, auf einem Wolfsbarsch angelnd.
  2. Die Basslinie des Liedes ist zu schwach.

Einem Menschen ist es offensichtlich, dass der Anfangssatz das Wort "Bass (Fisch)" verwendet, wie im ehemaligen Sinn oben und im zweiten Satz das Wort "Bass (Instrument)" als im letzten Sinn unten verwendet wird. Das Entwickeln von Algorithmen, um diese menschliche Fähigkeit zu wiederholen, kann häufig eine schwierige Aufgabe sein, wie weiter durch die implizite Zweideutigkeit zwischen "Bass(Ton)" und "Bass" (Musikinstrument) veranschaulicht wird.

Geschichte

WSD wurde zuerst als eine verschiedene rechenbetonte Aufgabe während der frühen Tage der maschinellen Übersetzung in den 1940er Jahren formuliert, es eines der ältesten Probleme in der linguistischen Datenverarbeitung machend. Warren Weaver, in seinem berühmten 1949-Vermerk auf der Übersetzung, hat zuerst das Problem in einem rechenbetonten Zusammenhang eingeführt. Frühe Forscher haben die Bedeutung und Schwierigkeit von WSD gut verstanden. Tatsächlich hat Bar-Hillel (1960) das obengenannte Beispiel verwendet, um zu behaupten, dass WSD durch den "elektronischen Computer" wegen des Bedürfnisses im Allgemeinen nicht gelöst werden konnte, um alle Weltkenntnisse zu modellieren.

In den 1970er Jahren war WSD eine Teilaufgabe von semantischen innerhalb des Feldes der künstlichen Intelligenz entwickelten Interpretationssystemen, aber da WSD Systeme größtenteils regelbasierend und handcodiert waren, waren sie für einen Kenntnisse-Erwerb-Engpass anfällig.

Vor den 1980er Jahren sind groß angelegte lexikalische Mittel, wie Oxford das Wörterbuch des fortgeschrittenen Anfängers von Aktuellem Englisch (OALD), verfügbar geworden: Handcodieren wurde durch aus diesen Mitteln automatisch herausgezogene Kenntnisse ersetzt, aber Begriffserklärung war noch wissensbasiert oder Wörterbuch-basiert.

In den 1990er Jahren ist die statistische Revolution, die durch die linguistische Datenverarbeitung und WSD gekehrt ist, ein Paradigma-Problem geworden, an das man beaufsichtigte Maschinenlerntechniken anwendet.

Die 2000er Jahre haben beaufsichtigte Techniken gesehen ein Plateau in der Genauigkeit erreichen, und so hat sich Aufmerksamkeit zu raueren-grained Sinnen, Bereichsanpassung, halbbeaufsichtigten und unbeaufsichtigten Korpus-basierten Systemen, Kombinationen von verschiedenen Methoden und der Rückkehr von wissensbasierten Systemen über Graph-basierte Methoden bewegt. Und doch, beaufsichtigte Systeme setzen fort, am besten zu leisten.

Schwierigkeiten

Unterschiede zwischen Wörterbüchern

Ein Problem mit der Wortsinnbegriffserklärung entscheidet, wie die Sinne sind. In Fällen wie der Wortbass oben sind mindestens einige Sinne offensichtlich verschieden. In anderen Fällen, jedoch, können die verschiedenen Sinne nah (eine Bedeutung verbunden sein, die eine metaphorische oder metonymic Erweiterung von einem anderen ist), und in solcher Fall-Abteilung von Wörtern in Sinne wird viel schwieriger. Verschiedene Wörterbücher und Thesauren werden verschiedene Abteilungen von Wörtern in Sinne zur Verfügung stellen. Eine Lösung, die einige Forscher verwendet haben, ist, ein besonderes Wörterbuch zu wählen, und gerade seinen Satz von Sinnen zu verwenden. Allgemein, jedoch, sind Forschungsergebnisse mit breiten Unterscheidungen in Sinnen viel besser gewesen als diejenigen, die schmale verwenden. Jedoch, in Anbetracht des Mangels an einem flüggen grobkörnigen Sinnwarenbestand, setzen die meisten Forscher fort, an feinkörnigem WSD zu arbeiten.

Der grösste Teil der Forschung im Feld von WSD wird durch das Verwenden von WordNet als ein Bezugssinnwarenbestand für Englisch durchgeführt. WordNet ist ein rechenbetontes Lexikon, das Konzepte verschlüsselt, weil Synonym untergeht (z.B, wird das Konzept des Autos als {Auto, Auto, Automobil, Maschine, Auto} verschlüsselt). Andere zu Begriffserklärungszwecken verwendete Mittel schließen den Thesaurus von Roget ein und.

Markierende Wortart

In jedem echten Test ist Wortart markierend und markierender Sinn sehr nah mit jedem potenziell das Bilden von Einschränkungen zum anderen verbunden. Und die Frage, ob diese Aufgaben zusammen oder decoupled behalten werden sollten, wird noch immer nicht einmütig aufgelöst, aber kürzlich Wissenschaftler-Neigung, um diese Dinge getrennt (z.B in den Senseval/SemEval Konkurrenz-Wortarten zu prüfen, werden wie eingegeben, für den Text zur Verfügung gestellt, um zu disambiguieren).

Es ist aufschlussreich, um das Wortsinnbegriffserklärungsproblem mit dem Problem der markierenden Wortart zu vergleichen. Beide schließen das Disambiguieren oder Markieren mit Wörtern ein, es mit Sinnen oder Wortarten sein. Jedoch haben Algorithmen dafür verwendet man neigt nicht dazu, gut für den anderen hauptsächlich zu arbeiten, weil die Wortart eines Wortes in erster Linie durch die sofort angrenzenden ein bis drei Wörter bestimmt wird, wohingegen der Sinn eines Wortes durch Wörter weiter weg bestimmt werden kann. Die Erfolg-Quote für Wortart-Markieren-Algorithmen ist zurzeit viel höher als das für WSD, Stand der Technik, der ungefähr 95 % Genauigkeit oder besser verglichen mit weniger als 75 % Genauigkeit in der Wortsinnbegriffserklärung mit dem beaufsichtigten Lernen ist. Diese Zahlen sind für Englisch typisch, und können von denjenigen für andere Sprachen sehr verschieden sein.

Zwischenrichter-Abweichung

Ein anderes Problem ist Zwischenrichter-Abweichung. WSD Systeme werden normalerweise geprüft, indem sie ihre Ergebnisse auf einer gegen diejenigen eines Menschen verglichenen Aufgabe gehabt wird. Jedoch, während es relativ leicht ist, Wortarten dem Text zuzuteilen, Lehrleute, um Sinne zu markieren, ist viel schwieriger. Während sich Benutzer alle möglichen Wortarten einprägen können, kann ein Wort nehmen, es ist häufig für Personen unmöglich, sich alle Sinne einzuprägen, die ein Wort nehmen kann. Außerdem einigen sich Menschen über die Aufgabe in der Nähe nicht - geben eine Liste von Sinnen und Sätzen, und Menschen werden sich nicht immer einigen, welches Wort in der Sinn gehört.

So, wie man erwarten kann, gibt ein Computer bessere Leistung auf solch einer Aufgabe nicht als ein Mensch (tatsächlich, seit den menschlichen Aufschlägen als der Standard, der Computer, der besser ist, als der Mensch zusammenhanglos ist), so dient die menschliche Leistung als ein gebundener oberer. Menschliche Leistung ist jedoch auf dem grobkörnigen viel besser als feinkörnige Unterscheidungen, so ist das wieder, warum die Forschung über grobkörnige Unterscheidungen gestellt worden ist, um in neuen WSD Einschätzungsübungen zu prüfen.

Gesunder Menschenverstand

Einige AI Forscher wie Douglas Lenat behaupten, dass man Bedeutungen von Wörtern ohne eine Form der Ontologie des gesunden Menschenverstands nicht grammatisch analysieren kann.

Zum Beispiel, das Vergleichen dieser zwei Sätze:

  • "Jill und Mary sind Schwestern." - (sind sie Schwestern von einander).
  • "Jill und Mary sind Mütter." - (ist jeder unabhängig eine Mutter).

Um Sinne von Wörtern richtig zu identifizieren, muss man Tatsachen des gesunden Menschenverstands wissen. Außerdem manchmal ist der gesunde Menschenverstand erforderlich, um solche Wörter wie Pronomina zu disambiguieren, im Falle, anaphoras oder cataphoras im Text zu haben.

Sinnwarenbestand und die Aufgabe-Abhängigkeit von Algorithmen

Ein mit der Aufgabe unabhängiger Sinnwarenbestand ist nicht ein zusammenhängendes Konzept: Jede Aufgabe verlangt seine eigene Abteilung der Wortbedeutung in für die Aufgabe wichtige Sinne. Zum Beispiel ist die Zweideutigkeit 'der Maus' (Tier oder Gerät) in der englisch-französischen maschinellen Übersetzung nicht wichtig, aber ist in der Informationsgewinnung wichtig. Das Gegenteil trifft auf 'Fluss' zu, der eine Wahl in Französisch verlangt ('Flüsse ins Meer', oder 'in einen Fluss' fließt).

Außerdem könnten völlig verschiedene Algorithmen durch verschiedene Anwendungen erforderlich sein. In der maschinellen Übersetzung nimmt das Problem die Form der Zielwortauswahl an. Hier sind die "Sinne" Wörter auf der Zielsprache, die häufig bedeutenden Bedeutungsunterscheidungen auf der Quellsprache entsprechen (Bank konnte zu französischem banque 'Finanzbank' übersetzen oder 'Rand des Flusses' zerspalten). In der Informationsgewinnung ist ein Sinnwarenbestand nicht notwendigerweise erforderlich, weil es genug ist zu wissen, dass ein Wort in demselben Sinn in der Abfrage und einem wiederbekommenen Dokument verwendet wird; welcher Sinn d. h. unwichtig ist.

Getrenntkeit von Sinnen

Schließlich ist der wirkliche Begriff des "Wortsinns" schlüpfrig und umstritten. Die meisten Menschen können in Unterscheidungen am grobkörnigen Homograph-Niveau (z.B, Kugelschreiber als das Schreiben des Instrumentes oder der Einschließung) zustimmen, aber ein Niveau zur feinkörnigen Polysemie herunterkommen, und Unstimmigkeiten entstehen. Zum Beispiel, in Senseval-2, der feinkörnige Sinnunterscheidungen verwendet hat, haben menschliche Kommentatoren in nur 85 % von Wortereignissen zugestimmt. Wort, das bedeutet, ist im Prinzip ungeheuer variabel und empfindlicher Zusammenhang. Es zerteilt leicht in verschiedene oder getrennte Subbedeutungen nicht. Wörterbuchverfasser entdecken oft in der Korpora lose und überlappende Wortbedeutungen und normale oder herkömmliche Bedeutungen erweitert, abgestimmt und ausgenutzt in einer verwirrenden Vielfalt von Wegen. Die Kunst der Lexikographie soll vom Korpus bis Definitionen verallgemeinern, die herbeirufen und die volle Reihe der Bedeutung eines Wortes erklären, es lassend, scheinen, dass Wörter semantisch wohl erzogen sind. Jedoch ist es überhaupt nicht klar, wenn diese dieselben Bedeutungsunterscheidungen in rechenbetonten Anwendungen anwendbar sind, wie die Entscheidungen von Wörterbuchverfassern gewöhnlich durch andere Rücksichten gesteuert werden. Kürzlich hat eine Aufgabe - lexikalischen Ersatz genannt - ist als eine mögliche Lösung des Sinngetrenntkeitsproblems vorgeschlagen worden. Die Aufgabe besteht daraus, einen Ersatz für ein Wort im Zusammenhang zur Verfügung zu stellen, der die Bedeutung des ursprünglichen Wortes bewahrt (potenziell, kann Ersatz aus dem vollen Lexikon der Zielsprache gewählt werden, so Getrenntkeit überwindend).

Annäherungen und Methoden

Als in der ganzen Verarbeitung der natürlichen Sprache gibt es zwei Hauptannäherungen an WSD - tief nähert sich und seichte Annäherungen.

Tiefe Annäherungen wagen Zugang zu einem umfassenden Körper von Weltkenntnissen. Kenntnisse wie "können Sie gehen, auf einem Typ des Fisches angelnd, aber nicht für niedrige Frequenztöne" und "haben Lieder niedrige Frequenztöne, weil Teile, aber nicht Typen des Fisches", dann verwendet werden, um zu bestimmen, in dem fühlen, dass das Wort verwendet wird. Diese Annäherungen sind in der Praxis hauptsächlich nicht sehr erfolgreich, weil solch ein Körper von Kenntnissen in einem computerlesbaren Format außerhalb sehr beschränkter Gebiete nicht besteht. Jedoch, wenn solche Kenntnisse wirklich beständen, dann würden tiefe Annäherungen viel genauer sein als die seichten Annäherungen. Außerdem gibt es eine lange Tradition in der linguistischen Datenverarbeitung, solche Annäherungen in Bezug auf codierte Kenntnisse und in einigen Fällen zu versuchen, es ist hart, klar zu sagen, ob die beteiligten Kenntnisse Sprach- oder Weltkenntnisse sind. Der erste Versuch bestand dass durch Margaret Masterman und ihre Kollegen an der Sprachforschungseinheit von Cambridge in England in den 1950er Jahren darin. Dieser Versuch hat als Daten eine Version der geschlagenen Karte des Thesaurus von Roget und seiner numerierten "Köpfe" als ein Hinweis von Themen verwendet und hat nach Wiederholungen im Text mit einem Satz-Kreuzungsalgorithmus gesucht. Es war nicht sehr erfolgreich, aber hatte starke Beziehungen zur späteren Arbeit, besonders der Maschinenlernoptimierung von Yarowsky einer Thesaurus-Methode in den 1990er Jahren.

Seichte Annäherungen versuchen nicht, den Text zu verstehen. Sie denken gerade die Umgebungswörter, mit der Information solcher als, "wenn Bass Wortmeer oder Fischerei in der Nähe hat, ist es wahrscheinlich im Fischsinn; wenn Bass die Wortmusik oder das Lied in der Nähe hat, ist es wahrscheinlich im Musik-Sinn." Diese Regeln können durch den Computer mit einem Lehrkorpus von mit ihren Wortsinnen markierten Wörtern automatisch abgeleitet werden. Diese Annäherung, während theoretisch nicht so stark wie tiefe Annäherungen, gibt höhere Ergebnisse in der Praxis wegen der beschränkten Weltkenntnisse des Computers. Jedoch kann es durch Sätze wie Das Hund-Rinde am Baum verwirrt sein, der das Wortrinde sowohl in der Nähe vom Baum als auch in der Nähe von den Hunden enthält.

Es gibt vier herkömmliche Annäherungen an WSD:

  • Wörterbuch - und wissensbasierte Methoden: Diese verlassen sich in erster Linie auf Wörterbücher, Thesauren und lexikalische Kenntnisse-Basen, ohne irgendwelche Korpus-Beweise zu verwenden.
  • Beaufsichtigte Methoden: Diese machen von der sinnkommentierten Korpora Gebrauch, um sich davon auszubilden.
  • Halbbeaufsichtigte oder minimal beaufsichtigte Methoden: Diese machen von einer sekundären Quelle von Kenntnissen wie ein kleines kommentiertes Korpus als Samen-Daten in einem Urladeverfahren-Prozess oder ein wortausgerichtetes zweisprachiges Korpus Gebrauch.
  • Unbeaufsichtigte Methoden: Diese enthalten sich (fast) völlig äußerlicher Information und arbeiten direkt von Rohstoff unkommentierte Korpora. Diese Methoden sind auch unter dem Namen des Wortsinnurteilsvermögens bekannt.

Fast alle diese Annäherungen arbeiten normalerweise durch das Definieren eines Fensters von n zufriedenen Wörtern um jedes Wort, das im Korpus, und statistisch das Analysieren jener n Umgebungswörter zu disambiguieren ist. Zwei seichte Annäherungen haben gepflegt, zu erziehen und dann zu disambiguieren, sind Naiver Bayes classifiers und Entscheidungsbäume. In der neuen Forschung haben kernbasierte Methoden wie Unterstützungsvektor-Maschinen höhere Leistung im beaufsichtigten Lernen gezeigt. Graph-basierte Annäherungen haben auch viel Aufmerksamkeit von der Forschungsgemeinschaft gewonnen, und erreichen zurzeit Leistung in der Nähe vom Stand der Technik.

Wörterbuch - und wissensbasierte Methoden

Der Lesk Algorithmus ist die Wörterbuch-basierte Samenmethode. Es basiert auf der Hypothese, dass Wörter verwendet zusammen im Text mit einander verbunden sind, und dass die Beziehung in den Definitionen der Wörter und ihrer Sinne beobachtet werden kann. Zwei (oder mehr) werden Wörter durch die Entdeckung des Paares von Wörterbuch-Sinnen mit dem größten Wortübergreifen in ihren Wörterbuch-Definitionen disambiguiert. Zum Beispiel, wenn Sie die Wörter im "Kiefernzapfen", den Definitionen der passenden Sinne sowohl disambiguieren, schließen Sie die Wörter immergrün als auch Baum (mindestens in einem Wörterbuch) ein.

Eine Alternative zum Gebrauch der Definitionen soll allgemeine Wortsinn-Zusammenhängendkeit denken und die semantische Ähnlichkeit jedes Paares von Wortsinnen zu schätzen, die auf einer gegebenen lexikalischen Kenntnisse-Basis wie WordNet gestützt sind. Graph-basierte Methoden, die an die sich ausbreitende Aktivierungsforschung der frühen Tage der AI Forschung erinnernd sind, sind mit etwas Erfolg angewandt worden. Wie man gezeigt hat, haben kompliziertere Graph-basierte Annäherungen fast sowie beaufsichtigte Methoden oder sogar das Übertreffen von ihnen auf spezifischen Gebieten geleistet. Kürzlich ist es berichtet worden, dass einfache Graph-Konnektivität wie Grad misst, führen Sie den modernsten WSD in Gegenwart von einer genug reichen lexikalischen Kenntnisse-Basis durch. Außerdem automatisch, wie man gezeigt hat, haben überwechselnde Kenntnisse in der Form von semantischen Beziehungen von der Wikipedia bis WordNet einfache wissensbasierte Methoden erhöht, ihnen ermöglichend, mit den besten beaufsichtigten Systemen zu konkurrieren und sogar sie in einer bereichsspezifischen Einstellung zu überbieten.

Der Gebrauch von selectional Einstellungen (oder selectional Beschränkungen) ist auch zum Beispiel nützlich wissend, dass man normalerweise Essen kocht, kann man den Wortbass darin disambiguieren "Mir koche Bässe" (d. h. es ist nicht ein Musikinstrument).

Beaufsichtigte Methoden

Beaufsichtigte Methoden basieren in der Annahme, dass der Zusammenhang genug Beweise selbstständig zur Verfügung stellen kann, um Wörter zu disambiguieren (folglich, werden Weltkenntnisse und das Denken unnötig gehalten). Wahrscheinlich ist jede Maschine, die das Algorithmus-Gehen erfährt, auf WSD, einschließlich verbundener Techniken wie Eigenschaft-Auswahl, Parameter-Optimierung und das Ensemble-Lernen angewandt worden. Wie man gezeigt hat, sind Unterstützungsvektor-Maschinen und das speicherbasierte Lernen die erfolgreichsten Annäherungen bis heute wahrscheinlich gewesen, weil sie mit dem hohen-dimensionality vom Eigenschaft-Raum fertig werden können. Jedoch sind diese beaufsichtigten Methoden einem neuen Kenntnisse-Erwerb-Engpass unterworfen, da sie sich auf wesentliche Beträge der manuell sinnmarkierten Korpora für die Ausbildung verlassen, die mühsam und teuer sind, um zu schaffen.

Halbbeaufsichtigte Methoden

Wegen des Mangels an Lehrdaten hat vieler Wortsinnbegriffserklärungsalgorithmus-Gebrauch das Lernen halbbeaufsichtigt, das sowohl etikettierte als auch unetikettierte Daten erlaubt. Der Yarowsky Algorithmus war ein frühes Beispiel solch eines Algorithmus. Es verwendet 'Einen Sinn pro Kollokation' und 'Einen Sinn pro Gespräch' Eigenschaften von menschlichen Sprachen für die Wortsinnbegriffserklärung. Von der Beobachtung neigen Wörter dazu, nur einen Sinn im am meisten gegebenen Gespräch und in einer gegebenen Kollokation auszustellen.

Die Urladeverfahren-Annäherung fängt von einem kleinen Betrag von Samen-Daten für jedes Wort an: Entweder manuell markierte Lehrbeispiele oder eine kleine Anzahl von todsicheren Entscheidungsregeln (z.B, 'das Spiel' im Zusammenhang 'des Basses' zeigt fast immer das Musikinstrument an). Die Samen werden verwendet, um eine Initiale classifier mit jeder beaufsichtigten Methode zu erziehen. Dieser classifier wird dann auf dem unmarkierten Teil des Korpus verwendet, um einen größeren Lehrsatz herauszuziehen, in den nur die überzeugtesten Klassifikationen eingeschlossen werden. Die Prozess-Wiederholungen, jeder neue classifier, der auf einem nacheinander größeren Lehrkorpus bis zum ganzen Korpus wird erzieht, werden verbraucht, oder bis eine gegebene maximale Zahl von Wiederholungen erreicht wird.

Andere halbbeaufsichtigte Techniken verwenden große Mengen der unmarkierten Korpora, um Co-Ereignis-Auskunft zu geben, die die markierte Korpora ergänzt. Diese Techniken haben das Potenzial, um in der Anpassung von beaufsichtigten Modellen zu verschiedenen Gebieten zu helfen.

Außerdem wird ein zweideutiges Wort auf einer Sprache häufig in verschiedene Wörter auf einer zweiten Sprache abhängig von der Bedeutung des Wortes übersetzt. Wortausgerichtete zweisprachige Korpora ist verwendet worden, um quer-sprachliche Sinnunterscheidungen, eine Art halbbeaufsichtigtes System abzuleiten.

Unbeaufsichtigte Methoden

Das unbeaufsichtigte Lernen ist die größte Herausforderung für WSD Forscher. Die zu Grunde liegende Annahme ist, dass ähnliche Sinne in ähnlichen Zusammenhängen vorkommen, und so Sinne aus dem Text durch das Sammeln von Wortereignissen mit einem Maß der Ähnlichkeit des Zusammenhangs, eine Aufgabe gekennzeichnet als Wortsinninduktion oder Urteilsvermögen veranlasst werden können. Dann können neue Ereignisse des Wortes in die nächsten veranlassten Trauben/Sinne eingeteilt werden. Leistung ist niedriger gewesen als andere Methoden oben, aber Vergleiche sind schwierig, da veranlasste Sinne zu einem bekannten Wörterbuch von Wortsinnen kartografisch dargestellt werden müssen. Wenn zu einer Reihe von Wörterbuch-Sinnen kartografisch darzustellen, nicht gewünscht wird, können Traube-basierte Einschätzungen (einschließlich Maßnahmen des Wärmegewichtes und der Reinheit) durchgeführt werden. Wechselweise können Wortsinninduktionsmethoden geprüft und innerhalb einer Anwendung verglichen werden. Zum Beispiel ist es gezeigt worden, dass Wortsinninduktion Websuchergebnis verbessert, das sich durch die Erhöhung der Qualität von Ergebnis-Trauben und der Grad-Diversifikation von Ergebnis-Listen sammelt. Es wird gehofft, dass das unbeaufsichtigte Lernen den Kenntnisse-Erwerb-Engpass überwinden wird, weil sie von der manuellen Anstrengung nicht abhängig sind.

Andere Annäherungen

Andere Annäherungen können sich verschieden in ihren Methoden ändern:

  • Identifizierung von dominierenden Wortsinnen;
  • Bereichsgesteuerte Begriffserklärung;
  • WSD das Verwenden Quer-sprachlicher Beweise.

Lokale Hindernisse und Zusammenfassung

Der Kenntnisse-Erwerb-Engpass ist vielleicht das Haupthindernis zum Beheben des WSD Problems. Unbeaufsichtigte Methoden verlassen sich auf Kenntnisse über Wortsinne, die in Wörterbüchern und lexikalischen Datenbanken kaum formuliert werden. Beaufsichtigte Methoden hängen entscheidend von der Existenz manuell kommentierter Beispiele für jeden Wortsinn, ein Erfordernis ab, das bis jetzt nur für eine Hand voll Wörter entsprochen werden kann, um Zwecke zu prüfen, weil es in den Übungen von Senseval getan wird.

Deshalb verwendet eine der viel versprechendsten Tendenzen in der WSD Forschung das größte Korpus jemals zugänglich, das World Wide Web, um lexikalische Information automatisch zu erwerben. WSD ist als eine Zwischensprachtechniktechnologie traditionell verstanden worden, die Anwendungen wie Informationsgewinnung (IR) verbessern konnte. In diesem Fall, jedoch, Auch das Gegenteil trifft zu: Websuchmotoren führen einfache und robuste IR Techniken durch, die erfolgreich verwendet werden können, wenn man das Web für die in WSD zu verwendende Information abbaut. Deshalb, der Mangel an Lehrdaten provoziert, einige neue Algorithmen und Techniken beschrieben hier erscheinend:

Außenkenntnisse-Quellen

Kenntnisse sind ein grundsätzlicher Bestandteil von WSD. Kenntnisse-Quellen stellen Daten zur Verfügung, die notwendig sind, um Sinne mit Wörtern zu vereinigen. Sie können sich von der Korpora von Texten ändern, die entweder unetikettiert oder mit Wortsinnen, zu maschinenlesbaren Wörterbüchern, Thesauren, Wörterverzeichnissen, Ontologie usw. kommentiert sind. Sie können wie folgt klassifiziert werden:

  1. Strukturiert:
  2. *Thesauri
  3. *Machine-readable Wörterbücher (MRDs)
  4. *Ontologies
  5. Unstrukturiert:
  6. *Corpora: rohe Korpora und sinnkommentierte Korpora
  7. *Collocation-Mittel
  8. *Other-Mittel (wie Wortfrequenz, hat stoplists, Bereichsetiketten, usw. Schlagseite)

Einschätzung

Das Vergleichen und Auswerten verschiedener WSD Systeme sind äußerst difcult, wegen der verschiedenen Testsätze, Sinnwarenbestände und angenommenen Kenntnisse-Mittel. Vor der Organisation von specic Einschätzungskampagnen wurden die meisten Systeme auf dem innerbetrieblichen, häufig klein, Dateien bewertet. Um jemandes Algorithmus zu prüfen, sollten Entwickler ihre Zeit verbringen, um alle Wortereignisse zu kommentieren. Und das Vergleichen von Methoden sogar auf demselben Korpus ist nicht berechtigt, wenn es verschiedene Sinnwarenbestände gibt.

Um allgemeine Einschätzung datasets und Verfahren zu definieren, sind öffentliche Einschätzungskampagnen organisiert worden. Senseval (hat jetzt SemEval umbenannt), ist eine internationale Wortsinnbegriffserklärungskonkurrenz, gehalten alle drei Jahre seit 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), und sein Nachfolger, SemEval (2007). Das Ziel der Konkurrenz ist, verschiedene Vorträge zu organisieren, sich vorbereitend, und handkommentierendes Korpus darauf, Systeme zu prüfen, eine vergleichende Einschätzung von WSD Systemen in mehreren Arten von Aufgaben, einschließlich Vollwörter und lexikalischen Beispiel-WSD für verschiedene Sprachen, und, mehr kürzlich, neuer Aufgaben wie das semantische Rolle-Beschriften, Glanz WSD, lexikalischer Ersatz usw. durchzuführen. Die Systeme, die für die Einschätzung diesen Konkurrenzen gewöhnlich vorgelegt sind, integrieren verschiedene Techniken und verbinden häufig beaufsichtigte und wissensbasierte Methoden (besonders, um schlechte Leistung im Mangel an Lehrbeispielen zu vermeiden).

Aufgabe-Designwahlen

Sinnwarenbestände. Während der ersten Werkstatt von Senseval wurde der Sinnwarenbestand von HECTOR angenommen. Der Grund dafür, einen vorher unbekannten Sinnwarenbestand anzunehmen, sollte den Gebrauch von populären feinkörnigen Wortsinnen hauptsächlich vermeiden (wie WordNet), der die Experimente unfair oder voreingenommen machen konnte. Jedoch, in Anbetracht des Mangels am Einschluss solcher Warenbestände, seit der zweiten Werkstatt von Senseval ist der Sinnwarenbestand von WordNet angenommen worden.

Eine Reihe von Probewörtern. Der Vergleich von Methoden kann in 2 Gruppen durch den Betrag von Wörtern geteilt werden, um zu prüfen. Der Unterschied besteht im Betrag der Analyse und Verarbeitung:

  • Vollwortaufgabe bedeutet, alle Wörter des Textes zu disambiguieren
  • lexikalische Probe besteht im Disambiguieren einiger vorher gewählter Zielwörter.

Es wird angenommen, dass der erstere man realistischere Einschätzung, obwohl mit der sehr mühsamen Prüfung von Ergebnissen ist. Am Anfang wurde nur der Letztere in der Einschätzung verwendet, aber später wurde der erstere eingeschlossen.

Lexikalische Beispielveranstalter mussten Proben wählen, auf denen die Systeme geprüft werden sollten. Eine Kritik von früheren Raubzügen in die WSD Lexikalisch-Beispieleinschätzung besteht darin, dass die lexikalische Probe gemäß der Laune des Experimentators gewählt worden war (oder, um mit den Auswahlen der früheren Experimentatoren zusammenzufallen). Für englischen Senseval wurde ein ausfallender Rahmen ausgedacht, in dem Wörter gemäß ihrer Frequenz (im BNC) und ihr Polysemie-Niveau (in WordNet) klassifiziert wurden. Außerdem war Einschließungs-POS-Markieren-Problem eine Sache der Diskussion, und es wurde entschieden, dass Proben Wörter mit der bekannten Wortart und einem indeterminants sein sollten (für ab. 15 Substantiv-Aufgaben, 13 Verbaufgaben, 8 Adjektive und 5 indeterminates).

Grundlinien. Zum Vergleich Zwecke, bekannt, noch einfach, werden genannte Grundlinien von Algorithmen verwendet. Diese schließen verschiedene Varianten des Algorithmus von Lesk oder häufigsten Sinnalgorithmus ein.

Sinnwarenbestand. WSD Übungen verlangen ein Wörterbuch, um die Wortsinne anzugeben, die, und ein Korpus von zu disambiguierenden Sprachdaten disambiguiert werden sollen. WordNet ist das populärste Beispiel des Sinnwarenbestands. Der Grund dafür, die Datenbank von HECTOR während Senseval-1 anzunehmen, bestand darin, dass der Warenbestand von WordNet bereits öffentlich verfügbar war.

Einschätzungsmaßnahmen. Während der Einschätzung von WSD Systemen werden zwei Hauptleistungsmaßnahmen verwendet:

  • Präzision: Der Bruchteil von Systemanweisungen hat gemacht, die richtiger sind
  • Rückruf: Der Bruchteil von Gesamtwortbeispielen, die richtig durch ein System zugeteilt sind

Wenn ein System eine Anweisung für jedes Wort macht, dann sind Präzision und Rückruf dasselbe, und können Genauigkeit genannt werden. Dieses Modell ist erweitert worden, um Systeme in Betracht zu ziehen, die eine Reihe von Sinnen mit Gewichten für jedes Ereignis zurückgeben.

Software

  • WordNet:: SenseRelate, ist ein Projekt, das freie, offene Quellsysteme für die Wortsinnbegriffserklärung und lexikalische Beispielsinnbegriffserklärung einschließt.
  • UKB: Graph-Basis WSD, ist eine Sammlung von Programmen, um Graph-basierte Wortsinnbegriffserklärung und lexikalische Ähnlichkeit/Zusammenhängendkeit mit vorher existierender Lexical Knowledge Base (LKB) durchzuführen.

Siehe auch

  • Zweideutigkeit
  • Algorithmus von Lesk
  • Lexikalischer Ersatz
  • Wortart, die markiert
  • Polysemie
  • Semeval
  • Syntaktische Zweideutigkeit
  • Wortsinn
  • Wortsinninduktion

Referenzen

Arbeiten zitiert

Außenverbindungen und das angedeutete Lesen

http://www.cs.jhu.edu/~yarowsky/pubs/nle00.ps
  • Yarowsky, David. 2001. Wortsinnbegriffserklärung. Handbuch der Verarbeitung der natürlichen Sprache, Hrsg. durch Dale u. a. 629-654. New York: Marcel Dekker.

Rosenwasser / Satellitenradio
Impressum & Datenschutz