Wortnetz

WordNet ist eine lexikalische Datenbank für die englische Sprache. Es gruppiert sich englische Wörter in Sätze von Synonymen haben synsets genannt, stellen kurze, allgemeine Definitionen zur Verfügung, und registrieren die verschiedenen semantischen Beziehungen zwischen diesen Synonym-Sätzen. Der Zweck ist zweifach: Eine Kombination des Wörterbuches und Thesaurus zu erzeugen, der intuitiver verwendbar ist, und automatische Textanalyse und Anwendungen der künstlichen Intelligenz zu unterstützen. Die Datenbank und Softwarewerkzeuge sind laut einer BSD Stil-Lizenz veröffentlicht worden und können heruntergeladen und frei verwendet werden. Die Datenbank kann auch online durchsucht werden.

WordNet wurde geschaffen und wird am Erkenntnistheorie-Laboratorium der Universität von Princeton unter der Richtung von Psychologie-Professor George A. Miller unterstützt. Entwicklung hat 1985 begonnen. Im Laufe der Jahre hat das Projekt Finanzierung von für die maschinelle Übersetzung interessierten Regierungsstellen erhalten. Bezüglich 2009 schließt die Mannschaft von WordNet die folgenden Mitglieder des Erkenntnistheorie-Laboratoriums ein: George Armitage Miller, Christiane Fellbaum, Randee Tengi, Pamela Wakefield, Helen Langone und Benjamin R. Haskell. WordNet ist durch Bewilligungen vom Nationalen Wissenschaftsfundament, DARPA, dem Störenden Technologiebüro (früher die Fortgeschrittene Forschungs- und Entwicklungstätigkeit), und REFLEX unterstützt worden. George Miller und Christiane Fellbaum wurden dem 2006-Preis von Antonio Zampolli für ihre Arbeit mit WordNet zuerkannt.

Datenbankinhalt

Die letzte Version von WordNet ist 3.1., die Datenbank enthält 155,287 Wörter, die in 117,659 synsets für insgesamt 206,941 Wortsinn-Paare organisiert sind; in der komprimierten Form sind es ungefähr 12 Megabytes in der Größe.

WordNet unterscheidet zwischen Substantiven, Verben, Adjektiven und Adverbien, weil sie verschiedenen grammatischen Regeln folgen — er schließt Verhältniswörter, Bestimmungswörter usw. nicht ein. Jeder synset enthält eine Gruppe von synonymischen Wörtern, oder Kollokationen (ist eine Kollokation eine Folge von Wörtern, die zusammen gehen, um eine spezifische Bedeutung, wie "Fahrgemeinschaft" zu bilden); verschiedene Sinne eines Wortes sind in verschiedenem synsets. Die Bedeutung des synsets wird weiter mit dem kurzen Definieren-Glanz (Definitionen und/oder Beispiel-Sätze) geklärt. Ein typisches Beispiel synset mit dem Glanz ist:

: gut, richtig, reif - (am passendsten oder direkt zu einem besonderen Zweck; "eine gute Zeit, um Tomaten zu pflanzen"; "die rechte Zeit zu handeln"; "die Zeit ist reif für große soziologische Änderungen")

Die meisten Synonym-Sätze werden mit anderem synsets über mehrere semantische Beziehungen verbunden. Diese Beziehungen ändern sich gestützt auf dem Typ des Wortes und schließen ein:

  • Substantive
  • hypernyms: Y ist ein hypernym X, wenn jeder X (Art) Y ist (Eckzahn ist ein hypernym des Hunds)
  • hyponyms: Y ist ein hyponym X, wenn jeder Y (Art) X ist (Hund ist ein hyponym des Eckzahns)
  • Koordinatenbegriffe: Y ist ein Koordinatenbegriff X, wenn X und Y einen hypernym teilen (Wolf ist ein Koordinatenbegriff des Hunds, und Hund ist ein Koordinatenbegriff des Wolfs)
  • holonym: Y ist ein holonym X, wenn X ein Teil von Y ist (Gebäude ist ein holonym des Fensters)
  • meronym: Y ist ein meronym X, wenn Y ein Teil X ist (Fenster ist ein meronym des Gebäudes)
  • Verben
  • hypernym: Das Verb Y ist ein hypernym des Verbs X, wenn die Tätigkeit X ist (Art) Y (wahrzunehmen ist ein hypernym zu hören)
  • troponym: Das Verb Y ist ein troponym des Verbs X, wenn die Tätigkeit Y X auf etwas Weise tut (um zu lispeln, ist ein troponym zu sprechen)
  • entailment: Das Verb Y wird durch X zur Folge gehabt, wenn, indem Sie X tun, Sie Y tun müssen (um zu schlafen, wird zur Folge gehabt durch zu schnarchen)
  • Koordinatenbegriffe: Jene Verben, die einen allgemeinen hypernym teilen (um zu lispeln und zu brüllen)
,

Während semantische Beziehungen für alle Mitglieder eines synset gelten, weil sie eine Bedeutung teilen, aber alle gegenseitig Synonyme sind, können Wörter auch mit anderen Wörtern durch lexikalische Beziehungen einschließlich Antonyme verbunden werden (Gegenteile von einander), die Ableitung-ebenso verbunden sind.

WordNet stellt auch der Polysemie-Zählung eines Wortes zur Verfügung: Die Zahl von synsets, die das Wort enthalten. Wenn ein Wort an mehreren synsets teilnimmt (d. h. mehrere Sinne hat) dann normalerweise, sind einige Sinne viel üblicher als andere. WordNet misst das durch die Frequenzkerbe: In dem mehrere Beispieltexte alle Wörter haben, die semantisch mit dem entsprechenden synset markiert sind, und dann eine Zählung das Anzeigen zur Verfügung gestellt hat, wie oft ein Wort in einem spezifischen Sinn erscheint.

Die Morphologie-Funktionen der mit der Datenbank verteilten Software versuchen, das Lemma oder die Wurzelform eines Wortes vom Eingang des Benutzers abzuleiten; nur die Wurzelform wird in der Datenbank versorgt, wenn es unregelmäßige flektierte Formen nicht hat.

Kenntnisse-Struktur

Sowohl Substantive als auch Verben werden in Hierarchien organisiert, die durch hypernym definiert sind, oder IST Beziehungen. Zum Beispiel würde der erste Hund der Bedeutung des Wortes die folgende hypernym Hierarchie haben; die Wörter an demselben Niveau sind Synonyme von einander: Ein Sinn des Hunds ist mit einigen anderen Sinnen des Innenhunds und Canis lupus familiaris und so weiter synonymisch. Jeder Satz von Synonymen (synset), hat einen einzigartigen Index und teilt seine Eigenschaften, wie ein Glanz (oder Wörterbuch) Definition.

Hund, Innenhund, Canis familiaris

=> Eckzahn, canid

=> Fleischfresser

=> placental, placental Säugetier, eutherian, eutherian Säugetier

=> Säugetier

=> Wirbeltier, craniate

=> chordate

=> Tier, belebtes Wesen, Biest, Tier, Wesen, Fauna

=>...

Am Spitzenniveau werden diese Hierarchien in Grundtypen, 25 primitive Gruppen für Substantive, und 15 für Verben organisiert. Diese Gruppen bilden lexikografische Dateien an einem Wartungsniveau. Diese primitiven Gruppen werden mit einem abstrakten Wurzelknoten verbunden, der für einige Zeit durch verschiedene Anwendungen dieser Gebrauch WordNet angenommen worden ist.

Im Fall von Adjektiven ist die Organisation verschieden. Zwei entgegengesetzte 'Haupt'-Sinne arbeiten als binäre Pole, während 'Satelliten'-Synonyme zu jedem der Köpfe über Synonymie-Beziehungen in Verbindung stehen. So wenden die Hierarchien und das mit lexikografischen Dateien beteiligte Konzept, hier dieselbe Weise nicht an, wie sie für Substantive und Verben tun.

Das Netz von Substantiven ist viel tiefer als diese der anderen Wortarten. Verben haben eine viel buschigere Struktur, und Adjektive werden in viele verschiedene Trauben organisiert. Adverbien werden in Bezug auf die Adjektive definiert, aus denen sie abgeleitet werden, und so ihre Struktur von diesem der Adjektive erben.

Psychologische Rechtfertigung

Die Absicht von WordNet war, ein System zu entwickeln, das mit den Kenntnissen erworben im Laufe der Jahre darüber im Einklang stehend sein würde, wie Menschen Sprache bearbeiten. Aphasie von Anomic schafft zum Beispiel eine Bedingung, die scheint, die Fähigkeit von Personen auswählend zu belasten, Gegenstände zu nennen; das trifft die Entscheidung, die Wortarten in verschiedene Hierarchien mehr von einer Entscheidung mit hohen Grundsätzen zu verteilen, als eine willkürliche.

Im Fall von hyponymy haben psychologische Experimente offenbart, dass Personen auf Eigenschaften von Substantiven schneller je nachdem zugreifen können, wenn eine Eigenschaft ein Definieren-Eigentum wird. D. h. Personen können schnell nachprüfen, dass Kanarische Inseln singen können, weil ein Kanarienvogel ein Singvogel (nur ein Niveau von hyponymy) ist, aber verlangen Sie, dass ein bisschen mehr Zeit nachprüft, dass Kanarische Inseln (zwei Niveaus von hyponymy) und noch mehr Zeit fliegen können, um nachzuprüfen, dass Kanarische Inseln Haut (vielfache Niveaus von hyponymy) haben. Das weist darauf hin, dass wir auch semantische Information in einem Weg versorgen, der viel WordNet ähnlich ist, weil wir nur die spezifischste Information behalten, musste ein besonderes Konzept von ähnlichen Konzepten unterscheiden.

WordNet als eine Ontologie

Die hypernym/hyponym Beziehungen unter dem Substantiv synsets können als Spezialisierungsbeziehungen zwischen Begriffskategorien interpretiert werden. Mit anderen Worten kann WordNet interpretiert und als eine lexikalische Ontologie im Informatik-Sinn verwendet werden. Jedoch sollte solch eine Ontologie normalerweise korrigiert werden, bevor sie verwendet wird, da sie Hunderte von grundlegenden semantischen Widersprüchlichkeiten wie (i) die Existenz von allgemeinen Spezialisierungen für exklusive Kategorien und (ii) Redundanzen in der Spezialisierungshierarchie enthält. Außerdem sollte das Umwandeln von WordNet in eine lexikalische für die Kenntnisse-Darstellung verwendbare Ontologie normalerweise auch (i) verbunden sein, der die Spezialisierungsbeziehungen in subtypeOf und instanceOf Beziehungen, und (ii) verkehrende intuitive einzigartige Bezeichner zu jeder Kategorie unterscheidet. Obwohl solche Korrekturen und Transformationen durchgeführt und als ein Teil der Integration von WordNet 1.7 in kooperativ updatable Kenntnisse-Basis von WebKB-2 dokumentiert worden sind, verwenden die meisten Projekte, die behaupten, WordNet für wissensbasierte Anwendungen (normalerweise, Kenntnisse-orientierte Informationsgewinnung) einfach wiederzuverwenden, es direkt wieder.

WordNet ist auch zu einer formellen Spezifizierung, mittels einer Hybride von unten nach oben verfeinernde Methodik umgewandelt worden, um Vereinigungsbeziehungen aus WordNet automatisch herauszuziehen, und diese Vereinigungen in Bezug auf eine Reihe von Begriffsbeziehungen zu interpretieren, die formell im DOLCE foundational Ontologie definiert ist.

Probleme und Beschränkungen

Verschieden von anderen Wörterbüchern schließt WordNet Information über die Etymologie, Artikulation und die Formen von unregelmäßigen Verben nicht ein und enthält nur beschränkte Information über den Gebrauch.

Die wirkliche lexikografische und semantische Information wird in Wörterbuchverfasser-Dateien aufrechterhalten, die dann durch ein genanntes Werkzeug bearbeitet werden, mahlen, um die verteilte Datenbank zu erzeugen. Beide mahlen, und die Wörterbuchverfasser-Dateien sind in einem getrennten Vertrieb frei verfügbar, aber das Ändern und Aufrechterhalten der Datenbank verlangen Gutachten.

Obwohl WordNet eine genug breite Reihe von allgemeinen Wörtern enthält, bedeckt er spezielles Bereichsvokabular nicht. Da es in erster Linie entworfen wird, um als eine zu Grunde liegende Datenbank für verschiedene Anwendungen zu handeln, können jene Anwendungen nicht in spezifischen Gebieten verwendet werden, die von WordNet nicht bedeckt werden.

In den meisten Arbeiten, die behaupten, WordNet in andere Ontologie integriert zu haben, ist der Inhalt von WordNet nicht einfach korrigiert worden, als auf semantische Probleme gestoßen worden ist; statt dessen ist WordNet als eine Inspirationsquelle verwendet, aber schwer wiederinterpretiert und wann auch immer passend, aktualisiert worden. Das ist der Fall gewesen, als, zum Beispiel, die Ontologie auf höchster Ebene von WordNet gemäß OntoClean gestützte Annäherung umstrukturiert wurde, oder als WordNet als eine primäre Quelle verwendet wurde, für die niedrigeren Klassen der SENSUS Ontologie zu bauen.

WordNet ist das meistens verwendete rechenbetonte Lexikon von Englisch für die Wortsinnbegriffserklärung (WSD), eine Aufgabe, die zum Zuweisen der passendsten Sinne (d. h. synsets) zu Wörtern im Zusammenhang gerichtet ist. Jedoch ist es behauptet worden, dass WordNet Sinnunterscheidungen verschlüsselt, die sogar für Menschen zu feinkörnig sind. Dieses Problem hält WSD Systeme davon ab, hohe Leistung zu erreichen. Das Körnungsproblem ist durch das Vorschlagen von sich sammelnden Methoden dass automatisch Gruppe zusammen ähnliche Sinne desselben Wortes angepackt worden.

Anwendungen

WordNet ist zu mehreren verschiedenen Zwecken in Informationssystemen, einschließlich Wortsinnbegriffserklärung, Informationsgewinnung, automatischer Textklassifikation, automatischer Textzusammenfassung und sogar automatischer Kreuzworträtsel-Generation verwendet worden.

Ein Projekt an der Braunen Universität, die mit Jeff Stibel, James A. Anderson angefangen ist, Steve Reiss und andere haben gerufen Angewandtes Erkennen-Laboratorium hat einen disambiguator das Verwenden von WordNet 1998 geschaffen. Das Projekt später morphed in eine Gesellschaft genannt Simpli, der jetzt von ValueClick im Besitz ist. George Miller hat sich der Gesellschaft als ein Mitglied des Beirates angeschlossen. Simpli hat einen Internetsuchmotor gebaut, der eine auf WordNet hauptsächlich gestützte Kenntnisse-Basis verwertet hat, um Schlüsselwörter und synsets zu disambiguieren und auszubreiten, um zu helfen, Information online wiederzubekommen. WordNet wurde ausgebreitet auf, vergrößerten dimensionality, wie intentionality (verwendet für x), Leute (Albert Einstein) und umgangssprachliche Fachsprache hinzuzufügen, die für die Internetsuche (d. h., blogging, ecommerce) mehr wichtig ist. Nervennetzalgorithmen haben ausgebreiteten WordNet für zusammenhängende Begriffe gesucht, um Suchschlüsselwörter (Java, im Sinne Kaffees) zu disambiguieren und die Suche synset (Kaffee, Getränk, Joe) auszubreiten, um Suchmotorergebnisse zu verbessern. Bevor die Gesellschaft erworben wurde, hat sie Suchen über Suchmotoren wie Google, Yahoo durchgeführt! Ask.com und andere.

Ein anderes prominentes Beispiel des Gebrauches von WordNet soll die Ähnlichkeit zwischen Wörtern bestimmen. Verschiedene Algorithmen sind vorgeschlagen worden, und diese schließen das Betrachten der Entfernung zwischen den Begriffskategorien von Wörtern, sowie des Betrachtens der hierarchischen Struktur der Ontologie von WordNet ein. Mehrere diese mit Sitz in WordNet Wortähnlichkeitsalgorithmen werden in einem Paket von Perl genannt WordNet durchgeführt:: Ähnlichkeit, und in einem Pythonschlange-Paket genannt NLTK.

Schnittstellen

Princeton erhält eine Liste von zusammenhängenden Projekten aufrecht, die Verbindungen zu etwas von der weit verwendeten Anwendung einschließt, Schnittstellen programmierend, die verfügbar sind, für auf WordNet mit verschiedenen Programmiersprachen und Umgebungen zuzugreifen.

Zusammenhängende Projekte und Erweiterungen

Wordnet wird mit mehreren Datenbanken des Semantischen Webs verbunden. WordNet wird auch über mappings zwischen den Kategorien von WordNet (d. h. synsets) und den Kategorien von anderer Ontologie allgemein wiederverwendet. Meistenteils werden nur die Kategorien auf höchster Ebene von WordNet kartografisch dargestellt.

Andere Sprachen

  • WOLF (WordNet Libre du Français), eine französische Version von WordNet.
  • Das Projekt von MultiWordNet, mehrsprachiger WordNet hat darauf gezielt, italienischen WordNet zu erzeugen, der stark nach dem Princeton WordNet ausgerichtet ist.
  • Das Projekt von EuroWordNet hat WordNets für mehrere europäische Sprachen erzeugt und sie zusammen verbunden; diese sind jedoch nicht frei verfügbar. Das Globale Wordnet-Projekt versucht, die Produktion und Verbindung von "wordnets" für alle Sprachen zu koordinieren. Presse der Universität Oxford, der Herausgeber des englischen Wörterbuches von Oxford, hat Pläne geäußert, ihren eigenen Online-Mitbewerber zu WordNet zu erzeugen.
  • Das Projekt von BalkaNet hat WordNets für sechs europäische Sprachen (Bulgarisch, Tschechisch, Griechisch, Rumänisch, Türkisch und Serbisch) erzeugt. Für dieses Projekt wurde der frei verfügbare XML-basierte Redakteur von WordNet entwickelt. Dieser Redakteur - VisDic - ist nicht in der aktiven Entwicklung mehr, aber wird noch für die Entwicklung von verschiedenem WordNets verwendet. Sein Nachfolger, DEBVisDic, ist Client/Server-Anwendung und wird zurzeit für das Redigieren von mehreren WordNets (Niederländisch im Projekt von Cornetto, Polnisch, Ungarisch, mehrere afrikanische Sprachen, Chinesisch) verwendet.
  • UWN ist eine automatisch gebaute mehrsprachige lexikalische Kenntnisse-Basis sich ausstreckender WordNet, um eine Million Wörter auf vielen verschiedenen Sprachen zu überdecken.
  • Solche Projekte wie BalkaNet und EuroWordNet haben es ausführbar gemacht, eigenständigen mit dem ursprünglichen verbundenen wordnets zu schaffen. Eines solcher Projekte ist russischer WordNet, der durch die Petersburger Staatliche Universität der Mittel von Communication oder Russnet durch die Sankt-Petersburger Staatliche Universität unterstützt ist
  • FinnWordNet ist eine finnische Version von WordNet, wo alle Einträge ursprünglichen englischen WordNet übersetzt wurden.

Verbundene Daten

  • BabelNet, ein sehr großes mehrsprachiges semantisches Netz mit Millionen von Konzepten hat von einer Integration von WordNet und auf einem automatischen kartografisch darstellenden Algorithmus gestützter Wikipedia vorgeherrscht.
  • Die SUMO Ontologie hat erzeugt zwischen allen WordNet synsets, (einschließlich Substantive, Verben, Adjektive und Adverbien), und SUMO Klassen kartografisch darzustellen. Die neuste Hinzufügung des mappings stellt Verbindungen zu allen spezifischeren Begriffen MITTE Niveau-Ontologie (MILO) zur Verfügung, der SUMO erweitert.
  • OpenCyc, eine offene Ontologie und Kenntnisse-Basis von täglichen Kenntnissen des gesunden Menschenverstands, hat 12,000 mit Synonym-Sätzen von WordNet verbundene Begriffe.
  • DOLCE, ist das erste Modul von WonderWeb Foundational Ontologies Library (WFOL). Diese obere Ontologie ist im Licht von strengen ontologischen Grundsätzen entwickelt worden, die durch die philosophische Tradition, mit einer klaren Orientierung zur Sprache und dem Erkennen begeistert sind. OntoWordNet ist das Ergebnis einer experimentellen Anstrengung, das obere Niveau von WordNet auf DOLCE auszurichten. Es wird darauf hingewiesen, dass solche Anordnung zu "ontologisch gesüßtem" WordNet, beabsichtigt führen konnte, um begrifflich strenger, kognitiv durchsichtig, und in mehreren Anwendungen effizient abbaufähig zu sein.
  • DBpedia, eine Datenbank der strukturierten Information, wird auch mit WordNet verbunden.
  • Verlängerter WordNet ist ein Projekt an der Universität Texas an Dallas, das zum Ziel hat, WordNet durch die semantische Syntaxanalyse des Glanzes, so das Bilden der Information enthalten in diesen für automatische Kenntnisse-Verarbeitungssysteme verfügbaren Definitionen zu verbessern. Es ist auch laut einer WordNet ähnlichen Lizenz frei verfügbar.
  • Das GCIDE-Projekt hat ein Wörterbuch durch das Kombinieren eines öffentlichen Bereichswörterbuches von Webster von 1913 mit einigen Definitionen von WordNet und von Freiwilligen zur Verfügung gestelltem Material erzeugt. Es wurde unter dem Copyleft-Lizenz-GPL veröffentlicht.
  • ImageNet ist eine gemäß der Hierarchie von WordNet organisierte Bilddatenbank (zurzeit nur die Substantive), in dem jeder Knoten der Hierarchie durch Hunderte und Tausende von Images gezeichnet wird. Zurzeit hat es einen Durchschnitt von mehr als fünfhundert Images pro Knoten.
  • BioWordnet, eine biomedizinische Erweiterung von wordnet wurde wegen Probleme über die Stabilität über Versionen aufgegeben.
  • WikiTax2WordNet, zwischen WordNet synsets kartografisch darzustellen, und.
  • WordNet ++, eine Quelle einschließlich über Millionen von semantischen Rändern hat aus der Wikipedia und den in Verbindung stehenden Paaren von WordNet synsets geerntet.
  • SentiWordNet, eine Quelle, um erhaltene Meinungsbergwerksanwendungen durch das Markieren ganzen WordNet 3.0 synsets gemäß ihren geschätzten Graden von positivity, Negativität und Neutralität zu unterstützen.

Andere Projekte

  • FrameNet ist ein WordNet ähnliches Projekt. Es besteht aus einem Lexikon, das auf dem Kommentieren von mehr als 100,000 Sätzen mit ihren semantischen Eigenschaften basiert. Die Einheit im Fokus ist der lexikalische Rahmen, ein Typ des Staates oder Ereignisses zusammen mit den damit vereinigten Eigenschaften.
  • Ein Vogelprojekt hat wordNet betitelt (nicht WordNet) ist ein Internetsuchmotor, der Karten des Internets, nicht nur Wort mappings (wie WordNet), sondern auch Ausdruck, Konzept und Website mappings enthält.
  • Lexikalisches Preiserhöhungsfachwerk (LMF) ist eine Arbeit im Gange innerhalb von ISO/TC37, um ein allgemeines standardisiertes Fachwerk für den Aufbau von Lexika einschließlich WordNet zu definieren.
  • UNL Programm ist ein Projekt unter der Schirmherrschaft von UNO, der gerichtet ist, um lexicosemantic Daten von vielen Sprachen zu konsolidieren, die in der maschinellen Übersetzung und den Informationsförderungssystemen zu verwenden sind.

Vertrieb

Datenbank von WordNet wird als ein Wörterbuch-Paket (gewöhnlich eine einzelne Datei) für die folgende Software verteilt:

  • StarDict
  • Babylon
  • Kauderwelsch

Siehe auch

Außenverbindungen


William Ewart Gladstone / Whippet
Impressum & Datenschutz