Informationsgewinnung

Informationsgewinnung (IR) ist das Gebiet der Studie, die mit dem Suchen nach Dokumenten, für die Information innerhalb von Dokumenten, und für metadata über Dokumente, sowie diese der Suche der strukturierten Lagerung, Verwandtschaftsdatenbanken und des World Wide Web betroffen ist. Es gibt Übergreifen im Gebrauch der Begriff-Datenwiederauffindung, Dokumentenwiederauffindung, Informationsgewinnung und Textsuche, aber jeder hat auch seinen eigenen Körper der Literatur, Theorie, praxis, und Technologien. IR ist zwischendisziplinarisch, auf Informatik, Mathematik, Bibliothekswissenschaft, Informationswissenschaft, Informationsarchitektur, kognitiver Psychologie, Linguistik, Statistik und Gesetz gestützt.

Automatisierte Informationsgewinnungssysteme werden verwendet, um zu reduzieren, was "Informationsüberlastung" genannt worden ist. Viele Universitäten und öffentliche Bibliotheken verwenden IR-Systeme, um Zugang zu Büchern, Zeitschriften und anderen Dokumenten zur Verfügung zu stellen. Websuchmotoren sind die am meisten sichtbaren IR Anwendungen.

Geschichte

Die Idee, Computer zu verwenden, um nach relevanter Information zu suchen, wurde im Artikel As We May Think by Vannevar Bush 1945 verbreitet. Die ersten automatisierten Informationsgewinnungssysteme wurden in den 1950er Jahren und 1960er Jahren eingeführt. Vor 1970, wie man gezeigt hatte, hatten mehrere verschiedene Techniken auf der kleinen Textkorpora wie die Sammlung von Cranfield (mehrere tausend Dokumente) eine gute Leistung gebracht. Groß angelegte Wiederauffindungssysteme, wie das Lockheed Dialog-System, sind in Gebrauch am Anfang der 1970er Jahre eingetreten.

1992, das US-Verteidigungsministerium zusammen mit dem Nationalen Institut für Standards und Technologie (NIST), cosponsored die Textsuche-Konferenz (TREC) als ein Teil des TIPPGEBER-Textprogramms. Das Ziel davon war, in die Informationsgewinnungsgemeinschaft durch die Versorgung der Infrastruktur zu blicken, die für die Einschätzung von Textsuche-Methodiken auf einer sehr großen Textsammlung erforderlich war. Diese katalysierte Forschung über Methoden, die zur riesigen Korpora klettern. Die Einführung von Websuchmotoren hat das Bedürfnis nach sehr in großem Umfang Wiederauffindungssystemen noch weiter erhöht.

Der Gebrauch von Digitalmethoden, um Information zu versorgen und wiederzubekommen, hat zum Phänomen des Digitalveraltens geführt, wo eine Digitalquelle aufhört, lesbar zu sein, weil die physischen Medien, der Leser verlangt hat, um die Medien zu lesen, ist die Hardware oder die Software, die darauf läuft, nicht mehr verfügbar. Die Information ist am Anfang leichter wiederzubekommen, als wenn es auf Papier war, aber wird dann effektiv verloren.

Zeitachse

  • Vor den 1900er Jahren
  • : 1801: Joseph Marie Jacquard erfindet den Webstuhl von Jacquard, die erste Maschine, um geschlagene Karten zu verwenden, um eine Folge von Operationen zu kontrollieren.
  • : Die 1880er Jahre: Herman Hollerith erfindet einen elektromechanischen Datentabellarisierer mit Schlag-Karten als ein maschinenlesbares Medium.
  • : 1890 Hollerithkarten, Handlocher und Tabellarisierer haben gepflegt, 1890 Volkszählungsdaten der Vereinigten Staaten zu bearbeiten.
  • Die 1930er Jahre der 1920er Jahre
  • : Emanuel Goldberg legt Patente für seine "Statistische Maschine" ein Dokumentensuchmotor vor, der Fotozellen und Muster-Anerkennung verwendet hat, um den metadata auf Rollen von auf Mikrofilm aufgenommenen Dokumenten zu suchen.
  • Die 1950er Jahre der 1940er Jahre
  • : gegen Ende der 1940er Jahre: Das US-Militär hat Problemen des Indexierens und der Wiederauffindung von wissenschaftlichen von Deutschen gewonnenen Kriegsforschungsdokumenten gegenübergestanden.
  • :: 1945: Vannevar Bush, Wie Wir Denken Können, ist im Atlantik Monatlich erschienen.
  • :: 1947: Hans Peter Luhn (Forschungsingenieur an IBM seit 1941) hat Arbeit an einem mechanisierten Schlag Karte-basiertes System begonnen, um chemische Zusammensetzungen zu suchen.
  • : Die 1950er Jahre: Das Wachsen der Sorge in den Vereinigten Staaten für eine "Wissenschaftslücke" mit der UDSSR hat motiviert, hat dazu ermuntert finanziell zu unterstützen und hat eine Kulisse für mechanisierte Literatursuche-Systeme zur Verfügung gestellt (Allen Kent u. a.) und die Erfindung des Zitats, das (Eugene Garfield) mit einem Inhaltsverzeichnis versieht.
  • : 1950: Der Begriff "Informationsgewinnung" scheint, von Calvin Mooers ins Leben gerufen worden zu sein.
  • : 1951: Philip Bagley hat das frühste Experiment in der computerisierten Dokumentenwiederauffindung in einer Master-These an MIT durchgeführt.
  • : 1955: Allen Kent hat sich Fall Westreserveuniversität angeschlossen, und ist schließlich stellvertretender Direktor des Zentrums für die Dokumentation und Kommunikationsforschung geworden. Dass dasselbe Jahr, Kent und Kollegen eine Zeitung in der amerikanischen Dokumentation veröffentlicht haben, die die Präzisions- und Rückruf-Maßnahmen beschreibt sowie über ein vorgeschlagenes "Fachwerk" ausführlich berichtet, für ein IR-System zu bewerten, das statistische ausfallende Methoden eingeschlossen hat, für die Zahl von relevanten nicht wiederbekommenen Dokumenten zu bestimmen.
  • : 1958: Die Internationale Konferenz für die Wissenschaftliche Information Washingtoner Gleichstrom hat Rücksicht von IR-Systemen als eine Lösung von identifizierten Problemen eingeschlossen. Sieh: Verhandlungen der Internationalen Konferenz für die Wissenschaftliche Information, 1958 (Nationale Akademie von Wissenschaften, Washington, Bezirk, 1959)
  • : 1959: Hans Peter Luhn hat "Autoverschlüsselung von Dokumenten für die Informationsgewinnung veröffentlicht."
  • Die 1960er Jahre:
  • : Anfang der 1960er Jahre: Gerard Salton hat Arbeit an IR an Harvard begonnen, das später Cornell bewegt ist.
  • : 1960: Melvin Earl (Bill) Maron und John Lary Kuhns haben "Auf der Relevanz, probabilistic das Indexieren und die Informationsgewinnung" in der Zeitschrift des ACM 7 (3):216-244, Juli 1960 veröffentlicht.
  • : 1962:
  • :* Cyril W. Cleverdon hat frühe Ergebnisse der Studien von Cranfield veröffentlicht, ein Modell für die IR-System-Einschätzung entwickelnd. Sieh: Cyril W. Cleverdon, "Bericht über die Prüfung und Analyse einer Untersuchung der Vergleichenden Leistungsfähigkeit, Systeme Mit einem Inhaltsverzeichnis zu versehen". Cranfield Sammlung der Luftfahrt, Cranfield, England, 1962.
  • :* Kent hat Informationsanalyse und Wiederauffindung veröffentlicht.
  • : 1963:
  • :* Weinberg "Berichtswissenschaft, Regierung und Information" haben eine volle Aussprache der Idee von einer "Krise der wissenschaftlichen Information gegeben." Der Bericht wurde nach Dr Alvin Weinberg genannt.
  • :* Joseph Becker und Robert M. Hayes haben Text auf der Informationsgewinnung veröffentlicht. Becker, Joseph; Hayes, Robert Mayo. Informationslagerung und Wiederauffindung: Werkzeuge, Elemente, Theorien. New York, Wiley (1963).
  • : 1964:
  • :* Karen Spärck Jones hat ihre These an Cambridge, Synonymie und Semantischer Klassifikation beendet, und hat Arbeit an der linguistischen Datenverarbeitung fortgesetzt, weil es für IR gilt.
  • :* Das Nationale Büro von Standards hat ein Symposium betitelt "Statistische Vereinigungsmethoden für die Mechanisierte Dokumentation gesponsert." Mehrere hoch bedeutende Papiere einschließlich der ersten veröffentlichten Verweisung von G. Salton (glauben wir) zum KLUGEN System.
  • Die:Mid-1960er-Jahre:
  • ::* Die nationale Bibliothek der Medizin hat MISPELN Medizinisches Literaturanalyse- und Wiederauffindungssystem, die erste maschinenlesbare Hauptdatenbank und das System der Gruppe-Wiederauffindung entwickelt.
  • ::* Planen Sie Intrex an MIT.
  • :: 1965:J. C. R. Licklider hat Bibliotheken der Zukunft veröffentlicht.
  • :: 1966: Don Swanson wurde an Studien an der Universität Chicagos auf Voraussetzungen für Zukünftige Kataloge beteiligt.
  • : gegen Ende der 1960er Jahre:F. Wilfrid Lancaster hat Einschätzungsstudien des MISPEL-Systems vollendet und hat die Erstausgabe seines Textes auf der Informationsgewinnung veröffentlicht.
  • :: 1968:
  • :* Gerard Salton hat Automatische Informationsorganisation und Wiederauffindung veröffentlicht.
  • :* Der RADC Technologische Bericht von John W. Sammon dem Jüngeren "Etwas Mathematik der Informationslagerung und Wiederauffindung..." hat das Vektor-Modell entworfen.
  • :: 1969: Sammon "Für die Datenstruktur-Analyse" (IEEE Transaktionen auf Computern) nichtlinear kartografisch darzustellen, war der erste Vorschlag für die Vergegenwärtigungsschnittstelle zu einem IR-System.
  • Die 1970er Jahre
  • : Anfang der 1970er Jahre:
  • ::* Zuerst Online-Systeme — das ZIEL-TWX VON NLM, MEDLINE; der Dialog von Lockheed; die BAHN VON SDC.
  • ::* Theodor Nelson, der Konzept des Hypertextes, veröffentlichter Computermaschinen des Befreiungskampfes/Traums fördert.
  • : 1971: Nicholas Jardine und Cornelis J. van Rijsbergen haben "Den Gebrauch des hierarchischen Sammelns in der Informationsgewinnung" veröffentlicht, die die "Traube-Hypothese artikuliert hat." (Informationslagerung und Wiederauffindung, 7 (5), Seiten 217-240, Dezember 1971)
  • : 1975: Drei hoch einflussreiche Veröffentlichungen durch Salton haben völlig sein Vektor-Verarbeitungsfachwerk und Begriff-Urteilsvermögen-Modell artikuliert:
  • ::* Eine Theorie, (Gesellschaft für die industrielle und angewandte Mathematik) mit einem Inhaltsverzeichnis zu versehen
  • ::* Eine Theorie der Begriff-Wichtigkeit in der Automatischen Textanalyse (JASIS v. 26)
  • ::* Ein Vektorraum-Modell für das Automatische Indexieren (CACM 18:11)
  • : 1978: Der Erste ACM SIGIR Konferenz.
  • : 1979:C. J. van Rijsbergen hat Informationsgewinnung (Butterworths) veröffentlicht. Schwere Betonung auf probabilistic Modellen.
  • Die 1980er Jahre
  • : 1980: Zuerst internationaler ACM SIGIR Konferenz, verbinden Sie mit der britischen Computergesellschaft IR Gruppe in Cambridge.
  • : 1982: Nicholas J. Belkin, Robert N. Oddy und Helen M. Brooks haben das FRAGEN (Anomaler Staat von Kenntnissen) Gesichtspunkt für die Informationsgewinnung vorgeschlagen. Das war ein wichtiges Konzept, obwohl sich ihr automatisiertes Analyse-Werkzeug schließlich enttäuschend erwiesen hat.
  • : 1983: Salton (und Michael J. McGill) hat Einführung in die Moderne Informationsgewinnung (McGraw-Hügel) mit der schweren Betonung auf Vektor-Modellen veröffentlicht.
  • : 1985: Blair und Maron veröffentlichen: Eine Einschätzung der Wiederauffindungswirksamkeit für ein Dokumentenwiederauffindungssystem des Vollen Textes
  • : Mitte der 1980er Jahre: Anstrengungen, Endbenutzer-Versionen von kommerziellen IR-Systemen zu entwickeln.
  • :: 1985-1993: Schlüsselpapiere auf und experimentelle Systeme für Vergegenwärtigungsschnittstellen.
  • :: Arbeit von Donald B. Crouch, Robert R. Korfhage, Matthew Chalmers, Anselm Spoerri und anderen.
  • : 1989: Die Ersten Vorschläge des World Wide Web von Tim Berners-Lee an CERN.
  • Die 1990er Jahre
  • : 1992: Die Erste TREC Konferenz.
  • : 1997: Veröffentlichung der Informationslagerung von Korfhage und Wiederauffindung mit der Betonung auf der Vergegenwärtigung und den Mehrbezugspunkt-Systemen.
  • : gegen Ende der 1990er Jahre: Die Websuchmotordurchführung von vielen Eigenschaften hat früher nur in experimentellen IR-Systemen gefunden. Suchen Sie Motoren werden am meisten und vielleicht bester instantiation von IR Modellen, Forschung und Durchführung üblich.

Übersicht

Ein Informationsgewinnungsprozess beginnt, wenn ein Benutzer in eine Abfrage ins System eingeht. Abfragen sind formelle Behauptungen von Informationsbedürfnissen, suchen zum Beispiel Schnuren in Websuchmotoren. In der Informationsgewinnung identifiziert eine Abfrage keinen einzelnen Gegenstand in der Sammlung einzigartig. Statt dessen können mehrere Gegenstände die Abfrage vielleicht mit verschiedenen Graden der Relevanz vergleichen.

Ein Gegenstand ist eine Entität, die durch die Information in einer Datenbank vertreten wird. Benutzerabfragen werden gegen die Datenbankinformation verglichen. Abhängig von der Anwendung können die Datengegenstände, zum Beispiel, Textdokumente, Images, Audio-, Meinungskarten oder Videos sein. Häufig werden die Dokumente selbst nicht behalten oder direkt im IR-System versorgt, aber werden stattdessen im System von Dokumentenstellvertretern oder metadata vertreten.

Die meisten IR-Systeme schätzen eine numerische Kerbe darauf, wie gut jeder Gegenstand in der Datenbank die Abfrage vergleicht, und die Gegenstände gemäß diesem Wert aufreiht. Die sich aufreihenden Spitzengegenstände werden dann dem Benutzer gezeigt. Der Prozess kann dann wiederholt werden, wenn der Benutzer die Abfrage raffinieren möchte.

Leistung und Genauigkeitsmaßnahmen

Viele verschiedene Maßnahmen, für die Leistung von Informationsgewinnungssystemen zu bewerten, sind vorgeschlagen worden. Die Maßnahmen verlangen eine Sammlung von Dokumenten und einer Abfrage. Alle allgemeinen Maßnahmen beschrieben hier nehmen einen Boden-Wahrheitsbegriff der Relevanz an: Wie man bekannt, ist jedes Dokument entweder wichtig oder für eine besondere Abfrage nichtwichtig. In der Praxis können Abfragen schlecht-aufgestellt werden, und es kann verschiedene Schatten der Relevanz geben.

Präzision

Präzision ist der Bruchteil der wiederbekommenen Dokumente, die für das Informationsbedürfnis des Benutzers wichtig sind.

:

In der binären Klassifikation ist Präzision dem positiven prophetischen Wert analog. Präzision zieht alle wiederbekommenen Dokumente in Betracht. Es kann auch an einer gegebenen Abkürzungsreihe bewertet werden, nur die höchsten durch das System als zurückgegebenen Ergebnisse betrachtend. Dieses Maß wird Präzision an n oder P@n genannt.

Bemerken Sie, dass sich die Bedeutung und der Gebrauch "der Präzision" im Feld der Informationsgewinnung von der Definition der Genauigkeit und Präzision innerhalb anderer Zweige der Wissenschaft und Technologie unterscheiden.

Zurückrufen

Rückruf ist der Bruchteil der Dokumente, die für die Abfrage wichtig sind, die erfolgreich wiederbekommen werden.

:

In der binären Klassifikation wird Rückruf Empfindlichkeit genannt. So kann es auf als die Wahrscheinlichkeit geschaut werden, dass ein relevantes Dokument durch die Abfrage wiederbekommen wird.

Es ist trivial, um Rückruf von 100 % durch das Zurückbringen aller Dokumente als Antwort auf jede Abfrage zu erreichen. Deshalb ist Rückruf allein nicht genug, aber man muss die Zahl von nichtrelevanten Dokumenten auch zum Beispiel messen, indem man die Präzision schätzt.

Radioaktiver Niederschlag

Das Verhältnis von nichtrelevanten Dokumenten, die aus allen nichtrelevanten verfügbaren Dokumenten wiederbekommen werden:

:

In der binären Klassifikation ist radioaktiver Niederschlag nah mit der Genauigkeit verbunden. Es kann auf als die Wahrscheinlichkeit geschaut werden, dass ein nichtrelevantes Dokument durch die Abfrage wiederbekommen wird.

Es ist trivial, um radioaktiven Niederschlag von 0 % durch das Zurückbringen von Nulldokumenten als Antwort auf jede Abfrage zu erreichen.

F-Maß

Die belastete Harmonische, die der Präzision und des Rückrufs, des traditionellen F-Maßes oder der erwogenen F-Kerbe bösartig ist, ist:

:

Das ist auch bekannt als das Maß, weil Rückruf und Präzision gleichmäßig beschwert werden.

Die allgemeine Formel für den echten nichtnegativen ist:

:.

Zwei andere allgemein verwendete F-Maßnahmen sind das Maß, das Gewichte doppelt so viel als Präzision und das Maß, der Gewicht-Präzision doppelt so viel als Rückruf zurückrufen.

Das F-Maß wurde von van Rijsbergen (1979) abgeleitet, so dass "Maßnahmen die Wirksamkeit der Wiederauffindung in Bezug auf einen Benutzer, der Zeiten so viel Wichtigkeit beifügt, um zurückzurufen, wie Präzision". Es basiert auf dem Wirksamkeitsmaß von van Rijsbergen. Ihre Beziehung ist wo.

Durchschnittliche Präzision

Präzision und Rückruf sind Metrik des einzelnen Werts, die auf der ganzen Liste von durch das System zurückgegebenen Dokumenten gestützt ist. Für Systeme, die eine aufgereihte Folge von Dokumenten zurückgeben, ist es wünschenswert, auch die Ordnung zu denken, in der die zurückgegebenen Dokumente präsentiert werden. Indem man eine Präzision und Rückruf an jeder Position in der aufgereihten Folge von Dokumenten schätzt, kann man eine Präzisionsrückruf-Kurve planen, Präzision als eine Funktion des Rückrufs planend. Durchschnittliche Präzision schätzt den durchschnittlichen Wert über den Zwischenraum von zu:

:

Dieses Integral wird in der Praxis durch eine begrenzte Summe über jede Position in der aufgereihten Folge von Dokumenten ersetzt:

:

wo die Reihe in der Folge von wiederbekommenen Dokumenten ist, die Zahl von wiederbekommenen Dokumenten ist, die Präzision bei der Abkürzung in der Liste ist, und die Änderung im Rückruf von Sachen bis ist.

Diese begrenzte Summe ist gleichwertig zu:

:

wo eine Anzeigefunktion ist, die 1 gleich ist, wenn der Artikel an der Reihe ein relevantes Dokument, Null sonst ist. Bemerken Sie, dass der Durchschnitt über alle relevanten Dokumente ist und die relevanten nicht wiederbekommenen Dokumente eine Präzisionskerbe der Null bekommen.

Einige Autoren beschließen, die Funktion zu interpolieren, den Einfluss von "Windungen" in der Kurve zu reduzieren. Zum Beispiel schätzt die Klassenherausforderung des Sichtbaren Gegenstands von PASCAL (ein Abrisspunkt für die Computervisionsgegenstand-Entdeckung) durchschnittliche Präzision durch die Mittelwertbildung der Präzision mehr als eine Reihe von gleichmäßig Rückruf-Niveaus unter Drogeneinfluss {0, 0.1, 0.2... 1.0}:

:

wo eine interpolierte Präzision ist, die die maximale Präzision über alle Rückrufe nimmt, die größer sind als:

:.

Eine Alternative soll eine analytische Funktion durch das Annehmen eines besonderen parametrischen Vertriebs für die zu Grunde liegenden Entscheidungswerte ableiten. Zum Beispiel kann eine binormal Präzisionsrückruf-Kurve erhalten werden, indem sie Entscheidungswerte in beiden Klassen angenommen wird, einem Vertrieb von Gaussian zu folgen.

Auf durchschnittliche Präzision wird auch manchmal geometrisch als das Gebiet unter der Präzisionsrückruf-Kurve verwiesen.

R-Präzision

Die Präzision an der R-th Position in der Rangordnung von Ergebnissen für eine Abfrage, die R relevante Dokumente hat. Dieses Maß wird zur Durchschnittlichen Präzision hoch aufeinander bezogen. Außerdem ist Präzision gleich, um an der R-th Position Zurückzurufen.

Durchschnittliche Mittelpräzision

Die durchschnittliche Mittelpräzision für eine Reihe von Abfragen ist die bösartigen von den durchschnittlichen Präzisionshunderten für jede Abfrage.

:

wo Q die Zahl von Abfragen ist.

Rabattierter kumulativer Gewinn

DCG verwendet eine abgestufte Relevanz-Skala von Dokumenten vom Ergebnis-Satz, um die Nützlichkeit oder Gewinn von einem Dokument zu bewerten, das auf seiner Position in der Ergebnis-Liste gestützt ist. Die Proposition von DCG ist, dass hoch relevante Dokumente, die niedriger in einer Suchergebnis-Liste scheinen, bestraft werden sollten, weil der abgestufte Relevanz-Wert logarithmisch proportional zur Position des Ergebnisses reduziert wird.

Der an einer besonderen Reihe-Position angesammelte DCG wird als definiert:

:

Da sich Ergebnis-Satz in der Größe unter verschiedenen Abfragen oder Systemen ändern kann, um Leistungen zu vergleichen, verwendet die normalisierte Version von DCG einen idealen DCG. Zu diesem Zweck sortiert es Dokumente einer Ergebnis-Liste durch die Relevanz, einen idealen DCG an der Position p erzeugend , der die Kerbe normalisiert:

:

Die NDCG-Werte für alle Abfragen können durchschnittlich sein, um ein Maß der durchschnittlichen Leistung eines sich aufreihenden Algorithmus zu erhalten. Bemerken Sie das in einem vollkommenen sich aufreihenden Algorithmus, der Wille, dasselbe als das Produzieren eines nDCG 1.0 sein. Alle nDCG Berechnungen sind dann Verhältniswerte auf dem Zwischenraum 0.0 zu 1.0 und vergleichbare Quer-Abfrage auch.

Andere Maßnahmen

  • Haben Sie gegenseitige Reihe vor
  • Der Rangkorrelationskoeffizient von Spearman

Mustertypen

Für die Informationsgewinnung, um effizient zu sein, werden die Dokumente normalerweise in eine passende Darstellung umgestaltet. Es gibt mehrere Darstellungen. Das Bild illustriert rechts die Beziehung von einigen allgemeinen Modellen. Im Bild werden die Modelle gemäß zwei Dimensionen kategorisiert: die mathematische Basis und die Eigenschaften des Modells.

Die erste Dimension: mathematische Basis

  • Mit dem Satz theoretische Modelle vertreten Dokumente als Sätze von Wörtern oder Ausdrücken. Ähnlichkeiten werden gewöhnlich aus mit dem Satz theoretischen Operationen auf jenen Sätzen abgeleitet. Allgemeine Modelle sind:
  • Boolean Standardmodell
  • Erweitertes Boolean Modell
  • Krause Wiederauffindung
  • Algebraische Modelle vertreten Dokumente und Abfragen gewöhnlich als Vektoren, matrices, oder Tupel. Die Ähnlichkeit des Anfragenvektoren und Dokumentenvektoren wird als ein Skalarwert vertreten.
  • Vektorraum-Modell
  • Verallgemeinertes Vektorraum-Modell
  • (Erhöhtes) Thema-basiertes Vektorraum-Modell
Erweitertes Boolean Modell
  • Das latente semantische Indexieren auch bekannt als die latente semantische Analyse
  • Modelle von Probabilistic behandeln den Prozess der Dokumentenwiederauffindung als eine probabilistic Schlussfolgerung. Ähnlichkeiten werden als Wahrscheinlichkeiten geschätzt, dass ein Dokument für eine gegebene Abfrage wichtig ist. Lehrsätze von Probabilistic wie der Lehrsatz der Buchten werden häufig in diesen Modellen verwendet.
  • Binäres Unabhängigkeitsmodell
  • Relevanz-Modell von Probabilistic, auf dem das Okapi (BM25) Relevanz-Funktion basiert
  • Unsichere Schlussfolgerung
  • Sprachmodelle
  • Modell der Abschweifung von der Zufälligkeit
  • Latente Dirichlet Zuteilung
  • Eigenschaft-basierte Wiederauffindungsmodelle sehen Dokumente als Vektoren von Werten von Eigenschaft-Funktionen an (oder zeigt gerade), und suchen Sie die beste Weise, diese Eigenschaften in eine einzelne Relevanz-Kerbe normalerweise zu verbinden, indem Sie lernen, Methoden aufzureihen. Eigenschaft-Funktionen sind willkürliche Funktionen des Dokumentes und der Abfrage, und weil solcher fast jedes andere Wiederauffindungsmodell als gerade eine noch andere Eigenschaft leicht vereinigen kann.

Die zweite Dimension: Eigenschaften des Modells

  • Modelle ohne gegenseitige Abhängigkeiten des Begriffes behandeln verschiedene Begriffe/Wörter als unabhängig. Diese Tatsache wird gewöhnlich in Vektorraum-Modellen durch die orthogonality Annahme von Begriff-Vektoren oder in probabilistic Modellen durch eine Unabhängigkeitsannahme für Begriff-Variablen vertreten.
  • Modelle mit immanenten gegenseitigen Begriff-Abhängigkeiten erlauben eine Darstellung von gegenseitigen Abhängigkeiten zwischen Begriffen. Jedoch wird der Grad der gegenseitigen Abhängigkeit zwischen zwei Begriffen durch das Modell selbst definiert. Es wird gewöhnlich (z.B durch die dimensionale Verminderung) vom Co-Ereignis jener Begriffe im ganzen Satz von Dokumenten direkt oder indirekt abgeleitet.
  • Modelle mit transzendenten gegenseitigen Begriff-Abhängigkeiten erlauben eine Darstellung von gegenseitigen Abhängigkeiten zwischen Begriffen, aber sie behaupten nicht, wie die gegenseitige Abhängigkeit zwischen zwei Begriffen definiert wird. Sie geben eine Außenquelle für den Grad der gegenseitigen Abhängigkeit zwischen zwei Begriffen weiter. (Zum Beispiel menschliche oder hoch entwickelte Algorithmen.)

Hauptzahlen

  • Thomas Bayes
  • Claude E. Shannon
  • Gerard Salton
  • Hans Peter Luhn
  • Cyril Cleverdon
  • W. Bruce Croft
  • Karen Spärck Jones
  • Calvin Mooers
  • C. J. van Rijsbergen
  • Stephen E. Robertson
  • Martin Porter
  • Amit Singhal

Preise im Feld

  • Preis von Tony Kent Strix
  • Preis von Gerard Salton

Siehe auch

  • Informationsgewinnung von Adversarial
  • Zusammenarbeitende Information, suchend
  • Kontrolliertes Vokabular
  • Quer-Sprachinformationsgewinnung
  • Daten, die abbauen
  • Europäischer Sommerkurs in der Informationsgewinnung
  • Informationsgewinnung des menschlichen Computers
  • Informationsförderung
  • Informationsgewinnungsmöglichkeit
  • Informationswissenschaft
  • Information, suchend
  • Kenntnisse-Vergegenwärtigung
  • Multimediainformationsgewinnung
  • Persönliches Informationsmanagement
  • Relevanz (Informationsgewinnung)
  • Relevanz-Feed-Back
  • Rocchio Klassifikation
  • Suchen Sie Index
  • Soziale Information, suchend
  • Special Interest Group auf der Informationsgewinnung
  • Thema, das mit einem Inhaltsverzeichnis versieht
  • Tf-idf
  • XML-Wiederauffindung

Links

Informationsgewinnungsmöglichkeit

Index / Liste von italienisch-sprachigen Dichtern
Impressum & Datenschutz