Binäre Klassifikation

Binäre Klassifikation ist die Aufgabe, die Mitglieder eines gegebenen Satzes von Gegenständen in zwei Gruppen auf der Grundlage davon zu klassifizieren, ob sie ein Eigentum haben oder nicht. Einige typische binäre Klassifikationsaufgaben sind

  • medizinische Prüfung, um zu bestimmen, ob ein Patient bestimmte Krankheit oder nicht hat (ist das Klassifikationseigentum die Krankheit)
  • Qualitätskontrolle in Fabriken; d. h. das Entscheiden, ob ein neues Produkt gut genug ist, um verkauft zu werden, oder wenn es verworfen werden sollte (ist das Klassifikationseigentum gut genug)
  • das Entscheiden, ob eine Seite oder ein Artikel im Ergebnis-Satz einer Suche oder nicht sein sollten (ist das Klassifikationseigentum die Relevanz des Artikels - normalerweise die Anwesenheit eines bestimmten Wortes darin)

Statistische Klassifikation ist im Allgemeinen eines der in der Informatik studierten Probleme, um Klassifikationssysteme automatisch zu erfahren; einige Methoden, die passend sind, um binären classifiers zu erfahren, schließen die Entscheidungsbäume, Netze von Bayesian ein, unterstützen Vektor-Maschinen und Nervennetze.

Manchmal sind Klassifikationsaufgaben trivial. In Anbetracht 100 Bälle, einige von ihnen rot und ein Blau, kann ein Mensch mit der normalen Farbenvision sie in rote und blaue leicht trennen. Jedoch sind einige Aufgaben, wie diejenigen in der praktischen Medizin und denjenigen, die aus dem Informatik-Gesichtspunkt interessant sind, alles andere als trivial, und können fehlerhafte Ergebnisse, wenn durchgeführt, ungenau erzeugen.

Hypothese-Prüfung

In der traditionellen statistischen Hypothese-Prüfung fängt der Prüfer mit einer ungültigen Hypothese und einer alternativen Hypothese an, führt ein Experiment durch, und entscheidet dann, ob man die ungültige Hypothese zu Gunsten von der Alternative zurückweist. Hypothese-Prüfung ist deshalb eine binäre Klassifikation der Hypothese unter der Studie.

Ein positives oder statistisch bedeutendes Ergebnis ist dasjenige, das die ungültige Hypothese zurückweist. Wenn er das tut, wenn die ungültige Hypothese tatsächlich wahr ist - ist ein falscher positiver - ein Fehler des Typs I; das Tun davon, wenn die ungültige Hypothese falsche Ergebnisse in einem wahren positiven ist. Eine Verneinung oder ist nicht statistisch bedeutendes Ergebnis dasjenige, das die ungültige Hypothese nicht zurückweist. Wenn sie das tut, wenn die ungültige Hypothese tatsächlich falsch ist - ist eine falsche Verneinung - ein Fehler des Typs II; das Tun davon, wenn die ungültige Hypothese wahre Ergebnisse in einer wahren Verneinung ist.

Einschätzung von binärem classifiers

:See auch: Empfindlichkeit und Genauigkeit

Um die Leistung eines medizinischen Tests zu messen, werden die Konzeptempfindlichkeit und Genauigkeit häufig verwendet; diese Konzepte sind für die Einschätzung jedes binären classifier sogleich verwendbar. Sagen Sie, dass wir einige Menschen für die Anwesenheit einer Krankheit prüfen. Einige dieser Leute haben die Krankheit, und unser Test sagt, dass sie positiv sind. Sie werden wahren positives (TP) genannt. Einige haben die Krankheit, aber die Testansprüche tun sie nicht. Sie werden falsche Negative (FN) genannt. Einige haben die Krankheit nicht, und der Test sagt, dass sie nicht - wahre Negative (TN) tun. Schließlich könnten wir gesunde Leute haben, die ein positives Testergebnis - falscher positives (FP) haben. So beläuft sich die Zahl von wahrem positives, falschen Negativen, wahren Negativen und falschem positives auf 100 % des Satzes.

Genauigkeit (TNR) ist das Verhältnis von Leuten, dass die geprüfte Verneinung (TN) aller Leute, die wirklich (TN+FP) negativ sind. Als mit der Empfindlichkeit kann es auf als die Wahrscheinlichkeit geschaut werden, dass das Testergebnis negativ ist vorausgesetzt, dass der Patient nicht krank ist. Mit der höheren Genauigkeit werden weniger gesunde Menschen als krank etikettiert (oder, im Fabrikfall, weniger Geld, das die Fabrik durch die Verschrottung guter Produkte verliert, anstatt ihnen zu verkaufen).

Empfindlichkeit (TPR) ist das Verhältnis von Leuten, dass der geprüft positiv (TP) aller Leute, die wirklich (TP+FN) positiv sind. Es kann als die Wahrscheinlichkeit gesehen werden, dass der Test positiv ist vorausgesetzt, dass der Patient krank ist. Mit der höheren Empfindlichkeit gehen weniger wirkliche Fälle der Krankheit unentdeckt (oder, im Fall von der Fabrikqualitätskontrolle, die weniger fehlerhaften Produkte gehen zum Markt).

Die Beziehung zwischen der Empfindlichkeit und Genauigkeit, sowie der Leistung des classifier, kann vergegenwärtigt werden und hat das Verwenden der ROC-Kurve studiert.

In der Theorie sind Empfindlichkeit und Genauigkeit im Sinn unabhängig, dass es möglich ist, 100 % in beiden (solcher als im roten/blauen Ball-Beispiel zu erreichen, das oben angeführt ist). In praktischeren, weniger erfundenen Beispielen, jedoch, gibt es gewöhnlich einen Umtausch, solch, dass sie zu einander einigermaßen umgekehrt proportional sind. Das ist, weil wir selten das wirkliche Ding messen, das wir gern klassifizieren würden; eher messen wir allgemein einen Hinweis des Dings, das wir gern, gekennzeichnet als ein Stellvertreter-Anschreiber klassifizieren würden. Der Grund, warum 100 % im Ball-Beispiel erreichbar sind, besteht darin, weil man Röte und Bläue misst, indem man Röte und Bläue entdeckt. Jedoch werden Hinweise manchmal, solcher als in Verlegenheit gebracht, wenn Nichthinweise Hinweise nachahmen, oder wenn Hinweise zeitabhängig sind, nur offensichtlich nach einer bestimmten Verzögerungszeit werdend. Das folgende Beispiel eines Schwangerschaft-Tests wird von solch einem Hinweis Gebrauch machen.

Moderne Schwangerschaft-Tests verwenden die Schwangerschaft selbst nicht, um Schwangerschaft-Status zu bestimmen; eher verwenden sie menschlichen chorionic gonadotropin, oder hCG, Gegenwart im Urin von gravid Frauen als ein Stellvertreter-Anschreiber, um anzuzeigen, dass eine Frau schwanger ist. Weil hCG auch durch eine Geschwulst erzeugt werden kann, kann die Genauigkeit von modernen Schwangerschaft-Tests nicht 100 % sein (in diesem falschen positives sind möglich). Und weil hCG im Urin in solchen kleinen Konzentrationen da ist, nachdem Fruchtbarmachung und früher embryogenesis, die Empfindlichkeit von modernen Schwangerschaft-Tests 100 % nicht sein kann (darin, sind falsche Negative möglich).

Zusätzlich zur Empfindlichkeit und Genauigkeit kann die Leistung eines binären Klassifikationstests mit dem positiven (PPV) und den negativen prophetischen Werten (NPV) gemessen werden. Der positive Vorhersagewert antwortet auf die Frage, "Wenn das Testergebnis positiv ist, wie gut der sagt eine wirkliche Anwesenheit der Krankheit voraus?". Es wird als (wahrer positives) / (wahrer positives + falscher positives) berechnet; d. h. es ist das Verhältnis von wahrem positives aus allen positiven Ergebnissen. (Der negative Vorhersagewert ist dasselbe, aber für Negative natürlich.)

Man sollte aber einen wichtigen Unterschied zwischen den zwei Konzepten bemerken. D. h. Empfindlichkeit und Genauigkeit sind von der Bevölkerung im Sinn unabhängig, dass sie sich abhängig davon nicht ändern, wie das Verhältnis von positives und geprüften Negativen ist. Tatsächlich können Sie die Empfindlichkeit des Tests bestimmen, indem Sie nur positive Fälle prüfen. Jedoch sind die Vorhersagewerte von der Bevölkerung abhängig.

Beispiel

Als ein Beispiel, sagen Sie, dass es einen Test auf eine Krankheit mit 99-%-Empfindlichkeit und 99-%-Genauigkeit gibt. Sagen Sie, dass 2000 Menschen geprüft werden, und 1000 von ihnen krank sind und 1000 von ihnen gesund sind. Man wird wahrscheinlich ungefähr 990 wahre positives, 990 wahre Negative und 10 von falschen positives und Negativen jeder bekommen. Die positiven und negativen Vorhersagewerte würden 99 % sein, so können die Leute über das Ergebnis ziemlich überzeugt sein.

Sagen Sie jedoch, diesen der 2000-Leute nur 100 sind wirklich krank. Jetzt werden Sie wahrscheinlich 99 wahre positives, 1 falsche Verneinung, 1881 wahre Negative und 19 falsche positives bekommen. Der 19+99 Menschen geprüft positiv haben nur 99 wirklich die Krankheit - der intuitiv bedeutet, dass gegeben, dass Ihr Testergebnis positiv ist, es nur 84 % Chance gibt, dass Sie wirklich die Krankheit haben. Andererseits in Anbetracht dessen, dass Ihr Testergebnis negativ ist, können Sie wirklich beruhigt werden: Es gibt nur 1 Chance 1882 oder 0.05-%-Wahrscheinlichkeit, dass Sie die Krankheit trotz Ihres Testergebnisses haben.

Das Messen eines classifier mit der Empfindlichkeit und Genauigkeit

Nehmen Sie an, dass Sie Ausbildung Ihr eigener classifier sind, und Sie seine Leistung mit der gut akzeptierten Metrik der Empfindlichkeit und Genauigkeit messen möchten. Es kann aufschlussreich sein, um Ihren classifier mit einem zufälligen classifier zu vergleichen, der eine auf dem Vorherrschen einer Krankheit gestützte Münze schnipst. Nehmen Sie an, dass die Wahrscheinlichkeit eine Person hat die Krankheit, ist und die Wahrscheinlichkeit, dass sie nicht tun, ist. Nehmen Sie dann an, dass wir einen zufälligen classifier haben, der glaubt, dass Sie die Krankheit mit dieser derselben Wahrscheinlichkeit haben und glaubt, dass Sie nicht mit derselben Wahrscheinlichkeit tun.

Die Wahrscheinlichkeit eines wahren positiven ist die Wahrscheinlichkeit, dass Sie die Krankheit haben und der zufällige classifier glaubt, dass Sie tun, oder. Mit dem ähnlichen Denken ist die Wahrscheinlichkeit einer falschen Verneinung. Aus den Definitionen oben ist die Empfindlichkeit dieses classifier. Mit dem ähnlicheren Denken können wir die Genauigkeit als berechnen.

Also, während das Maß selbst des Krankheitsvorherrschens unabhängig ist, hängt die Leistung dieses zufälligen classifier von Krankheitsvorherrschen ab. Ihr classifier kann Leistung haben, die diesem zufälligen classifier, aber mit einer besser beschwerten Münze (höhere Empfindlichkeit und Genauigkeit) ähnlich ist. Also, diese Maßnahmen können unter Einfluss des Krankheitsvorherrschens sein. Ein alternatives Maß der Leistung ist der Korrelationskoeffizient von Matthews, für den jeder zufällige classifier eine durchschnittliche Kerbe 0 bekommen wird.

Das Umwandeln dauernder Werte zur Dualzahl

Tests, deren Ergebnisse von dauernden Wichtigkeiten, wie der grösste Teil des Bluts Werte sind, können binär durch das Definieren eines Abkürzungswerts mit Testergebnissen künstlich gemacht werden, die als positiv oder negativ je nachdem benennen werden, ob der resultierende Wert höher oder niedriger ist als die Abkürzung.

Jedoch verursacht solche Konvertierung einen Verlust der Information, weil die resultierende binäre Klassifikation nicht erzählt, wie viel oben oder unter der Abkürzung ein Wert ist. Infolgedessen, wenn er einen dauernden Wert umwandelt, der der Abkürzung zu einer binären nah ist, ist der resultierende positive oder negative prophetische Wert allgemein höher als der prophetische Wert gegeben direkt vom dauernden Wert. In solchen Fällen gibt die Benennung des Tests, entweder positiv zu sein, oder negative das Äußere einer unpassend hohen Gewissheit, während der Wert tatsächlich in einem Zwischenraum der Unklarheit ist. Zum Beispiel, mit der Urinkonzentration von hCG als ein dauernder Wert, kann sich ein Urinschwangerschaft-Test, der 52 mIU/ml von hCG gemessen hat, so "positiv" mit 50 mIU/ml zeigen wie Abkürzung, aber ist tatsächlich in einem Zwischenraum der Unklarheit, die nur durch das Wissen des ursprünglichen dauernden Werts offenbar sein kann. Andererseits hat ein Testergebnis, das von der Abkürzung allgemein sehr weit ist, einen resultierenden positiven oder negativen prophetischen Wert, der niedriger ist als der prophetische vom dauernden Wert gegebene Wert. Zum Beispiel teilt ein Urin hCG Wert von 200,000 mIU/ml eine sehr hohe Wahrscheinlichkeit der Schwangerschaft zu, aber die Konvertierung zu binären Werten läuft darauf hinaus es zeigt sich so "positiv" als derjenige von 52 mIU/ml.

Siehe auch

Bibliografie

  • Nello Cristianini und John Shawe-Taylor. Eine Einführung, um Vektor-Maschinen und andere kernbasierte Lernmethoden Zu unterstützen. Universität von Cambridge Presse, 2000. Internationale Standardbuchnummer 0-521-78019-5 (http://www.support-vector.net SVM Buch)
  • John Shawe-Taylor und Nello Cristianini. Kernmethoden für die Muster-Analyse. Universität von Cambridge Presse, 2004. Internationale Standardbuchnummer 0-521-81397-2 (http://www.kernel-methods.net Kernmethode-Buch)
  • Bernhard Schölkopf und A. J. Smola: Das Lernen mit Kernen. MIT Presse, Cambridge, Massachusetts, 2002. (Teilweise verfügbar online: http://www.learning-with-kernels.org.) internationale Standardbuchnummer 0-262-19475-9

Einsatzgruppe 11 / Einsatzgruppe
Impressum & Datenschutz