Künstliches Nervennetz

Ein künstliches Nervennetz (ANN), gewöhnlich genanntes Nervennetz (NN), ist ein mathematisches vorbildliches oder rechenbetontes Modell, das durch die Struktur und/oder funktionellen Aspekte von biologischen Nervennetzen begeistert wird. Ein Nervennetz besteht aus einer miteinander verbundenen Gruppe von künstlichen Neuronen, und es geht in einer Prozession Information mit einem connectionist nähern sich der Berechnung. In den meisten Fällen ist ein ANN ein anpassungsfähiges System, das seine Struktur ändert, die auf der äußerlichen oder inneren Information gestützt ist, die durch das Netz während der Lernphase fließt. Moderne Nervennetze sind nichtlineare statistische modellierende Datenwerkzeuge. Sie sind gewöhnlich an komplizierte Musterbeziehungen zwischen Eingängen und Produktionen gewöhnt oder Muster in Daten zu finden.

Hintergrund

Die ursprüngliche Inspiration für den Begriff Künstliches Nervennetz ist aus der Überprüfung von Zentralnervensystemen und ihren Neuronen, axons, Dendriten und Synapsen gekommen, die die in einer Prozession gehenden Elemente von biologischen durch neuroscience untersuchten Nervennetzen einsetzen. In einem künstlichen Nervennetz, einfachen künstlichen Knoten, hat verschiedenartig "Neurone", "neurodes" genannt, "Elemente" (PEs) oder "Einheiten" bearbeitend, werden zusammen verbunden, um ein Netz von Knoten zu bilden, die die biologischen Nervennetze — folglich der Begriff "künstliches Nervennetz" nachahmen.

Weil neuroscience noch mit unbeantworteten Fragen voll ist, und da es viele Niveaus der Abstraktion und deshalb viele Weisen gibt, Inspiration vom Gehirn zu nehmen, gibt es keine einzelne formelle Definition dessen, wie ein künstliches Nervennetz ist. Allgemein schließt es ein Netz von einfachen in einer Prozession gehenden Elementen ein, die kompliziertes globales Verhalten ausstellen, das durch Verbindungen zwischen in einer Prozession gehenden Elementen und Element-Rahmen bestimmt ist. Während ein künstliches Nervennetz per se nicht anpassungsfähig sein muss, kommt sein praktischer Gebrauch mit Algorithmen, die entworfen sind, um die Kraft (Gewichte) der Verbindungen im Netz zu verändern, um einen gewünschten Signalfluss zu erzeugen.

Diese Netze sind auch den biologischen Nervennetzen im Sinn ähnlich, dass Funktionen insgesamt und in der Parallele durch die Einheiten durchgeführt werden, anstatt dort eine klare Zeichnung von Teilaufgaben zu sein, denen verschiedene Einheiten zugeteilt werden (sieh auch connectionism). Zurzeit neigt der Begriff Artificial Neural Network (ANN) dazu, sich größtenteils auf Nervennetzmodelle zu beziehen, die in der Statistik, kognitiven Psychologie und künstlichen Intelligenz verwendet sind. Nervennetzmodelle, die mit dem Wetteifer des Zentralnervensystems (CNS) im Sinn entworfen sind, sind ein Thema von theoretischem neuroscience und rechenbetontem neuroscience.

In modernen Softwaredurchführungen von künstlichen Nervennetzen ist die durch die Biologie begeisterte Annäherung für eine praktischere Annäherung größtenteils aufgegeben worden, die auf der Statistik und Signalverarbeitung gestützt ist. In einigen dieser Systeme werden Nervennetze oder Teile von Nervennetzen (wie künstliche Neurone) als Bestandteile in größeren Systemen verwendet, die sowohl anpassungsfähige als auch nichtanpassungsfähige Elemente verbinden. Während die allgemeinere Annäherung solcher anpassungsfähigen Systeme für das wirkliche Problem-Lösen passender ist, hat sie viel weniger, um mit der traditionellen künstlichen Intelligenz connectionist Modelle zu tun. Was sie wirklich gemeinsam jedoch haben, ist der Grundsatz der nichtlinearen, verteilten, parallelen und lokalen Verarbeitung und Anpassung. Historisch hat der Gebrauch von Nervennetzmodellen eine Paradigma-Verschiebung gegen Ende der achtziger Jahre von (der symbolischen) künstlichen Intelligenz auf höchster Ebene gekennzeichnet, die durch Expertensysteme mit Kenntnissen charakterisiert ist, die in wenn dann Regeln zum auf niedriger Stufe (subsymbolischen) Maschinenlernen aufgenommen sind, das durch in die Rahmen eines dynamischen Systems aufgenommene Kenntnisse charakterisiert ist.

Modelle

Nervennetzmodelle in der künstlichen Intelligenz werden gewöhnlich künstliche Nervennetze (ANNs) genannt; das sind im Wesentlichen einfache mathematische Modelle, die eine Funktion oder einen Vertrieb zu Ende oder beide definieren, und, aber manchmal werden Modelle auch mit einem besonderen Lernalgorithmus oder dem Lernen der Regel vertraut vereinigt. Eine übliche Anwendung des Ausdrucks ANN Modell bedeutet wirklich die Definition einer Klasse solcher Funktionen (wo Mitglieder der Klasse durch unterschiedliche Rahmen, Verbindungsgewichte oder Details der Architektur wie die Zahl von Neuronen oder ihrer Konnektivität erhalten werden).

Netzfunktion

Das Wortnetz im Begriff 'künstliches Nervennetz' bezieht sich auf die Verbindungen zwischen den Neuronen in den verschiedenen Schichten jedes Systems. Ein Beispiel-System hat drei Schichten. Die erste Schicht hat Neurone eingegeben, die Daten über Synapsen zur zweiten Schicht von Neuronen, und dann über mehr Synapsen zur dritten Schicht von Produktionsneuronen senden. Kompliziertere Systeme werden mehr Schichten von Neuronen mit einigen haben, Schichten von Eingangsneuronen und Produktionsneuronen vergrößert. Die Synapsen versorgen Rahmen genannt "Gewichte", die die Daten in den Berechnungen manipulieren.

Ein ANN wird normalerweise durch drei Typen von Rahmen definiert:

  1. Das Verbindungsmuster zwischen verschiedenen Schichten von Neuronen
  2. Der Lernprozess, für die Gewichte der Verbindungen zu aktualisieren
  3. Die Aktivierungsfunktion, die einen belasteten Eingang eines Neurons zu seiner Produktionsaktivierung umwandelt.

Mathematisch wird eine Netzfunktion eines Neurons als eine Zusammensetzung anderer Funktionen definiert, die weiter als eine Zusammensetzung anderer Funktionen definiert werden können. Das kann als eine Netzstruktur mit Pfeilen günstig vertreten werden, die die Abhängigkeiten zwischen Variablen zeichnen. Ein weit verwendeter Typ der Zusammensetzung ist die nichtlineare belastete Summe, wo, wo (allgemein gekennzeichnet als die Aktivierungsfunktion) etwas vorherbestimmte Funktion wie der Tangens hyperbolicus ist. Es wird für das folgende günstig sein, sich auf eine Sammlung von Funktionen als einfach ein Vektor zu beziehen.

Diese Zahl zeichnet solch eine Zergliederung mit Abhängigkeiten zwischen durch Pfeile angezeigten Variablen. Diese können auf zwei Weisen interpretiert werden.

Die erste Ansicht ist die funktionelle Ansicht: Der Eingang wird in einen 3-dimensionalen Vektoren umgestaltet, der dann in einen 2-dimensionalen Vektoren umgestaltet wird, der schließlich darin umgestaltet wird. Auf diese Ansicht wird meistens im Zusammenhang der Optimierung gestoßen.

Die zweite Ansicht ist die Probabilistic-Ansicht: Die zufällige Variable hängt von der zufälligen Variable ab, die abhängt, der von der zufälligen Variable abhängt. Auf diese Ansicht wird meistens im Zusammenhang von grafischen Modellen gestoßen.

Die zwei Ansichten sind größtenteils gleichwertig. In jedem Fall, für diese besondere Netzarchitektur, sind die Bestandteile von individuellen Schichten von einander unabhängig (z.B, die Bestandteile dessen sind von einander gegeben ihr Eingang unabhängig). Das ermöglicht natürlich einen Grad des Parallelismus in der Durchführung.

Netze wie das vorherige werden feedforward allgemein genannt, weil ihr Graph ein geleiteter acyclic Graph ist. Netze mit Zyklen werden wiederkehrend allgemein genannt. Solche Netze werden auf diese Art gezeigt an der Oberseite von der Zahl allgemein gezeichnet, als wo gezeigt wird, abhängig auf sich zu sein. Jedoch wird eine implizierte zeitliche Abhängigkeit nicht gezeigt.

Das Lernen

Was den grössten Teil des Interesses an Nervennetzen angezogen hat, ist die Möglichkeit des Lernens. In Anbetracht einer spezifischen Aufgabe, und eine Klasse von Funktionen zu lösen, bedeutet das Lernen, eine Reihe von Beobachtungen zu verwenden, um zu finden, der die Aufgabe in einem optimalen Sinn löst.

Das hat das Definieren einer solcher Kostenfunktion zur Folge, dass, für die optimale Lösung, (d. h. hat keine Lösung Kosten weniger als die Kosten der optimalen Lösung).

Die Kostenfunktion ist ein wichtiges Konzept im Lernen, wie es ein Maß dessen ist, wie weit weg eine besondere Lösung von einer optimalen Lösung bis das Problem ist, gelöst zu werden. Lernalgorithmen durchsuchen den Lösungsraum, um eine Funktion zu finden, die die kleinstmöglichen Kosten hat.

Für Anwendungen, wo die Lösung von einigen Daten abhängig ist, müssen die Kosten eine Funktion der Beobachtungen notwendigerweise sein, sonst würden wir nichts Verbundenes mit den Daten modellieren. Es wird oft als ein statistischer definiert, zu dem nur Annäherungen gemacht werden können. Als ein einfaches Beispiel, denken Sie das Problem, das Modell zu finden, das für von etwas Vertrieb angezogene Datenpaare minimiert. In praktischen Situationen würden wir nur Proben von und so für das obengenannte Beispiel haben, wir würden nur minimieren. So werden die Kosten über eine Probe der Daten aber nicht der kompletten Datei minimiert.

Wenn eine Form der Online-Maschine, die erfährt, verwendet werden muss, wo die Kosten teilweise minimiert werden, weil jedes neue Beispiel gesehen wird. Während Online-Maschine, die erfährt, häufig verwendet wird, wenn befestigt wird, ist es im Fall am nützlichsten, wo sich der Vertrieb langsam mit der Zeit ändert. In Nervennetzmethoden wird eine Form der Online-Maschine, die erfährt, oft für begrenzten datasets verwendet.

Die Auswahl einer Kostenfunktion

Während es möglich ist, etwas willkürliche Ad-Hoc-Kostenfunktion zu definieren, oft werden besondere Kosten auch verwendet, weil es wünschenswerte Eigenschaften (wie Konvexität) hat, oder weil es natürlich aus einer besonderen Formulierung des Problems entsteht (z.B, in einer probabilistic Formulierung, kann die spätere Wahrscheinlichkeit des Modells als umgekehrte Kosten verwendet werden). Schließlich wird die Kostenfunktion von der gewünschten Aufgabe abhängen. Eine Übersicht der drei Hauptkategorien, Aufgaben zu erfahren, wird unten zur Verfügung gestellt.

Das Lernen von Paradigmen

Es gibt drei Hauptlernparadigmen, jeden entsprechend einer besonderen abstrakten Lernaufgabe. Diese werden beaufsichtigt, das unbeaufsichtigte Lern- und Verstärkungslernen erfahrend.

Das beaufsichtigte Lernen

Im beaufsichtigten Lernen werden uns eine Reihe von Beispiel-Paaren gegeben, und das Ziel ist, eine Funktion in der erlaubten Klasse von Funktionen zu finden, die die Beispiele vergleicht. Mit anderen Worten möchten wir ableiten einbezogen durch die Daten kartografisch darzustellen; die Kostenfunktion ist mit der Fehlanpassung dazwischen verbunden, dass wir kartografisch darstellen und den Daten, und es enthält implizit vorherige Kenntnisse über das Problem-Gebiet.

Allgemein verwendete Kosten sind der mittel Fehler, der versucht, den durchschnittlichen karierten Fehler zwischen der Produktion des Netzes, f (x) zu minimieren, und das Ziel y über alle Beispiel-Paare schätzt. Wenn man versucht, diese Kosten mit dem Anstieg-Abstieg für die Klasse von Nervennetzen genannt Mehrschicht perceptrons zu minimieren, erhält man den allgemeinen und wohl bekannten Rückübertragungsalgorithmus für Lehrnervennetze.

Aufgaben, die innerhalb des Paradigmas des beaufsichtigten Lernens fallen, sind Muster-Anerkennung (auch bekannt als Klassifikation) und rückwärts Gehen (auch bekannt als Funktionsannäherung). Das beaufsichtigte Lernparadigma ist auch auf folgende Daten (z.B, für die Rede und Geste-Anerkennung) anwendbar. Davon kann als das Lernen mit einem "Lehrer" in der Form einer Funktion gedacht werden, die dauerndes Feed-Back auf der Qualität von Lösungen erhalten so weit zur Verfügung stellt.

Das unbeaufsichtigte Lernen

Im unbeaufsichtigten Lernen werden einige Daten gegeben und die Kostenfunktion, minimiert zu werden, der jede Funktion der Daten und der Produktion des Netzes sein kann.

Die Kostenfunktion ist von der Aufgabe abhängig (was wir versuchen zu modellieren), und unsere a priori Annahmen (die impliziten Eigenschaften unseres Modells, seiner Rahmen und der beobachteten Variablen).

Als ein triviales Beispiel, denken Sie das Modell, wo eine Konstante und die Kosten ist. Minderung dieser Kosten wird uns geben ein Wert davon ist den bösartigen von den Daten gleich. Die Kostenfunktion kann viel mehr kompliziert sein. Seine Form hängt von der Anwendung ab: Zum Beispiel in der Kompression konnte es mit der gegenseitigen Information zwischen verbunden sein und, wohingegen im statistischen Modellieren es mit der späteren Wahrscheinlichkeit des Modells gegeben die Daten verbunden sein konnte. (Bemerken Sie, dass in beiden jener Beispiele jene Mengen maximiert aber nicht minimiert würden).

Aufgaben, die innerhalb des Paradigmas des unbeaufsichtigten Lernens fallen, sind in allgemeinen Bewertungsproblemen; die Anwendungen schließen das Sammeln, die Bewertung des statistischen Vertriebs, der Kompression und der Entstörung ein.

Das Verstärkungslernen

Im Verstärkungslernen werden Daten gewöhnlich nicht gegeben, aber durch Wechselwirkungen eines Agenten mit der Umgebung erzeugt. An jedem Punkt rechtzeitig führt der Agent eine Handlung durch, und die Umgebung erzeugt eine Beobachtung und sofortige Kosten, gemäß einigen (gewöhnlich unbekannt) Dynamik. Das Ziel ist, eine Politik zu entdecken, um Handlungen auszuwählen, der ein Maß langfristiger Kosten minimiert; d. h., die erwarteten kumulativen Kosten. Die Dynamik der Umgebung und die langfristigen Kosten für jede Politik sind gewöhnlich unbekannt, aber können geschätzt werden.

Mehr formell wird die Umgebung als ein Entscheidungsprozess von Markov (MDP) mit Staaten und Handlungen mit dem folgenden Wahrscheinlichkeitsvertrieb modelliert: Der sofortige Kostenvertrieb, der Beobachtungsvertrieb und der Übergang, während eine Politik als bedingter Vertrieb über Handlungen gegeben die Beobachtungen definiert wird. Genommen zusammen definieren die zwei eine Kette von Markov (MC). Das Ziel ist, die Politik zu entdecken, die die Kosten minimiert; d. h., der Festordner, für den die Kosten minimal sind.

ANNs werden oft in der Verstärkung verwendet, als ein Teil des gesamten Algorithmus erfahrend. Dynamische Programmierung ist mit ANNs (Neuro dynamische Programmierung) von Bertsekas und Tsitsiklis verbunden und auf mehrdimensionale nichtlineare Probleme wie diejenigen angewandt worden, die an der Fahrzeugroutenplanung oder dem Bodenschätze-Management wegen der Fähigkeit von ANNs beteiligt sind, Verluste der Genauigkeit selbst wenn zu lindern, die discretization Bratrost-Dichte reduzierend, für der Lösung der ursprünglichen Kontrollprobleme numerisch näher zu kommen.

Aufgaben, die innerhalb des Paradigmas der Verstärkung fallen, die erfährt, sind Kontrollprobleme, Spiele und andere folgende Entscheidungsbilden-Aufgaben.

Das Lernen von Algorithmen

Ausbildung ein Nervennetzmodell bedeutet im Wesentlichen, ein Modell vom Satz von erlaubten Modellen auszuwählen (oder, in einem Fachwerk von Bayesian, einen Vertrieb über den Satz von erlaubten Modellen bestimmend), der das Kostenkriterium minimiert. Es gibt zahlreiche für Lehrnervennetzmodelle verfügbare Algorithmen; die meisten von ihnen können als eine aufrichtige Anwendung der Optimierungstheorie und statistischen Bewertung angesehen werden.

Die meisten in künstlichen Lehrnervennetzen verwendeten Algorithmen verwenden eine Form des Anstieg-Abstiegs. Das wird durch die einfache Einnahme der Ableitung der Kostenfunktion in Bezug auf die Netzrahmen und dann das Ändern jener Rahmen in einer Anstieg-zusammenhängenden Richtung getan.

Entwicklungsmethoden, das vorgetäuschte Ausglühen, die Erwartungsmaximierung, die nichtparametrischen Methoden und die Partikel-Schwarm-Optimierung sind einige allgemein verwendete Methoden für Lehrnervennetze.

Die Beschäftigung künstlicher Nervennetze

Vielleicht ist der größte Vorteil von ANNs ihre Fähigkeit, als ein willkürlicher Funktionsannäherungsmechanismus verwendet zu werden, der von beobachteten Daten 'erfährt'. Jedoch ist das Verwenden von ihnen nicht so aufrichtig, und ein relativ gutes Verstehen der zu Grunde liegenden Theorie ist notwendig.

  • Wahl des Modells: Das wird von der Datendarstellung und der Anwendung abhängen. Allzu komplizierte Modelle neigen dazu, zu Problemen mit dem Lernen zu führen.
  • Das Lernen des Algorithmus: Es gibt zahlreiche Umtausche zwischen dem Lernen von Algorithmen. Fast jeder Algorithmus wird gut mit den richtigen Hyperrahmen für die Ausbildung auf einer besonderen festen Datei arbeiten. Jedoch verlangen das Auswählen und die Einstimmung eines Algorithmus für die Ausbildung auf ungesehenen Daten einen bedeutenden Betrag des Experimentierens.
  • Robustheit: Wenn das Modell, die Kostenfunktion und das Lernen des Algorithmus passend ausgewählt werden, kann der resultierende ANN äußerst robust sein.

Mit der richtigen Durchführung kann ANNs natürlich im Online-Lernen und den großen Datei-Anwendungen verwendet werden. Ihre einfache Durchführung und die Existenz von größtenteils lokalen in der Struktur ausgestellten Abhängigkeiten berücksichtigen schnell, parallele Durchführungen in der Hardware.

Anwendungen

Das Dienstprogramm von künstlichen Nervennetzmodellen liegt in der Tatsache, dass sie verwendet werden können, um eine Funktion aus Beobachtungen abzuleiten. Das ist in Anwendungen besonders nützlich, wo die Kompliziertheit der Daten oder Aufgabe das Design solch einer Funktion mit der Hand unpraktisch macht.

Wahre Anwendungen

Die Aufgaben künstliche Nervennetze werden angewandt, um dazu zu neigen, innerhalb der folgenden breiten Kategorien zu fallen:

  • Funktionsannäherung oder Regressionsanalyse, einschließlich der Zeitreihe-Vorhersage, der Fitnessannäherung und des Modellierens.
  • Klassifikation, einschließlich Musters und Folge-Anerkennung, Neuheitsentdeckung und des folgenden Entscheidungsbildens.
  • Datenverarbeitung, einschließlich der Entstörung, des Sammelns, blendet Quelltrennung und Kompression.
  • Robotertechnik, einschließlich der Richtung von Handhabern, Computer numerische Kontrolle.

Anwendungsgebiete schließen Systemidentifizierung und Kontrolle (Fahrzeugkontrolle, Prozesssteuerung, Bodenschätze-Management), Quant-Chemie, Spielspielen und das Entscheidungsbilden (backgammon, Schach, Schürstange), Muster-Anerkennung (Radarsysteme, Gesichtsidentifizierung, Gegenstand-Anerkennung und mehr), Folge-Anerkennung (Geste, Rede, handschriftliche Textanerkennung), medizinische Diagnose, Finanzanwendungen (automatisierte Handelssysteme), Datenbergwerk (oder Kenntnisse-Entdeckung in Datenbanken, "KDD"), Vergegenwärtigung ein und schicken Spam-Entstörung per E-Mail.

Künstliche Nervennetze sind auch verwendet worden, um mehrere Krebse zu diagnostizieren. Das gestützte hybride Lungenkrebs-Entdeckungssystem eines ANN genannt HLND verbessert die Genauigkeit der Diagnose und die Geschwindigkeit der Lungenkrebs-Röntgenologie. Diese Netze sind auch verwendet worden, um Vorsteherdrüse-Krebs zu diagnostizieren. Die Diagnose kann verwendet werden, um spezifische Modelle genommen von einer großen Gruppe von Patienten im Vergleich zur Information eines gegebenen Patienten zu machen. Die Modelle hängen von Annahmen über Korrelationen von verschiedenen Variablen nicht ab. Krebs von Colorectal ist auch mit den Nervennetzen vorausgesagt worden. Nervennetze konnten das Ergebnis für einen Patienten mit colorectal Krebs mit viel mehr Genauigkeit voraussagen als die aktuellen klinischen Methoden. Nach der Ausbildung konnten die Netze vielfache geduldige Ergebnisse von Einrichtungen ohne Beziehung voraussagen.

Nervennetze und neuroscience

Theoretischer und rechenbetonter neuroscience ist das Feld, das mit der theoretischen Analyse und dem rechenbetonten Modellieren von biologischen Nervensystemen betroffen ist. Da Nervensysteme vertraut mit kognitiven Prozessen und Verhalten verbunden sind, ist das Feld nah mit dem kognitiven und Verhaltensmodellieren verbunden.

Das Ziel des Feldes ist, Modelle von biologischen Nervensystemen zu schaffen, um zu verstehen, wie biologische Systeme arbeiten. Um dieses Verstehen zu gewinnen, mühen sich neuroscientists, eine Verbindung zwischen beobachteten biologischen Prozessen (Daten), biologisch plausible Mechanismen für die Nervenverarbeitung und das Lernen (biologische Nervennetzmodelle) und Theorie (statistische Lerntheorie und Informationstheorie) zu machen.

Typen von Modellen

Viele Modelle werden im Feld verwendet, das an verschiedenen Niveaus der Abstraktion und des Modellierens verschiedener Aspekte von Nervensystemen definiert ist. Sie erstrecken sich von Modellen des Kurzzeitverhaltens von individuellen Neuronen, Modellen dessen, wie die Triebkräfte des Nervenschaltsystemes aus Wechselwirkungen zwischen individuellen Neuronen und schließlich zu Modellen dessen entstehen, wie Verhalten aus abstrakten Nervenmodulen entstehen kann, die ganze Subsysteme vertreten. Diese schließen Modelle der langfristigen und kurzfristigen Knetbarkeit, Nervensysteme und ihrer Beziehungen zum Lernen und Gedächtnis vom individuellen Neuron bis das Systemniveau ein.

Aktuelle Forschung

Während anfängliche Forschung größtenteils mit den elektrischen Eigenschaften von Neuronen betroffen worden war, ist ein besonders wichtiger Teil der Untersuchung in den letzten Jahren die Erforschung der Rolle von neuromodulators wie dopamine, Azetylcholin und serotonin auf dem Verhalten und Lernen gewesen.

Modelle von Biophysical, wie BCM-Theorie, sind im Verstehen von Mechanismen für die synaptic Knetbarkeit wichtig gewesen, und haben Anwendungen sowohl in der Informatik als auch in neuroscience gehabt. Forschung ist im Verstehen der rechenbetonten Algorithmen andauernd, die im Gehirn, mit einigen neuen biologischen Beweisen für radiale Basisnetze und Nervenrückübertragung als Mechanismen verwendet sind, um Daten zu bearbeiten.

Rechenbetonte Geräte sind in CMOS sowohl für die biophysical Simulation als auch für Neuromorphic-Computerwissenschaft geschaffen worden. Neuere Anstrengungen zeigen Versprechung, um nanodevices für sehr in großem Umfang Hauptteilanalysen und Gehirnwindung zu schaffen. Wenn erfolgreich, diese konnte Anstrengung in einem neuen Zeitalter der Nervencomputerwissenschaft hineinführen, die ein Schritt außer der Digitalcomputerwissenschaft ist, weil es davon abhängt, anstatt der Programmierung zu erfahren, und weil es im Wesentlichen Analogon aber nicht digital ist, wenn auch der erste instantiations tatsächlich mit CMOS Digitalgeräten sein kann.

Nervennetzsoftware

Nervennetzsoftware wird verwendet, um künstliche Nervennetze, biologische Nervennetze und in einigen Fällen eine breitere Reihe von anpassungsfähigen Systemen vorzutäuschen, zu erforschen, zu entwickeln und anzuwenden.

Typen von künstlichen Nervennetzen

Künstliche Nervennetztypen ändern sich von denjenigen mit nur einer oder zwei Schichten der einzelnen Richtungslogik, zum komplizierten Mehreingang viele Richtungsfeed-Back-Schleife und Schichten. Im Großen und Ganzen verwenden diese Systeme Algorithmen in ihrer Programmierung, um Kontrolle und Organisation ihrer Funktionen zu bestimmen. Einige können so einfach sein wie eine Neuron-Schicht mit einem Eingang und einer Produktion, und andere können komplizierte Systeme wie dANN nachahmen, der chromosomale DNA durch Größen am Zellniveau in künstliche Organismen nachahmen und Fortpflanzung, Veränderung und Bevölkerungsgrößen vortäuschen kann.

Die meisten Systeme verwenden "Gewichte", um die Rahmen des Durchflusses und der unterschiedlichen Verbindungen zu den Neuronen zu ändern. Künstliche Nervennetze können autonom sein und durch den Eingang von der Außenseite "Lehrer" erfahren oder sogar vom geschriebenen in Regeln selbstunterrichtend.

Theoretische Eigenschaften

Rechenbetonte Macht

Mehrschicht perceptron (MLP) ist eine universale Funktion approximator, wie bewiesen, durch den Lehrsatz von Cybenko. Jedoch ist der Beweis bezüglich der Zahl von Neuronen erforderlich oder die Einstellungen der Gewichte nicht konstruktiv.

Die Arbeit von Hava Siegelmann und Eduardo D. Sontag hat einen Beweis zur Verfügung gestellt, dass eine spezifische wiederkehrende Architektur mit vernünftigen geschätzten Gewichten (im Vergleich mit der vollen Präzision auf die reelle Zahl geschätzte Gewichte) die Vollmacht einer Universalen Turing Maschine mit einer begrenzten Zahl von Neuronen und geradlinigen Standardverbindungen hat. Sie haben weiter gezeigt, dass der Gebrauch von vernunftwidrigen Werten für Gewichte auf eine Maschine mit der super-Turing Macht hinausläuft.

Kapazität

Künstliche Nervennetzmodelle haben ein Eigentum genannt 'Kapazität', die grob ihrer Fähigkeit entspricht, jede gegebene Funktion zu modellieren. Es ist im Wert von der Information verbunden, die im Netz und zum Begriff der Kompliziertheit versorgt werden kann.

Konvergenz

Nichts kann im Allgemeinen über die Konvergenz gesagt werden, da sie von mehreren Faktoren abhängt. Erstens, dort kann viele lokale Minima bestehen. Das hängt von der Kostenfunktion und dem Modell ab. Zweitens, wie man versichern könnte, ist die verwendete Optimierungsmethode wenn weit weg von einem lokalen Minimum nicht zusammengelaufen. Drittens, für eine sehr große Datenmenge oder Rahmen, werden einige Methoden unpraktisch. Im Allgemeinen ist es gefunden worden, dass theoretische Garantien bezüglich der Konvergenz ein unzuverlässiges Handbuch zur praktischen Anwendung sind.

Generalisation und Statistik

In Anwendungen, wo die Absicht ist, ein System zu schaffen, das gut in ungesehenen Beispielen verallgemeinert, ist das Problem der Überausbildung erschienen. Das entsteht in spiraligen oder überangegebenen Systemen, wenn die Kapazität des Netzes bedeutsam die erforderlichen freien Rahmen überschreitet. Es gibt zwei Schulen des Gedankens, um dieses Problem zu vermeiden: Das erste ist, Quer-Gültigkeitserklärung und ähnliche Techniken zu verwenden, um für die Anwesenheit der Überausbildung und optimal ausgesuchten Hyperrahmen zu überprüfen, zum Beispiel, den Generalisationsfehler zu minimieren. Das zweite ist, eine Form von regularization zu verwenden. Das ist ein Konzept, das natürlich in einem probabilistic (Bayesian) Fachwerk erscheint, wo der regularization durch das Auswählen einer größeren vorherigen Wahrscheinlichkeit über einfachere Modelle durchgeführt werden kann; sondern auch in der statistischen Lerntheorie, wo die Absicht ist, mehr als zwei Mengen zu minimieren: die 'empirische Gefahr' und die 'Strukturgefahr', die grob dem Fehler über den Lehrsatz und dem vorausgesagten Fehler in ungesehenen Daten wegen der Überanprobe entspricht.

Beaufsichtigte Nervennetze, die eine MSE-Kostenfunktion verwenden, können formelle statistische Methoden verwenden, das Vertrauen des erzogenen Modells zu bestimmen. Der MSE auf einem Gültigkeitserklärungssatz kann als eine Schätzung für die Abweichung verwendet werden. Dieser Wert kann dann verwendet werden, um das Vertrauensintervall der Produktion des Netzes zu berechnen, eine Normalverteilung annehmend. Eine Vertrauensanalyse hat diesen Weg gemacht ist statistisch gültig, so lange der Produktionswahrscheinlichkeitsvertrieb bleibt, werden dasselbe und das Netz nicht modifiziert.

Durch das Zuweisen einer softmax Aktivierungsfunktion auf der Produktionsschicht des Nervennetzes (oder ein softmax Bestandteil in einem teilbasierten Nervennetz) für kategorische Zielvariablen können die Produktionen als spätere Wahrscheinlichkeiten interpretiert werden. Das ist in der Klassifikation sehr nützlich, weil sie ein Gewissheitsmaß auf Klassifikationen gibt.

Die softmax Aktivierungsfunktion ist:

:

Dynamische Eigenschaften

Verschiedene Techniken, die ursprünglich entwickelt sind, um unordentliche magnetische Systeme (d. h., das Drehungsglas) zu studieren, sind auf einfache Nervennetzarchitekturen wie das Netz von Hopfield erfolgreich angewandt worden. Die einflussreiche Arbeit von E. Gardner und B. Derrida hat viele interessante Eigenschaften über perceptrons mit reellwertigen synaptic Gewichten offenbart, während später durch W. Krauth arbeiten und M. Mezard diese Grundsätze zu binär geschätzten Synapsen erweitert hat.

Nachteile

Ein Nachteil zum Verwenden künstlicher Nervennetze, besonders in der Robotertechnik, besteht darin, dass sie eine große Ungleichheit der Ausbildung für die wirkliche Operation verlangen. Dean Pomerleau, in seiner Forschung, die in der Zeitung "Wissensbasierte Ausbildung von Künstlichen Nervennetzen für das Autonome Roboter-Fahren präsentiert ist," verwendet ein Nervennetz, um ein robotic Fahrzeug zu trainieren, vielfache Typen von Straßen (einzelne Gasse, Mehrgasse, Schmutz, usw.) voranzutreiben. Ein großer Betrag seiner Forschung wird (1) extrapolierende vielfache Lehrdrehbücher von einer einzelnen Lehrerfahrung, und (2) Bewahrung vorige Lehrungleichheit gewidmet, so dass das System übererzogen nicht wird (wenn, zum Beispiel, ihm eine Reihe von Biegungen nach rechts geboten wird - sollte es nicht lernen, immer nach rechts abzubiegen). Diese Probleme sind in Nervennetzen üblich, die von unter einem großen Angebot an Antworten entscheiden müssen.

A. K. Dewdney, ein ehemaliger Wissenschaftlicher amerikanischer Kolumnist, hat 1997 geschrieben, "Obwohl Nervennetze wirklich einige Spielzeugprobleme beheben, werden ihre Mächte der Berechnung so beschränkt, dass ich überrascht bin, dass jeder sie als ein allgemeines problemlösendes Werkzeug ernst nimmt." (Dewdney, p. 82)

Argumente für die Position von Dewdney sind, dass, um große und wirksame Software Nervennetze durchzuführen, viel Verarbeitungs- und Lagerungsmittel begangen werden müssen. Während das Gehirn Hardware zur Aufgabe schneidern ließ, Signale durch einen Graphen von Neuronen zu bearbeiten, kann das Vortäuschen sogar einer am meisten vereinfachten Form auf der Technologie von Von Neumann einen NN Entwerfer dazu zwingen, viele Millionen von Datenbankreihen für seine Verbindungen zu füllen - der zu übermäßigem RAM und HD Notwendigkeiten führen kann. Außerdem wird der Entwerfer von NN Systemen häufig die Übertragung von Signalen durch viele dieser Verbindungen und ihrer verbundenen Neurone vortäuschen müssen - der häufig mit unglaublichen Beträgen der Zentraleinheitsverarbeitungsmacht und Zeit verglichen werden muss. Während Nervennetze häufig wirksame Programme nachgeben, tun sie zu häufig so auf Kosten der Zeit und Geldleistungsfähigkeit.

Argumente gegen die Position von Dewdney sind, dass Nervennetze erfolgreich verwendet worden sind, um viele komplizierte und verschiedene Aufgaben, im Intervall vom autonom fliegenden Flugzeug zum Ermitteln des Kreditkartenschwindels zu lösen. Technologieschriftsteller Roger Bridgman hat sich über die Behauptungen von Dewdney über Nervennetze geäußert:

Einige andere Kritiken sind aus Gläubigern von hybriden Modellen gekommen (Nervennetze und symbolische Annäherungen verbindend). Sie verteidigen das Vermischen dieser zwei Annäherungen und glauben, dass hybride Modelle die Mechanismen des Menschenverstandes (Sonne und Büchermensch 1994) besser gewinnen können.

Galerie

Image:Single_layer_ann.svg|A einzelne Schicht feedforward künstliches Nervennetz. Pfeile, die daraus entstehen, werden für die Klarheit weggelassen. Es gibt P-Eingänge zu diesem Netz und q Produktionen. Es gibt keine Aktivierungsfunktion (oder gleichwertig die Aktivierungsfunktion ist). In diesem System, dem Wert der qth Produktion, würde als berechnet

Image:Two_layer_ann.svg|A künstliches feedforward Zweischichtnervennetz.

Image:Artificial_neural_network.svg

Image:Ann_dependency_graph.png

</Galerie>

Siehe auch

  • 20Q
  • Anpassungsfähige Klangfülle-Theorie
  • Künstliches Leben
  • Assoziatives Gedächtnis
  • Autoencoder
  • Biologisch begeisterte Computerwissenschaft
  • Blaues Gehirn
  • Kaskadekorrelation
  • Klinisches Entscheidungshilfe-System
  • Expertensystem von Connectionist
  • Entscheidungsbaum
  • Expertensystem
  • Fuzzy-Logik
  • Genausdruck, programmierend
  • Genetischer Algorithmus
  • In Situ anpassungsfähige Tabellarisierung
  • JOONE:another Nervennetz, das in Java programmiert ist
  • Geradlinige Diskriminanten-Analyse
  • Logistisches rückwärts Gehen
  • Memristor
  • Nächster Nachbar (Muster-Anerkennung)
  • Neuroevolution, NeuroEvolution von vermehrten Topologien (ORDENTLICH), HyperNEAT
  • Nervenbenzin
  • Ni1000 Span
  • Optisches Nervennetz
  • Prophetische Analytik
  • Systolic ordnen
  • Verzögertes Nervennetz (TDNN)

Bibliografie

  • Sieh bitte Kapitel 3
  • Bischof, C.M. (1995) Nervennetze für die Muster-Anerkennung, Oxford: Presse der Universität Oxford. Internationale Standardbuchnummer 0-19-853849-9 (eingebundenes Buch) oder internationale Standardbuchnummer 0-19-853864-2 (Paperback)
  • Cybenko, G.V. (1989). Annäherung durch Überlagerungen einer Funktion von Sigmoidal, Mathematik von Kontrolle, Signalen, und Systemen, Vol. 2 Seiten 303-314. elektronische Version
  • Duda, R.O. Hirsch, P.E. Storch, D.G. (2001) Muster-Klassifikation (2. Ausgabe), Wiley, internationale Standardbuchnummer 0-471-05669-3
  • Gurney, K. (1997) Eine Einführung in Nervennetze London: Routledge. Internationale Standardbuchnummer 1-85728-673-1 (eingebundenes Buch) oder internationale Standardbuchnummer 1-85728-503-4 (Paperback)
  • Haykin, S. (1999) Nervennetze: Ein Umfassendes Fundament, Prentice Hall, internationale Standardbuchnummer 0-13-273350-1
  • Fahlman, S, Lebiere, C (1991). Die Kaskadekorrelationslernarchitektur, die für das Nationale Wissenschaftsfundament, Vertragsnummer EET-8716324 und Verteidigung Fortgeschrittene Forschungsprojektagentur (DOD), ARPA Auftrag Nr. 4976 laut des Vertrags F33615 87 C 1499 geschaffen ist. elektronische Version
  • Hertz, J., Palmer, R.G. Krogh. A.S. (1990) Einführung in die Theorie der Nervenberechnung, Bücher von Perseus. Internationale Standardbuchnummer 0-201-51560-1
  • Lawrence, Jeanette (1994) Einführung in Nervennetze, Kalifornien Wissenschaftliche Softwarepresse. Internationale Standardbuchnummer 1-883157-00-5
  • Master, Timothy (1994) Signal und Image, das mit Nervennetzen, Internationale Standardbuchnummer von John Wiley & Sons, Inc 0-471-04963-8 In einer Prozession geht
  • Vorgebirge, Erik. 2005. SPIDA-Web. Bewahrung in der Praxis 6 (1):35-36. Auf dem Gebrauch von künstlichen Nervennetzen in der Art-Taxonomie.
  • Ripley, Brian D. (1996) Muster-Anerkennung und Nervennetze, Cambridge
  • Siegelmann, H.T. und Sontag, E.D. (1994). Analoge Berechnung über Nervennetze, Theoretische Informatik, v. 131, Nr. 2, Seiten 331-360. elektronische Version
  • Sergios Theodoridis, Konstantinos Koutroumbas (2009) "Muster-Anerkennung", 4. Ausgabe, Akademische Presse, internationale Standardbuchnummer 978-1-59749-272-0.
  • Schmied, Murray (1993) Nervennetze für das Statistische Modellieren, Van Nostrand Reinhold, die internationale Standardbuchnummer 0-442-01310-8
  • Wasserman, Philip (1993) Fortgeschrittene Methoden in der Nervencomputerwissenschaft, Van Nostrand Reinhold, internationalen Standardbuchnummer 0-442-00461-3

Weiterführende Literatur

Links


Am 24. November / Nahrung
Impressum & Datenschutz