Philosophie Lexikon der Argumente

Home Screenshot Tabelle Begriffe

Autor/Titel Begriff Zusammenfassung Metadaten

Peter Norvig über Künstliche Neuronale Netze – Lexikon der Argumente

Norvig I 728
Künstliche Neuronale Netze/Norvig/Russell: Neuronale Netze bestehen aus Knoten oder Einheiten (units) (...), die durch gerichtete Verbindungen miteinander verbunden sind. Eine Verbindung von der Einheit i zur Einheit j dient dazu, die Aktivierung ai von i nach j auszubreiten. Jeder Verbindung ist außerdem ein numerisches Gewicht wi,j zugeordnet, das die Stärke und das Vorzeichen der Verbindung bestimmt. Wie in linearen Regressionsmodellen hat jede Einheit einen Dummy-Input a0 =1 mit einem zugehörigen Gewicht w0,j .
Norvig I 729
Perzeptrone: Die Aktivierungsfunktion g ist typischerweise entweder ein hard threshold (...), in diesem Fall wird die Einheit Perzeptron genannt, oder eine logistische Funktion (...), in diesem Fall wird manchmal der Begriff sigmoidisches Perzeptron verwendet. Beide dieser nichtlinearen Aktivierungsfunktionen gewährleisten die wichtige Eigenschaft, dass das gesamte Netz von Einheiten eine nichtlineare Funktion repräsentieren kann (...).
Formen eines Netzes: a) Ein feedforward network (vorwärtsgerichtetes Netz) hat Verbindungen nur in einer Richtung, d.h. es bildet einen gerichteten azyklischen Graphen. Jeder Knoten empfängt Input von "vorgelagerten" Knoten und liefert Output an "nachgelagerte" Knoten; es gibt keine Schleifen. Ein feedforward network stellt eine Funktion seines aktuellen Inputs dar; es hat also keinen anderen internen Zustand als die Gewichte selbst.
b) Ein recurrent network (rekurrentes Netz) hingegen speist seine Outputs wieder in seine eigenen Inputs ein. Das bedeutet, dass die Aktivierungslevel des Netzes ein dynamisches System bilden, das einen stabilen Zustand erreichen oder Oszillationen oder sogar chaotisches Verhalten zeigen kann.
Schichten: a) feedforward networks sind in der Regel schichtweise angeordnet, sodass jede Einheit nur Input von Einheiten der unmittelbar vorhergehenden Schicht erhält.
b) Mehrschichtige Netzwerke, die eine oder mehrere Schichten von verborgenen Einheiten haben, die nicht mit den Outputs des Netzwerks verbunden sind.
Training/Lernen: Wenn wir z.B. ein Netz trainieren wollen, zwei Input-Bits, jeweils 0 oder 1, zu addieren, benötigen wir einen Output für das Summen-Bit und einen für das Carry-Bit. Auch wenn das Lernproblem die Klassifizierung in mehr als zwei Klassen umfasst, z.B. wenn wir lernen, Bilder von handgeschriebenen Ziffern zu kategorisieren, ist es üblich, eine Output-Einheit für jede Klasse zu verwenden.
Norvig I 731
Jede gewünschte Funktionalität kann durch die Verbindung einer großen Anzahl von Einheiten zu (möglicherweise rekurrenten) Netzen von beliebiger Tiefe erreicht werden. Das Problem war, dass niemand wusste, wie man solche Netze trainieren kann.
Dies erweist sich als ein geringfügiges Problem, wenn man sich ein Netz auf die richtige Art und Weise vorstellt: als Funktion hw(x), die durch die Gewichte w parametrisiert wird.
Norvig I 732
(...) wir haben den Output als Funktion der Inputs und der Gewichte klassifiziert. (...) weil die durch ein Netz repräsentierte Funktion hochgradig nichtlinear sein kann - nämlich aus verschachtelten nichtlinearen soft threshold functions bestehend - können wir neuronale Netzwerke als ein Werkzeug zur Durchführung nichtlinearer Regression betrachten.
Norvig I 736
Lernen in neuronalen Netzen: Genau wie bei >Bayesschen Netzen müssen wir auch hier verstehen, wie wir die beste Netzstruktur finden. Wenn wir ein Netz wählen, das zu groß angelegt ist, kann es sich alle Beispiele durch die Erstellung einer großen Lookup-Tabelle einprägen, aber es lässt sich nicht unbedingt gut auf Inputs verallgemeinern, die noch nie zuvor beobachtet wurden.
Norvig I 737
Optimal brain damage: Der Algorithmus für optimal brain damage beginnt mit einem vollständig verbundenen Netz und entfernt dann dessen Verbindungen. Nachdem das Netz zum ersten Mal trainiert wurde, identifiziert ein informationstheoretischer Ansatz eine optimale Auswahl von Verbindungen, die entfernt werden können. Das Netzwerk wird dann neu trainiert, und wenn seine Leistung nicht nachgelassen hat, wird der Prozess wiederholt. Neben dem Entfernen von Verbindungen ist es auch möglich, Einheiten zu entfernen, die nicht viel zum Ergebnis beitragen.
Parametrische Modelle: Ein Lernmodell, das Daten mit einem Set von Parametern fester Größe (unabhängig von der Anzahl der Trainingsbeispiele) zusammenfasst, wird als parametrisches Modell bezeichnet. Egal, wie viele Daten man an ein parametrisches Modell weitergibt, es wird seine Meinung darüber, wie viele Parameter es benötigt, nicht ändern.
Nichtparametrische Modelle: Ein nichtparametrisches Modell ist ein Modell, das nicht durch ein begrenztes Set von Parametern charakterisiert werden kann. Nehmen wir zum Beispiel an, dass jede von uns erstellte Hypothese einfach alle Trainingsbeispiele in sich aufnimmt und zur Vorhersage des nächsten Beispiels verwendet. Eine solche Gruppe von Hypothesen wäre nichtparametrisch, weil die effektive Anzahl der Parameter unbegrenzt ist - sie wächst mit der Anzahl der Beispiele. Dieser Ansatz wird als instanzbasiertes Lernen oder memory-basiertes Lernen bezeichnet. Die einfachste instanzbasierte Lernmethode ist das Suchen in einer Tabelle: Nehmen Sie alle Trainingsbeispiele, packen Sie sie in eine Lookup-Tabelle und schauen Sie dann nach, wenn Sie nach h(x) gefragt werden, ob x in der Tabelle steht; (...).
Norvig I 738
Wir können das Suchen in Tabellen mit einer leichten Abwandlung verbessern: Finde bei einer Suchanfrage xq die k Beispiele, die am nächsten an xq liegen. Dies wird als k-nearest neighbors lookup bezeichnet. ((s) Vgl. >Lokal/global/Philosophische Theorien).
Norvig I 744
Support Vector Machine/SVM: Das Support Vector Machine bzw. SVM Framework ist derzeit der beliebteste Ansatz für kontrolliertes Lernen "von der Stange": Wenn Sie kein spezielles Vorwissen über einen Bereich haben, dann ist die SVM eine ausgezeichnete Methode für ein erstes Austesten.
Eigenschaften von SVMs:
1. SVMs konstruieren einen maximum margin separator - eine Grenze für Entscheidungen mit dem größtmöglichen Abstand zu den Beispielpunkten. Dies hilft ihnen dabei, gut zu verallgemeinern.
2. SVMs erzeugen eine linear separating hyperplane, aber sie haben die Fähigkeit, die Daten mithilfe des sogenannten Kernel-Tricks in einen höherdimensionalen Raum einzubetten.
3. SVMs sind eine nichtparametrische Methode - sie behalten Trainingsbeispiele bei und müssen sie potenziell alle speichern. Jedoch behalten sie in der Praxis oft nur einen kleinen Bruchteil der Anzahl der Beispiele bei - mitunter nur ein kleine Konstante mulipliziert mit der Anzahl der Dimensionen.
Norvig I 745
Anstatt den erwarteten empirischen Verlust von Trainingsdaten zu minimieren, versuchen SVMs, den erwarteten Generalisierungsverlust zu minimieren. Wir wissen nicht, wo die bisher noch nicht sichtbaren Punkte liegen könnten, aber unter der probabilistischen Annahme, dass sie aus der gleichen Verteilung wie die zuvor gesehenen Beispiele stammen, gibt es einige Argumente aus der Theorie des computergestützten Lernens (...), die darauf hindeuten, dass wir den Generalisierungsverlust minimieren, indem wir den separator wählen, der am weitesten von den bisher gesehenen Beispielen entfernt ist.
Norvig I 748
Ensemble Learning: >Lernen/KI-Forschung.
Norvig I 757
Die lineare Regression ist ein weit verbreitetes Modell. Die optimalen Parameter eines Modells der linearen Regression können durch eine gradient descent search gefunden oder exakt berechnet werden.
Ein linearer Klassifikator mit einem hard threshold - auch als Perzeptron bekannt - kann durch eine einfache Regel zur Aktualisierung der Gewichte so trainiert werden, dass er zu Daten passt, welche linear trennbar sind. In anderen Fällen konvergiert die Regel nicht.
Norvig I 758
Die logistische Regression ersetzt den hard threshold des Perzeptrons durch einen soft threshold, der durch eine logistische Funktion definiert wird. Der gradient descent funktioniert sogar bei verrauschten Daten, die nicht linear trennbar sind, gut.
Norvig I 760
Geschichte: Der Begriff der logistischen Funktion stammt von Pierre-Francois Verhulst (1804-1849), einem Statistiker, der die Kurve zur modellhaften Darstellung des Bevölkerungswachstums mit begrenzten Ressourcen verwendete, was ein realistischeres Modell darstellt als das von Thomas Malthus vorgeschlagene ungezwungene geometrische Wachstum.
Verhulst nannte sie die courbe logistique wegen ihrer Beziehung zur logarithmischen Kurve. Der Begriff der Regression geht auf Francis Galton zurück, einen Statistiker des 19. Jahrhunderts, Cousin von Charles Darwin und Initiator der Forschungsfelder Meteorologie, Fingerabdruckanalyse und statistische Korrelation, der ihn im Sinne einer Regression zum Mittelwert verwendete. Die Bezeichnung Fluch der Dimensionalität stammt von Richard Bellman (1961)(1).
Die logistische Regression kann mit dem gradient descent oder mit dem Newton-Raphson-Verfahren gelöst werden (Newton, 1671(2); Raphson, 1690(3)). Eine Variante des Newtonverfahrens namens L-BFGS wird manchmal für großdimensionale Probleme verwendet; das L steht für "limited memory", d.h. es vermeidet die gleichzeitige Erstellung der vollständigen Matrizen und erstellt stattdessen Teile von ihnen während des Prozesses. BFGS sind die Initialen der Autoren (Byrd et al., 1995)(4).
Die Ideen hinter den Kernel-Maschinen stammen von Aizerman et al. (1964)(5) (die auch den Kernel-Trick einführten), aber die volle Entwicklung der Theorie ist Vapnik und seinen Kollegen zu verdanken (Boser et al., 1992)(6). SVMs wurden mit der Einführung des Soft Margin Classifiers zur Handhabung verrauschter Daten in einer Arbeit, die 2008 mit dem ACM Theory and Practice Award ausgezeichnet wurde (Cortes und Vapnik, 1995)(7), und mit dem Algorithmus der Sequential Minimal Optimization (SMO) zur effizienten Lösung von SVM-Problemen mithilfe der quadratischen Programmierung (Platt, 1999)(8) praktisch umgesetzt. SVMs haben sich als sehr populär und effektiv für Aufgaben wie die Textkategorisierung (Joachims, 2001)(9), die Computergenomik (Cristianini und Hahn, 2007)(10) und die Verarbeitung natürlicher Sprache, wie z-B. die Erkennung handschriftlicher Ziffern von DeCoste und Schölkopf (2002)(11), erwiesen.
Als Teil dieses Prozesses wurden viele neue kernels entwickelt, die mit Zeichenketten und -bäumen sowie anderen nicht-numerischen Datentypen arbeiten. Eine verwandte Technik, die ebenfalls den Kernel-Trick verwendet, um implizit einen exponentiellen Merkmalsraum darzustellen, ist das voted perceptron (Freund und Schapire, 1999(12); Collins und Duffy, 2002(13)). Zu den Lehrbüchern über SVMs gehören Cristianini und Shawe-Taylor (2000)(14) und Schölkopf und Smola (2002)(15). Eine freundlichere Darstellung erscheint im Artikel des AI Magazines von Cristianini und Schölkopf (2002)(16). Bengio und LeCun (2007)(17) zeigen einige der Einschränkungen von SVMs und anderen lokalen, nichtparametrischen Methoden für Lernfunktionen auf, die zwar eine globale Struktur, aber keine lokale glatte Funktion (local smoothness) aufweisen.
Ensemble Learning ist eine zunehmend beliebtere Technik zur Verbesserung der Leistung von Lernalgorithmen. Bagging (Breiman, 1996)(18), die erste effektive Methode, kombiniert Hypothesen, die aus mehreren Bootstrap-Datensätzen, welche jeweils durch subsampling des Originaldatensatzes generiert wurden, gelernt wurden. Die in diesem Kapitel beschriebene Boosting-Methode hat ihren Ursprung in der theoretischen Arbeit von Schapire (1990)(19).
Der ADABOOST-Algorithmus wurde von Freund und Schapire
Norvig I 761
(1996)(20) entwickelt und von Schapire (2003)(21) theoretisch analysiert. Friedman et al. (2000)(22) erläutern das Boosting aus der Sicht von Statistikern. Das Online-Lernen wird in einer Untersuchung von Blum (1996)(23) und einem Buch von Cesa-Bianchi und Lugosi (2006)(24) behandelt. Dredze et al. (2008)(25) führen die Idee des durch Vertrauen gewichteten Online-Lernens für die Klassifizierung ein: Zusätzlich zur Gewichtung jedes Parameters behalten sie auch ein gewisses Maß an Vertrauen bei, sodass ein neues Beispiel einen großen Einfluss auf Merkmale haben kann, die zuvor nur selten registriert wurden (und daher ein geringes Vertrauen hatten), und einen kleinen Effekt auf gemeinsame Merkmale, die bereits gut bewertet wurden.


1. Bellman, R. E. (1961). Adaptive Control Processes: A Guided Tour. Princeton University Press.
2. Newton, I. (1664-1671). Methodus fluxionum et serierum infinitarum. Unpublished notes
3. Raphson, J. (1690). Analysis aequationum universalis. Apud Abelem Swalle, London.
4. Byrd, R. H., Lu, P., Nocedal, J., and Zhu, C. (1995). A limited memory algorithm for bound constrained optimization. SIAM Journal on Scientific and Statistical Computing, 16(5), 1190-1208.
5. Aizerman, M., Braverman, E., and Rozonoer, L. (1964). Theoretical foundations of the potential function method in pattern recognition learning. Automation and Remote Control, 25, 821-837.
6. Boser, B., Guyon, I., and Vapnik, V. N. (1992). A training algorithm for optimal margin classifiers. In
COLT-92.
7. Cortes, C. and Vapnik, V. N. (1995). Support vector networks. Machine Learning, 20, 273-297.
8. Platt, J. (1999). Fast training of support vector machines using sequential minimal optimization. In Advances in Kernel Methods: Support Vector Learning, pp. 185-208. MIT Press.
9. Joachims, T. (2001). A statistical learning model of text classification with support vector machines. In SIGIR-01, pp. 128-136.
10. Cristianini, N. and Hahn, M. (2007). Introduction to Computational Genomics: A Case Studies Approach. Cambridge University Press.
11. DeCoste, D. and Schölkopf, B. (2002). Training invariant support vector machines. Machine Learning, 46(1), 161–190.
12. Freund, Y. and Schapire, R. E. (1996). Experiments with a new boosting algorithm. In ICML-96.
13. Collins, M. and Duffy, K. (2002). New ranking algorithms for parsing and tagging: Kernels over discrete structures, and the voted perceptron. In ACL-02.
14. Cristianini, N. and Shawe-Taylor, J. (2000). An introduction to support vector machines and other kernel-based learning methods. Cambridge University Press.
15. Schölkopf, B. and Smola, A. J. (2002). Learning with Kernels. MIT Press.
16. Cristianini, N. and Schölkopf, B. (2002). Support vector machines and kernel methods: The new generation of learning machines. AIMag, 23(3), 31–41.
17. Bengio, Y. and LeCun, Y. (2007). Scaling learning algorithms towards AI. In Bottou, L., Chapelle,
O., DeCoste, D., and Weston, J. (Eds.), Large-Scale Kernel Machines. MIT Press.
18. Breiman, L. (1996). Bagging predictors. Machine Learning, 24(2), 123–140.
19. Schapire, R. E. (1990). The strength of weak learnability. Machine Learning, 5(2), 197–227.
20. Freund, Y. and Schapire, R. E. (1996). Experiments with a new boosting algorithm. In ICML-96.
21. Schapire, R. E. (2003). The boosting approach to machine learning: An overview. In Denison, D. D.,
Hansen, M. H., Holmes, C., Mallick, B., and Yu, B. (Eds.), Nonlinear Estimation and Classification. Springer.
22. Friedman, J., Hastie, T., and Tibshirani, R. (2000). Additive logistic regression: A statistical view of boosting. Annals of Statistics, 28(2), 337–374.
23. Blum, A. L. (1996). On-line algorithms in machine learning. In Proc.Workshop on On-Line Algorithms, Dagstuhl, pp. 306–325.
24. Cesa-Bianchi, N. and Lugosi, G. (2006). Prediction, learning, and Games. Cambridge University Press.
25. Dredze, M., Crammer, K., and Pereira, F. (2008). Confidence-weighted linear classification. In ICML-08, pp. 264–271.


_____________
Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der Argumente
Der Hinweis [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] ist eine Hinzufügung des Lexikons der Argumente.

Norvig I
Peter Norvig
Stuart J. Russell
Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010

Send Link
> Gegenargumente gegen Norvig

Autoren A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Y   Z  


Begriffe A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Z