Philosophie Lexikon der Argumente

Home Screenshot Tabelle Begriffe

Autor/Titel Begriff Zusammenfassung Metadaten

KI-Forschung über Werte - Lexikon der Argumente

Norvig I 645
Werte/Nutzen/Entscheidungstheorie/KI-Forschung/Norvig/Russell: bei der Entscheidungsfindung in einem stochastischen Umfeld. Sequentielle Entscheidungsprobleme beinhalten Nutzen, Unsicherheit und Wahrnehmung und schließen Such- und Planungsprobleme als Sonderfälle ein.
Norvig I 652
Bellman-Gleichungen des Nutzens: (...) es besteht eine direkte Beziehung zwischen dem Nutzen eines Zustands und dem Nutzen seiner Nachbarn: der Nutzen eines Zustands ist die unmittelbare Belohnung für diesen Zustand plus der erwartete diskontierte Nutzen des nächsten Zustands, wobei angenommen wird, dass der Agent die optimale Handlung wählt. Richard Bellman (1957)(1).
Die Bellman-Gleichung ist die Grundlage des Algorithmus für die Wertiteration zur Lösung von MEPs (Markov-Entscheidungsprozessen). Wenn es n mögliche Zustände gibt, dann gibt es n Bellman-Gleichungen, eine für jeden Zustand. Die n Gleichungen enthalten n Unbekannte - den jeweiligen Nutzen der Zustände.
Problem: Die Gleichungen sind nichtlinear, weil der "max"-Operator kein linearer Operator ist. Während sich lineare Gleichungssysteme mit Hilfe von Techniken der linearen Algebra schnell lösen lassen, sind Systeme nichtlinearer Gleichungen problematischer.
Norvig I 654
Wertiteration: (...) die Wertiteration konvergiert schließlich zu einem einzigartigen Satz von Lösungen der Bellman-Gleichungen.
Kontraktion: Eine Kontraktion ist eine Funktion eines Arguments, die, wenn sie auf zwei verschiedene Eingaben angewendet wird, zwei Ausgabewerte erzeugt, die "näher zusammen" liegen, zumindest um einen konstanten Faktor, als die ursprünglichen Eingaben. Zum Beispiel ist die Funktion "Dividieren durch zwei" eine Kontraktion, denn nachdem wir zwei beliebige Zahlen durch zwei dividiert haben, wird ihre Differenz halbiert. Beachten Sie, dass die Funktion "Dividieren durch zwei" einen festen Punkt hat, nämlich Null, der durch die Anwendung der Funktion unverändert bleibt.
Norvig I 656
Policy-Iteration: (...) es ist möglich, eine optimale Policy zu erhalten, auch wenn die Schätzung der Nutzenfunktion ungenau ist. Wenn eine Handlung deutlich besser ist als alle anderen, dann muss die genaue Größenordnung der Nutzen für die beteiligten Zustände nicht genau sein. Der Algorithmus zur Iteration der Policy wechselt (...) zwei Schritte ab, nämlich die Bewertung der Policy und die Verbesserung der Policy. Der Algorithmus wird beendet, wenn der Schritt der Verbesserung der Policy keine Änderung des Nutzen ergibt. >Spieltheorie/KI-Forschung.


1. Bellman, R. E. (1957). Dynamic Programming. Princeton University Press.


_____________
Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der Argumente
Der Hinweis [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] ist eine Hinzufügung des Lexikons der Argumente.
KI-Forschung

Norvig I
Peter Norvig
Stuart J. Russell
Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010

Send Link
> Gegenargumente zu Werte

Autoren A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Y   Z  


Begriffe A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Z