| Begriff/ Autor/Ismus |
Autor |
Eintrag |
Literatur |
|---|---|---|---|
| Alltagssprache | Lyons | I 92 Alltagssprache/Information//slang/Lyons: In der Umgangssprache gibt es die Tendenz, dass häufig gebrauchte Wörter durch längere „buntere“ Synonyme ersetzt werden, weil der Informationsgehalt durch den häufigen Gebrauch abgenützt wurde. Slang wechselt häufig. >Sprache, >Sprachgebrauch, >Metaphern, >Metonymien, >Synonymie, >Information. I 100 Information/Informationstheorie/Linguistik/Lyons: Dilemma: 1. Statistische Überlegungen sind für das Verständnis der Entwicklung und Wirkungsweise der Sprache wichtig. 2. Es ist praktisch unmöglich, die Information hier genau zu berechnen. I 101 Lösung: Linguistik beschäftigt sich heute mehr mit Struktur von Sätzen, nicht mit Äußerungen in konkreten Situationen. >Syntax, >Semantik, >Grammatik. |
Ly II John Lyons Semantics Cambridge, MA 1977 Lyons I John Lyons Einführung in die moderne Linguistik München 1995 |
| Beobachtung | Frith | I 156 Def Idealer Bayes’scher Beobachter/Informationstheorie/Frith: Der ideale Bayes'sche Beobachter maximiert die wechselseitige Information zwischen der Welt und sich selbst. >Idealer Beobachter, >Information, >Informationstheorie, >Verstehen, >Lernen. |
Frith I Chris Frith Wie unser Gehirn die Welt erschafft Heidelberg 2013 |
| Entscheidungsbaum | Norvig | Norvig I 698 Def Entscheidungsbaum/Norvig/Russell: Ein Entscheidungsbaum repräsentiert eine Funktion DECISION TREE, die als Input einen Vektor von Attributwerten verwendet und eine "Entscheidung" - einen einzelnen Output-Wert - ausgibt. Die Ein- und Ausgabewerte können diskret oder kontinuierlich sein. Ein Entscheidungsbaum fällt seine Entscheidung mittels einer Reihe von Tests. Jeder interne Knoten im Baum entspricht einem Test des Wertes eines der Input-Attribute Ai, und die Zweige des Knotens werden mit den möglichen Werten des Attributs Ai =vik gekennzeichnet. Jeder Blattknoten im Baum gibt einen Wert an, welcher von der Funktion zurückgegeben werden muss. Ein Boolescher Entscheidungsbaum ist logisch äquivalent zu der Behauptung, dass das Zielattribut wahr ist, und zwar nur dann, wenn die Eingabeattribute einen der Pfade erfüllen, die zu einem Blatt mit dem Wert wahr führen. Wenn wir dies in der Aussagenlogik ausschreiben, haben wir Ziel ⇔ (Pfad1 V Pfad2 ∨ · · ·) , wobei jeder Pfad eine Kombination von Tests des Attributwerts ist, die erforderlich sind, um diesem Pfad zu folgen. Der gesamte Ausdruck entspricht also der disjunkten Normalform. >Normalform/Logik. Leider ist es, egal wie wir die Größe messen, ein unlösbares Problem, den kleinsten konsistenten Baum zu finden; es gibt keine Möglichkeit, die 22n Bäume effizient zu durchsuchen. Mit einigen einfachen Heuristiken können wir jedoch eine gute ungefähre Lösung finden: einen kleinen (aber nicht kleinsten) konsistenten Baum. Der Lernalgorithmus für Entscheidungsbäume verfolgt eine gierige Strategie des Teilen und Herrschens: immer das wichtigste Attribut zuerst testen. Dieser Test teilt das Problem in kleinere Teilprobleme auf, die dann rekursiv gelöst werden können. "Wichtigstes Attribut": dasjenige, das für die Klassifizierung eines Beispiels den größten Unterschied macht. Lernalgorithmus für Entscheidungsbäume: siehe Norvig I 702. Norvig I 705 Probleme: Der Lernalgorithmus für Entscheidungsbäume erzeugt einen großen Baum, wenn eigentlich kein Muster zu finden ist. Überanpassung (overfitting): Der Algorithmus greift jedes Muster auf, das er in der Eingabe finden kann. Wenn sich herausstellt, dass ein blauer, 7 Gramm schwerer Würfels zweimal mit gekreuzten Fingern gewürfelt wird und beide Würfe 6 ergeben, dann kann der Algorithmus einen Pfad konstruieren, der in diesem Fall 6 vorhersagt. Lösung: Das Pruning des Entscheidungsbaums verhindert Überanpassung. Das Pruning funktioniert durch Eliminierung von Knoten, die nicht eindeutig relevant sind. Norvig I 706 Fehlende Daten: In vielen Bereichen sind nicht alle Attributwerte für jedes Beispiel bekannt. Norvig I 707 Multivariate Attribute: Wenn ein Attribut viele mögliche Werte hat, gibt das Maß für den Informationszuwachs einen unangemessenen Hinweis auf die Nützlichkeit des Attributs. Im Extremfall hat ein Attribut (z.B. die genaue Zeit) für jedes Beispiel einen anderen Wert, was bedeutet, dass jede Untermenge von Beispielen einzigartig ist und eine eindeutigen Klassifikation hat und das Maß für den Informationszuwachs für dieses Attribut seinen höchsten Wert hätte. Kontinuierlich und ganzzahlig bewertete Input-Attribute: Kontinuierlich oder ganzzahlig bewertete Attribute wie Größe und Gewicht haben eine unendliche Menge möglicher Werte. Anstatt unendlich viele Äste zu erzeugen, finden Lernalgorithmen für Entscheidungsbäume normalerweise den Teilungspunkt, der den höchsten Informationszuwachs ergibt. Kontinuierlich bewertete Output-Attribute: Wenn wir versuchen, einen numerischen Output-Wert vorherzusagen, wie z.B. den Preis einer Wohnung, dann brauchen wir einen Regressionsbaum statt eines Klassifikationsbaums. Ein Regressionsbaum hat an jedem Blatt eine lineare Funktion einer Teilmenge numerischer Attribute und nicht nur einen einzelnen Wert. >Lernen/Norvig. Norvig I 758 Geschichte: Die erste nennenswerte Verwendung von Entscheidungsbäumen war in EPAM, dem "Elementary Perceiver And Memorizer" (Feigenbaum, 1961)(1), der eine Simulation des menschlichen Konzeptlernens war. ID3 (Quinlan, 1979)(2) fügte die entscheidende Idee hinzu, das Attribut mit maximaler Entropie zu wählen; sie ist die Grundlage für den Algorithmus für Entscheidungsbäume in diesem Kapitel. Die Informationstheorie wurde von Claude Shannon entwickelt, um daie Erforschung der Kommunikation zu unterstützen (Shannon und Weaver, 1949)(3). (Shannon hat außerdem eines der frühesten Beispiele für maschinelles Lernen beigesteuert, eine mechanische Maus namens Theseus, die durch Versuch und Irrtum lernte, durch ein Labyrinth zu navigieren). Die χ2 Methode des Tree Pruning wurde von Quinlan (1986)(4) beschrieben. C4.5, ein industrielles Entscheidungsbaum-Paket, ist in Quinlan (1993)(5) zu finden. In der statistischen Literatur gibt es eine unabhängige Tradition des Lernens mit Entscheidungsbäumen. Classification and Regression Trees (Breiman et al., 1984)(6), bekannt als das "CART-Buch", ist die wichtigste Referenz. 1. Feigenbaum, E. A. (1961). The simulation of verbal learning behavior. Proc. Western Joint Computer Conference, 19, 121-131. 2. Quinlan, J. R. (1979). Discovering rules from large collections of examples: A case study. In Michie, D. (Ed.), Expert Systems in the Microelectronic Age. Edinburgh University Press. 3. Shannon, C. E. and Weaver, W. (1949). The Mathematical Theory of Communication. University of Illinois Press. 4. Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1, 81-106. 5. Quinlan, J. R. (1993). C4.5: Programs for machine learning. Morgan Kaufmann. 6. Breiman, L., Friedman, J., Olshen, R. A., and Stone, C. J. (1984). Classification and Regression Trees. Wadsworth International Group. |
Norvig I Peter Norvig Stuart J. Russell Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010 |
| Entscheidungsbaum | Russell | Norvig I 698 Def Entscheidungsbaum/Norvig/Russell: Ein Entscheidungsbaum repräsentiert eine Funktion DECISION TREE, die als Input einen Vektor von Attributwerten verwendet und eine "Entscheidung" - einen einzelnen Output-Wert - ausgibt. Die Ein- und Ausgabewerte können diskret oder kontinuierlich sein. Ein Entscheidungsbaum fällt seine Entscheidung mittels einer Reihe von Tests. Jeder interne Knoten im Baum entspricht einem Test des Wertes eines der Input-Attribute Ai, und die Zweige des Knotens werden mit den möglichen Werten des Attributs Ai =vik gekennzeichnet. Jeder Blattknoten im Baum gibt einen Wert an, welcher von der Funktion zurückgegeben werden muss. Ein Boolescher Entscheidungsbaum ist logisch äquivalent zu der Behauptung, dass das Zielattribut wahr ist, und zwar nur dann, wenn die Eingabeattribute einen der Pfade erfüllen, die zu einem Blatt mit dem Wert wahr führen. Wenn wir dies in der Aussagenlogik ausschreiben, haben wir Ziel ⇔ (Pfad1 V Pfad2 ∨ · · ·) , wobei jeder Pfad eine Kombination von Tests des Attributwerts ist, die erforderlich sind, um diesem Pfad zu folgen. Der gesamte Ausdruck entspricht also der disjunkten Normalform. >Normalform/Logik. Leider ist es, egal wie wir die Größe messen, ein unlösbares Problem, den kleinsten konsistenten Baum zu finden; es gibt keine Möglichkeit, die 22n Bäume effizient zu durchsuchen. Mit einigen einfachen Heuristiken können wir jedoch eine gute ungefähre Lösung finden: einen kleinen (aber nicht kleinsten) konsistenten Baum. Der Lernalgorithmus für Entscheidungsbäume verfolgt eine gierige Strategie des Teilen und Herrschens: immer das wichtigste Attribut zuerst testen. Dieser Test teilt das Problem in kleinere Teilprobleme auf, die dann rekursiv gelöst werden können. "Wichtigstes Attribut": dasjenige, das für die Klassifizierung eines Beispiels den größten Unterschied macht. Lernalgorithmus für Entscheidungsbäume: siehe Norvig I 702. Norvig I 705 Probleme: Der Lernalgorithmus für Entscheidungsbäume erzeugt einen großen Baum, wenn eigentlich kein Muster zu finden ist. Überanpassung (overfitting): Der Algorithmus greift jedes Muster auf, das er in der Eingabe finden kann. Wenn sich herausstellt, dass ein blauer, 7 Gramm schwerer Würfels zweimal mit gekreuzten Fingern gewürfelt wird und beide Würfe 6 ergeben, dann kann der Algorithmus einen Pfad konstruieren, der in diesem Fall 6 vorhersagt. Lösung: Das Pruning des Entscheidungsbaums verhindert Überanpassung. Das Pruning funktioniert durch Eliminierung von Knoten, die nicht eindeutig relevant sind. Norvig I 706 Fehlende Daten: In vielen Bereichen sind nicht alle Attributwerte für jedes Beispiel bekannt. Norvig I 707 Multivariate Attribute: Wenn ein Attribut viele mögliche Werte hat, gibt das Maß für den Informationszuwachs einen unangemessenen Hinweis auf die Nützlichkeit des Attributs. Im Extremfall hat ein Attribut (z.B. die genaue Zeit) für jedes Beispiel einen anderen Wert, was bedeutet, dass jede Untermenge von Beispielen einzigartig ist und eine eindeutigen Klassifikation hat und das Maß für den Informationszuwachs für dieses Attribut seinen höchsten Wert hätte. Kontinuierlich und ganzzahlig bewertete Input-Attribute: Kontinuierlich oder ganzzahlig bewertete Attribute wie Größe und Gewicht haben eine unendliche Menge möglicher Werte. Anstatt unendlich viele Äste zu erzeugen, finden Lernalgorithmen für Entscheidungsbäume normalerweise den Teilungspunkt, der den höchsten Informationszuwachs ergibt. Kontinuierlich bewertete Output-Attribute: Wenn wir versuchen, einen numerischen Output-Wert vorherzusagen, wie z.B. den Preis einer Wohnung, dann brauchen wir einen Regressionsbaum statt eines Klassifikationsbaums. Ein Regressionsbaum hat an jedem Blatt eine lineare Funktion einer Teilmenge numerischer Attribute und nicht nur einen einzelnen Wert. >Lernen/Norvig. Norvig I 758 Geschichte: Die erste nennenswerte Verwendung von Entscheidungsbäumen war in EPAM, dem "Elementary Perceiver And Memorizer" (Feigenbaum, 1961)(1), der eine Simulation des menschlichen Konzeptlernens war. ID3 (Quinlan, 1979)(2) fügte die entscheidende Idee hinzu, das Attribut mit maximaler Entropie zu wählen; sie ist die Grundlage für den Algorithmus für Entscheidungsbäume in diesem Kapitel. Die Informationstheorie wurde von Claude Shannon entwickelt, um die Erforschung der Kommunikation zu unterstützen (Shannon und Weaver, 1949)(3). (Shannon hat außerdem eines der frühesten Beispiele für maschinelles Lernen beigesteuert, eine mechanische Maus namens Theseus, die durch Versuch und Irrtum lernte, durch ein Labyrinth zu navigieren). Die χ2 Methode des Tree Pruning wurde von Quinlan (1986)(4) beschrieben. C4.5, ein industrielles Entscheidungsbaum-Paket, ist in Quinlan (1993)(5) zu finden. In der statistischen Literatur gibt es eine unabhängige Tradition des Lernens mit Entscheidungsbäumen. Classification and Regression Trees (Breiman et al., 1984)(6), bekannt als das "CART-Buch", ist die wichtigste Referenz. 1. Feigenbaum, E. A. (1961). The simulation of verbal learning behavior. Proc. Western Joint Computer Conference, 19, 121-131. 2. Quinlan, J. R. (1979). Discovering rules from large collections of examples: A case study. In Michie, D. (Ed.), Expert Systems in the Microelectronic Age. Edinburgh University Press. 3. Shannon, C. E. and Weaver, W. (1949). The Mathematical Theory of Communication. University of Illinois Press. 4. Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1, 81-106. 5. Quinlan, J. R. (1993). C4.5: Programs for machine learning. Morgan Kaufmann. 6. Breiman, L., Friedman, J., Olshen, R. A., and Stone, C. J. (1984). Classification and Regression Trees. Wadsworth International Group. |
Russell I B. Russell/A.N. Whitehead Principia Mathematica Frankfurt 1986 Russell II B. Russell Das ABC der Relativitätstheorie Frankfurt 1989 Russell IV B. Russell Probleme der Philosophie Frankfurt 1967 Russell VI B. Russell Die Philosophie des logischen Atomismus In Eigennamen, U. Wolf (Hg) Frankfurt 1993 Russell VII B. Russell On the Nature of Truth and Falsehood, in: B. Russell, The Problems of Philosophy, Oxford 1912 - Dt. "Wahrheit und Falschheit" In Wahrheitstheorien, G. Skirbekk (Hg) Frankfurt 1996 Norvig I Peter Norvig Stuart J. Russell Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010 |
| Information | Information, Informationstheorie: Ein Zeichen oder eine Zeichenkombination enthält Information, wenn für den Empfänger klar ist, dass dieses Zeichen oder die Zeichenkombination anstelle eines anderen möglichen Zeichens oder einer möglichen Zeichenkombination erscheint. Der Vorrat an möglichen Zeichen bestimmt zu einem Teil die Wahrscheinlichkeit für das Auftreten eines Zeichens aus diesem Vorrat. Zusätzlich kann die erwartete Wahrscheinlichkeit für das Erscheinen eines Zeichens durch bereits gemachte Erfahrungen von Regelmäßigkeiten erhöht werden. Die Menge der Information, die durch ein Zeichen übermittelt wird hängt ab von der Unwahrscheinlichkeit des Auftretens des Zeichens. |
||
| Information | Kelly | I 958 Information/Kelly: Information ist zweideutig: a) eine gewisse Anzahl Bits b) ein bedeutsames Signal. Vgl. >Kommunikation, >Mitteilung, >Informationstheorie. Signale/Kelly: Wenn die Entropie zunimmt, vermehren sich die Bits, doch die Menge an Signalen vermindert sich. >Entropie, >Signale. Ich verwende Information hier im zweiten Sinn: Information ist ein Signal, das einen Unterschied macht. >Unterscheidungen, >Prozesse. |
Kelly I Kevin Kelly What Technology Wants New York 2011 |
| Information | Lyons | I 100 Information/Informationstheorie/Linguistik/Lyons: Dilemma: 1. Statistische Überlegungen sind für das Verständnis der Entwicklung und Wirkungsweise der Sprache wichtig. 2. Es ist praktisch unmöglich, die Information hier ((s) In Bezug auf Sprachentwicklung bzw. Sprachgebrauch) genau zu berechnen. >Sprachentstehung, >Spracherwerb, >Sprachgebrauch, >Alltagssprache. I 101 Lösung: Linguistik beschäftigt sich heute mehr mit der Struktur von Sätzen, nicht mit Äußerungen in konkreten Situationen. >Äußerungen, >Situationen, >Linguistik, >Grammatik, vgl. >Situationssemantik. |
Ly II John Lyons Semantics Cambridge, MA 1977 Lyons I John Lyons Einführung in die moderne Linguistik München 1995 |
| Kommunikation | Bateson | I 91 Kommunikation/Zeitengebrauch/Handeln/Handlung/Bateson: Kommunikation durch Handlung spielt nur in der Gegenwart. Zeitengebrauch ist nur in der Sprache möglich. Ein Tier kann durch sein Verhalten nicht ausdrücken: Ich werde dich nicht beißen. >Zeit, >Vergangenheit, >Gegenwart, >Zukunft. I 376 Kommunikation/Logik/Paradoxien/Bateson: Es gibt fast keine formale Theorie, die sich mit analoger Kommunikation befasst und insbesondere kein Äquivalent der Informationstheorie oder der logischen Typentheorie. >Paradoxien, >Typentheorie. |
Bt I G. Bateson Ökologie des Geistes. Anthropologische, psychologische, biologische und epistemologische Perspektiven Frankfurt 1985 |
| Kommunikation | Flusser | I 12 Kommunikation/Kommunikationstheorie/Flusser: Kommunikationstheorie wird von Flusser interpretativ, nicht im Sinne der Informationstheorie verstanden. >Kommunikationstheorie, >Interpretation, vgl. >Informationstheorie. |
Fl I V. Flusser Kommunikologie Mannheim 1996 |
| Kunstwerke | Flusser | Rötzer I 66/67 Kunstwerk/Flusser: Der zweite Hauptsatz der Wärmelehre muss so interpretiert werden, dass das Interessante immer seltener wird. Weil Kunstwerke auf keiner Theorie basieren, vor allem keiner Informationstheorie, bleiben sie relativ uninformativ und wahrscheinlich! >Zweiter Hauptsatz der Wärmelehre, >Information, >Wahrscheinlichkeit, >Ereignisse, >Ordnung. Flusser: Hier soll nicht die Größe von Kunstwerken geleugnet werden, sondern die Produktion von ihrer mystischen Aura befreit werden, um ihre Größe besser einschätzen zu können. >Aura. I 68 Was macht eigentlich ein Autor? Er sammelt Informationen, die er in bereits produzierten Werken findet, nach Kriterien seiner Zeit, denen fügt er Informationen aus einem konkreten Leben hinzu. Unter den selbsterworbenen Informationen mögen auch Geräusche sein, d.h. bisher nicht vorhandene Informationen. Rötzer I 70 Das Kunstmachen muss technisiert und theoretisiert werden. (Ethik, Verhalten und Ästhetik, Erleben sind nie getrennt). >Ethik, >Verhalten, >Ästhetik, >Erlebnisse. Gesunder Menschenverstand/Flusser: erweist sich hier als reaktionäres Element. Charakteristisch für die Gegenwart. >Konservatismus, >Gegenwart. |
Fl I V. Flusser Kommunikologie Mannheim 1996 |
| Signale | Kelly | I 958 Signale/Kelly: Wenn die Entropie zunimmt, vermehren sich die Bits, doch die Menge an Signalen vermindert sich. >Information, >Informationstheorie, >Entropie, >Kommunikation, >Code. |
Kelly I Kevin Kelly What Technology Wants New York 2011 |
| Begriff/ Autor/Ismus |
Autor Vs Autor |
Eintrag |
Literatur |
|---|---|---|---|
| InformationstheorieInformationstheorie | Skeptizismus Vs Informationstheorie | Brendel I 213 Informationstheorie/Internalismus/Information/Brendel: zwischen beiden besteht immer noch eine Kluft, auf die sowohl Gettier als auch der Skeptizismus hinweisen. SkeptizismusVsInformationstheorie: man kann nie sicher sein, dass ein Signal r auch tatsächlich die Information dass s F ist, trägt. ((s) >Interpretation). Man müsste alle Alternativen ausschließen, und das geht für endliche Subjekte nicht. |
Bre I E. Brendel Wahrheit und Wissen Paderborn 1999 |