Philosophie Lexikon der Argumente

Home Screenshot Tabelle Begriffe

 
Textklassifikation: Textklassifizierung in der Künstlichen Intelligenz ist der Prozess der Kategorisierung oder Kennzeichnung von Textdokumenten in vordefinierte Klassen oder Kategorien auf der Grundlage ihres Inhalts, was eine automatisierte Analyse und Organisation von Textdaten ermöglicht. Anwendungsgebiete sind Spam-Filterung, Stimmungsanalyse, Themenmodellierung, Absichtserkennung, Beantwortung von Fragen. Siehe auch Spam, Question answering, Künstliche Intelligenz.

_____________
Anmerkung: Die obigen Begriffscharakterisierungen verstehen sich weder als Definitionen noch als erschöpfende Problemdarstellungen. Sie sollen lediglich den Zugang zu den unten angefügten Quellen erleichtern. - Lexikon der Argumente.

 
Autor Begriff Zusammenfassung/Zitate Quellen

KI-Forschung über Textklassifikation - Lexikon der Argumente

Norvig I 865
Textklassifikation/Textkategorisierung/KI-Forschung/Norvig/Russell: (...) ist, bei einem Text irgendeiner Art zu entscheiden, zu welcher aus einer vordefinierten Menge von Klassen er gehört. Sprachidentifizierung und Genre-Klassifizierung sind Beispiele für Textklassifizierung, ebenso wie Sentimentanalyse (Klassifizierung eines Films oder einer Produktrezension als positiv oder negativ) und Spam-Erkennung (Klassifizierung einer E-Mail als Spam oder Nicht-Spam). >Spam/KI-Forschung.
Norvig I 884
Manning und Schütze (1999)(1) und Sebastiani (2002)(2) untersuchen Textklassifikationsstechniken. Joachims (2001)(3) verwendet statistische Lerntheorie und unterstützende Vektormaschinen, um eine theoretische Analyse darüber vorzulegen, wann eine Klassifikation erfolgreich sein wird. Apté et al. (1994)(4) berichten von einer Genauigkeit von 96% bei der Einstufung von Nachrichtenartikeln von Reuters in die Kategorie "Verdienste". Koller und Sahami (1997)(5) berichten von einer Genauigkeit von bis zu 95% mit einem naiven Bayes-Klassifikator und bis zu 98,6% mit einem Bayes-Klassifikator, der einige Abhängigkeiten zwischen den Merkmalen berücksichtigt. Lewis (1998)(6) gibt einen Überblick über vierzig Jahre Anwendung der naiven Bayes-Techniken zur Textklassifikation und zum Retrieval.
Schapire und Singer (2000)(7) zeigen, dass einfache lineare Klassifikatoren oft eine fast ebenso gute Genauigkeit wie komplexere Modelle erreichen können und effizienter ausgewertet werden können. Nigam et al. (2000)(8) zeigen, wie der EM-Algorithmus verwendet werden kann, um unmarkierte Dokumente zu kennzeichnen und so ein besseres Klassifikationsmodell zu erlernen. Witten et al. (1999)(9) beschreiben Kompressionsalgorithmen zur Klassifikation und zeigen die tiefe Verbindung zwischen dem LZW-Kompressionsalgorithmus und Sprachmodellen mit maximaler Entropie.

1. Manning, C. and Schütze, H. (1999). Foundations of Statistical Natural Language Processing. MIT
Press.
2. Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Computing Surveys,
34(1), 1–47.
3. Joachims, T. (2001). A statistical learning model of text classification with support vector machines. In SIGIR-01, pp. 128–136.
4. Apté, C., Damerau, F., and Weiss, S. (1994). Automated learning of decision rules for text categorization. ACM Transactions on Information Systems, 12, 233–251.
5. Koller, D. and Sahami, M. (1997). Hierarchically classifying documents using very few words. In
ICML-97, pp. 170–178.
6. Lewis, D. D. (1998). Naive Bayes at forty: The independence assumption in information retrieval. In
ECML-98, pp. 4–15.
7. Schapire, R. E. and Singer, Y. (2000). Boostexter: A boosting-based system for text categorization. Machine Learning, 39(2/3), 135–168.
8. Nigam, K., McCallum, A., Thrun, S., and Mitchell, T. M. (2000). Text classification from labeled and unlabeled documents using EM. Machine Learning, 39(2–3), 103–134.
9. Witten, I. H., Moffat, A., and Bell, T. C. (1999). Managing Gigabytes: Compressing and Indexing
Documents and Images (second edition). Morgan Kaufmann.


_____________
Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der Argumente
Der Hinweis [Begriff/Autor], [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] bzw. "Problem:"/"Lösung", "alt:"/"neu:" und "These:" ist eine Hinzufügung des Lexikons der Argumente.
KI-Forschung

Norvig I
Peter Norvig
Stuart J. Russell
Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010

Send Link

Autoren A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Y   Z  


Begriffe A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Z