4. Text Mining und Datenaufberei

2017-11-20  本文已影响0人  shashaslife

1. Text Mining ist ein auf statistischen und linguistischen Methoden basierendes textanalytisches Verfahren, das aus der Computerlinguistik stammt. Im vorliegenden Projekt wurden mit Methoden und Techniken des Text Mining Kommentare themenspezifischer Blogs zu Mobilfunk analysiert. Ziel ihrer Analyse war zum einen die Adaption und Weiterentwicklung vorhandener Tools und Methoden auf Blogkommentare und den Analysegegenstand "bewertende sprachliche Äußerungen', zum anderen die Generierung von Ergebnissen zum inhaltlichen Fokus in Form von Aussagen zu Mobilfunknetzen, die im Internet diskutiert werden.  --- als Mittel der Meinungsrekonstruktion.

2. Sprachliches Bewerten wird als Zugang zu Perspektiven von Personen und Gruppen gesehen und genutzt, um Hinweise darauf zu erhalten, wie Menschen Gegenstandsklassen wahrnehmen. Die für Bewertungshandlungen konstitutive Handlungen sind Kritisieren oder Loben. 

3. Eine besondere Herausforderung bei der Verbindung von Text Mining und Bewertentheorie besteht in der Modellierung des facettenreichen Phänomens sprachlichen Bewertens. 

4.  Datenaufbereitung (flache Textverarbeitung wird dabei bevorzug)

--- a. Annotation:

Inline (Die Annotationen werden in die Primärdaten eingebettet) - vs. standoff (Die Primärdaten und die Annotationen werden separat annotiert und gespeichert, was eine Mehrebenen Annotationen erlaubt) Annotation.

Grob-(auf Satzebene) vs. feingranulare (auf der Wort- oder Phrasen-Ebene) Annotation. --- Für jede Annotationsebene muss ein Annotationsschema erstellt werden. Dieses setzt sich aus einem Tagset und den Annotationsrichtlinien für die Taganwendung zusammen. 

Morphosyntaktische Annotation: Die Textdaten sollen gesäubert werden und in unformatierter Form konvertiert werden. Dann werden die Daten tokenisiert werden (Leerzeichen-Tokenizer). -- In einem weiteren Schritt werden jedem Token alle möglichen Tags zugewiesen --- Dann erfolgt die Disambiguierung. Für die automatische morphosyntaktische Annotation deutschsprachiger Daten wird typischerweise der TreeTagger verwendet (Insgesamt besteht das Tagset aus 48 Wortartentags). Darüber hinaus lemmatisiert der TreeTagger alle Token, die ihm bekannt sind; unbekannte Token werden als unknown lemmatisiert. 

Syntaktische Annotation. Parsing dient im Wesentlichen der Analyse der Satzsyntax durch die Identifikation syntaktischer Kategorien und die Annotation ihrer Funktionen. Die Parsing Algorithmen bauen auf einer kontextfreien Grammatik auf, die auf einem System von Ersetzungsregeln basiert. Kontextfreie Grammatiken haben den Vorteil, dass ein Satz in alle Grundelemente erlegt und jede abgeleitete Einheit kategorisiert werden kann. Ein entscheidender Nachteil dieser Grammatik ist, dass die Abhängigkeit der Satzelemente voneinander nicht ausgedrückt werden kann. Dependenzgrammatiken beschreiben die Abhängigkeit der Satzelemente voneinander. Für das Parsing deutscher Sätze finden sich zahlreiche Ressourcen: Wauschkuhns partieller Parser und der German Chunker (Schmid/Schulte)

Semantische Annotation: erfasst die Bedeutung sprachlicher Ausdrücke (lexikalische Semantik) sowie die Bedeutung von Sätzen (Satzsemantik). Ein wesentliches Problem der semantischen Annotation ist die Ambiguität. Dafür werden lexikalische Wortnetze aufgebaut. Eine deutsche Datenbank ist GermaNet, dessen zentrales Konzept das Synset ist. Ein Synset erfasst zu einem Begriff wortartspezifisch Synonyme, sie werden als Set notiert. Im GermaNet werden Wortschatzeinheiten und Synsets über lexikalische und konzeptuelle Relationen miteinander verknüpft. Ein deutscher sense tagger wäre: pygermanet. Die Genauigkeit muss aber noch überprüft werden. Die semantische Annotation erfolg meistens zweckgerichtet. 

Pragmatische Annotation: ist relativ rudimentär ausgebildet. 

Weitere Annotationsebenen: Textstruktur, phonetische und prosodische Merkmale, Gestik, Mimik usw. werden annotiert. 

                                                                             Quelle: Bewerten in Blogkommentaren

上一篇 下一篇

猜你喜欢

热点阅读