Anleitung zu Aufgabe 1 zum Thema Wortarten

Bei der vorliegenden Aufgabe geht es darum, Wortarten zu bestimmen. Die zu bestimmenden Wörter sind in der csv-Datei Wortarten_Aufgabe.csv abgespeichert. Bevor Sie diese öffnen und bearbeiten, lesen Sie bitte die Anleitung zum Umgang mit csv-Dateien.

Weil Ihre Lösung am Ende automatisch mit einer Musterlösung abgeglichen wird, ist es wichtig, dass Sie die Wortarten einheitlich und nach einem vorgegegeben Tagset kennzeichnen (= „annotieren“). Ein Tagset ist eine verbindliche Liste von Bezeichnungen, die für eine Annotation verwendet werden dürfen. So könnte ein Tagset z.B. festlegen, dass immer „Subst.“ für Substantive geschrieben wird. Ein gängiges Tagset für die Wortartenannotation deutscher Texte ist das „Stuttgart-Tübingen TagSet“ (STTS), das man hier ansehen kann. Hier werden die Substantive mit „NN“ annotiert; Eigennamen erhalten den Tag „NE“.

In der Datei STTS_gekuerzt.pdf, finden Sie eine vereinfachte Version dieses Tagsets mit Beispielen zur Illustration. Nutzen Sie bitte dieses Tagset für die Berarbeitung der Aufgabe. Es empfiehlt sich, die Datei während der Bearbeitung geöffnet zu haben.

Annotation in einer csv-Datei – warum denn das?

Sprachdaten werden in der Linguistik häufig in Form von csv-Dateien abgespeichert und ausgewertet. Wenn Sie irgendwann selbst eigene Untersuchungen machen, ist es daher hilfreich, dieses Datei-Format zu kennen.

Indem Sie die Wortarten nach dem STTS (Stuttgart-Tübingen Tagset) annotieren, erhalten Sie zudem einen Einblick in Richtlinien zur Wortartenannotation, die aktuell in der Forschung angewendet werden.

Nächste Schritte

Mit dem Tabellenkalkulationsprogramm können Sie die Aufgabendatei öffnen. Wie Sie das Programm (falls notwendig) auf Ihrem Computer installieren und dann die Datei öffnen und bearbeiten, wird in der Anleitung zum Umgang mit csv-Dateien beschrieben.

This work is licensed under a Creative Commons Attribution 4.0 International License.