TextSTAT TextSTAT - Simples Text Analyse Tool / Konkordanz-Software

TextSTAT - Simples Text Analyse Tool

Konkordanz-Software für Windows, GNU/Linux und MacOS

TextSTAT ist ein einfaches Programm zur Analyse von Texten. Es liest Text-Dateien (in diversen Kodierungen) und HTML-Files (auch direkt aus dem Internet), und es erstellt Wortfrequenz-Listen und Konkordanzen von diesen Files. TextSTAT hat einen eigenen Web-Spider, mit dem Sie eine beliebige Anzahl Seiten einer bestimmten Website zu einem TextSTAT-Korpus zusammenstellen können. Der integrierte News-Reader liest Berichte aus Usenet Newsgroups und macht daraus ein TextSTAT-Korpus.
TextSTAT liest auch MS Word-Dateien und OpenOffice-Dateien. Sie können die Dateien ohne weiteres Konvertieren usw. einfach zu einem Korpus hinzufügen...
Zum Suchen in den Texten können Sie reguläre Ausdrücke verwenden, was Ihnen vielfältige und sehr mächtige Suchmöglichkeiten bietet. TextSTAT ist auf die Verarbeitung von Texten in unterschiedlichsten Sprachen ausgelegt. Da das Programm intern Unicode verwendet, können Dateien in verschiedenen Sprachen und Dateikodierungen verarbeitet werden. Und die Programmoberfläche von TextSTAT kann auf mehrere Sprachen umgestellt werden.

Um Ihnen einen Eindruck von TextSTAT zu vermitteln, gibt es hier einige Screenshots:
Windows XP: Wortformen mit Frequenzangaben, Konkordanzen, Suchwort im Kontext, Konkordanzfenster (Englisch).
Linux (Englisch/Griechisch): Wortformen/-frequenz, Suchwort in größerem Kontext (Dank an Nikos Kouremenos).
MacOS X (Englisch): Webspider, Wortformen/-frequenz (Dank an Eric Nieuwland).

Dokumentation:
Es gibt einen Quickstart Guide to text analysis with TextSTAT vom 'Humanities Resource Centre' der Princeton University. Und Gena Bennett hat einen nützlichen TextSTAT 2.7 User's Guide geschrieben.

Zudem hat Zarah Weiß ein schönes Video-Tutorial erstellt, das über YouTube verfügbar ist.


NEU: TextSTAT 3 (beta)

Bei der neuen Version von TextSTAT hat sich Einiges getan, vor allem 'unter der Haube'. Ein paar wichtige Änderungen:

  • TextSTAT läuft nun sowohl unter Python 2 (ab 2.7) als auch unter Python 3 (ab 3.4). Neben Python selber brauchen Sie vor allem Tkinter (für die graphische Oberfläche), das aber bei den meisten Python-Distributionen schon dabei ist. Für die volle Funktionalität unter MS Windows brauchen Sie zudem die Python Windows-Extensions (spezifisch für die installierte Python-Version).
  • Die graphische Oberfläche von TextSTAT wurde auf eine neue Basis gestellt. Dadurch sollte das Programm jetzt nicht nur unter Windows und Linux, aber vor allem auf MacOS X-Computern deutlich besser laufen als bislang.
  • Das zugrunde liegende Datenbankformat wurde geändert (TextSTAT verwendet jetzt eine SQLite-Datenbank). Insbesondere bei größeren Korpora sollte sich das positiv auswirken. Bestehende Textkorpora, die mit einer TextSTAT 2-Version erstellt wurden, können daher nicht mehr direkt geöffnet werden. Sie lassen sich aber problemlos in ein neues Korpus importieren. Das neue Standard-Endung für Korpusnamen ist .crp3. Dadurch können Sie die verschiedenen Versionen gut auseinanderhalten.
  • Dateien im Korpus lassen sich jetzt nachträglich noch bearbeiten, was vor allem beim Laden von Dateien aus dem Internet hilfreich ist (beispielsweise um Reklame und Navigationselemente zu entfernen). Einfach im Korpus-Tab auf den Dateinamen klicken.
  • PDF-Dateien können zu einem Korpus hinzugefügt werden (funktioniert nur unter Linux!).
  • Und dann gibt es noch diverse Detailänderungen, z.B. bei der Textkonvertierung, beim Export von Konkordanzlisten oder bei der Lizenz (jetzt CC BY-SA)...

Die neue Version steht hier zum Download zur Verfügung, zunächst nur als Skript-Version (Sie brauchen also Python) und noch im Beta-Stadium. Binäre Versionen für Windows und MacOS werden demnächst folgen:

ACHTUNG: Dies ist eine Beta-Version, die noch Bugs enthalten kann. Zudem kann sich das Datenbankformat unter Umständen noch ändern.

Feedback zu dieser Beta-Version ist sehr willkommen!


Logo TextSTAT 2

Die aktuelle Version 2.9 des Programms enthält keine wesentlichen Neuerungen, sondern vor allem einige Fehlerkorrekturen (insbesondere für die Verwendung unter Linux). Das Programm kann jetzt in folgenden Sprachen bedient werden: Englisch, Deutsch, Niederländisch, Portugiesisch, Spanisch, Katalanisch, Galizisch, Französisch, Italienisch, Finnisch (Suomi), Polnisch, Tschechisch.

Download (binäre Version für Windows XP/Win7):
TextSTAT 2.9c für Windows (ZIP-Datei, ca. 8 MB, vom 20.02.2014)

Diese Version enthält alles, was Sie brauchen, um TextSTAT unter Windows verwenden zu können. Sie müssen die Installationsdatei einfach in ein Directory Ihrer Wahl entpacken. Wechseln Sie anschließend mit dem Explorer in dieses Verzeichnis und starten Sie das Programm mit einem Doppelklick auf 'TextSTAT.exe'. Wenn Sie das Programm vom Desktop oder aus dem Startmenü heraus starten wollen, müssen Sie selber eine Verknüpfung erstellen.
Deinstallieren: Da TextSTAT keinerlei Änderungen an der Windows-Registry oder an anderen Systemkomponenten vornimmt, können Sie es sehr einfach wieder deinstallieren. Einfach den Programmordner komplett löschen. Das war's.

Download (Python Sourcecode):
TextSTAT 2.9c Sourcecode (ZIP-Datei, ca. 150 KB, vom 20.02.2014)

TextSTAT ist in Python geschrieben und läuft unter Windows und Linux (da ist es getestet) und auch auf dem Mac (OS X).
Um die Sourcecode-Version verwenden zu können, müssen Sie Python (ab Version 2.5, aktuell ist 2.7; TextSTAT funktioniert noch NICHT mit Python 3.0) installieren. Unter Windows bietet sich die ActivePython-Distribution von ActiveState an, die alles enthält, was Sie brauchen (Windows Extensions, Tkinter). Unter Linux gibt's keine Windows Extensions - da funktioniert halt der Export zu MS Word und Excel nicht. Ansonsten läuft TextSTAT prima unter GNU/Linux, und es sollte auch unter MacOS X funktionieren. Alles was Sie dafür brauchen ist eine aktuelle Python-Distribution (ab 2.5, lieber 2.7; Tkinter muss ebenfalls installiert sein (was vor allem auf dem Mac nicht selbstverständlich ist).


Literatur und (vergleichende) Besprechungen zu TextSTAT:

  • Bennett, Gena R. (2010), Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Ann Arbor, Michigan: University of Michigan. pp. 144. ISBN 978-0-472-03385-0. (Link)
  • Aldo Benini (2010), Text Analysis under Time Pressure Tools for humanitarian and development workers. Washington, DC. (Link)
  • Krajka, Jarosław (2007), Corpora and Language Teachers: From Ready-Made to Teacher-Made Collections. CORELL: Computer Resources for Language Learning 1, 36-55. (Link)
  • Daniel Wiechmann & Stefan Fuhs (2006), in: Corpus Linguistics and Linguistic Theory 2-1, 107-127. (Link)
  • Luciana Diniz (2005), in: Language Learning & Technology Vol. 9, No. 3, pp. 22-27. (Link)


Die Vorgängerversion gibt's auch noch: TextSTAT 1.52 für Windows (ZIP-Datei, ca. 2,3 MB). Zu dieser steht - im Gegensatz zur neuen Version - auch eine Dokumentation/Hilfe zum Programm zur Verfügung (die auch in die Download-Version integriert ist). Diesen Text gibt es nicht nur auf Deutsch, sondern auch auf Englisch oder Französisch.


TextSTAT ist freie Software (OpenSource). Das Programm darf kostenlos verwendet, vervielfältigt und weitergegeben werden, solange es unverändert bleibt. Kommerzielle Distribution des Programms nur mit Erlaubnis des Autors. Der Autor übernimmt keinerlei Haftung für eventuelle Programmfehler und eventuell daraus entstandene Schäden. Der Sourcode-Version ist eine eigene Lizenz beigefügt.

Haben Sie Kommentare, Fragen, Anregungen zum Programm?
Ich freue mich über jede Rückmeldung:
Matthias Hüning, <matthias.huening@fu-berlin.de>