ExploDika (derzeit v1.0 beta-Testphase) ist ein windowsbasiertes Tool zur semiautomatischen Ermittlung von Sprachgebrauchsähnlichkeit (Quasi-Synonymie- und Wortfeldanalysen) auf Basis von annotierten Korpora, Kookkurrenzanalysen und statistischen Verfahren.

Der Name der non-commercial Freeware resultiert aus ihrer Anwendung im Rahmen einer explorativen Diskurskartographie: das Tool erzeugt induktive Daten, die mit Hilfe externer Software als self-organized-maps oder "Diskurskarten" visualisiert und zum Zwecke von linguistischen Diskurs- und Imageanalysen in Lehre und Forschung eingesetzt werden können.

ExploDika verfügt derzeit über folgende Funktionen:

  • Ausschließliche Verarbeitung von TreeTagger-annottierten Textkorpora;
  • Gute Performance auf Grund von Hash- und Multithread-Verarbeitung;
  • Automatische Kookkurrenzanalysen und daraus resultierende Erstellung von Kotextprofilen zu n Ausgangsausdrücken;
  • Auswertung und Gewichtung der Kookkurrenzanalysen mittels Chi-Square-Signifikanztest;
  • Matrixanalyse zu n Kotextprofilen und Berechnung relativer Kotextähnlichkeit mittels des Assoziationsmaßes Cosine Similarity (Lee 1999);
  • Automatische Ziehung einer randomisierten Stichprobe zur Ermittlung einer durchschnittlichen Ähnlichkeit aller n Ausgangsausdrücke bzw. Kotextprofile; Berechnung von Mittelwert, Varianz und Standardabweichung;
  • Ermittlung eines Schwellwertes zur Filterung von 'ähnlichen' gegenüber 'unähnlichen' Kotextprofilen mittels Stichproben-Mittelwert, -standardabweichung und einem manuellen Faktor (alpha); - für die Entwicklung dieser Idee gilt mein Dank Prof. Dr. Sebastian Padó (Computerlinguistik, Universität Heidelberg);
  • Export der Kookkurrenz- bzw. Kotextprofile und der Kontrastprofile;
  • Filterung und Export der Ergebnisse im DOT-Format (für Import und Verarbeitung in Netzwerkanalyseprogrammen wie Gephi oder GraphViz);
  • Speichern und Laden von Arbeitssitzungen zur Reduktion von Rechenaufwand.

Screenshots