ExploDika (derzeit v1.0 beta-Testphase) ist ein windowsbasiertes Tool zur semiautomatischen Ermittlung von Sprachgebrauchsähnlichkeit (Quasi-Synonymie- und Wortfeldanalysen) auf Basis von annotierten Korpora, Kookkurrenzanalysen und statistischen Verfahren.
Der Name der non-commercial Freeware resultiert aus ihrer Anwendung im Rahmen einer explorativen Diskurskartographie: das Tool erzeugt induktive Daten, die mit Hilfe externer Software als self-organized-maps oder "Diskurskarten" visualisiert und zum Zwecke von linguistischen Diskurs- und Imageanalysen in Lehre und Forschung eingesetzt werden können.
ExploDika verfügt derzeit über folgende Funktionen:
- Ausschließliche Verarbeitung von TreeTagger-annottierten Textkorpora;
- Gute Performance auf Grund von Hash- und Multithread-Verarbeitung;
- Automatische Kookkurrenzanalysen und daraus resultierende Erstellung von Kotextprofilen zu n Ausgangsausdrücken;
- Auswertung und Gewichtung der Kookkurrenzanalysen mittels Chi-Square-Signifikanztest;
- Matrixanalyse zu n Kotextprofilen und Berechnung relativer Kotextähnlichkeit mittels des Assoziationsmaßes Cosine Similarity (Lee 1999);
- Automatische Ziehung einer randomisierten Stichprobe zur Ermittlung einer durchschnittlichen Ähnlichkeit aller n Ausgangsausdrücke bzw. Kotextprofile; Berechnung von Mittelwert, Varianz und Standardabweichung;
- Ermittlung eines Schwellwertes zur Filterung von 'ähnlichen' gegenüber 'unähnlichen' Kotextprofilen mittels Stichproben-Mittelwert, -standardabweichung und einem manuellen Faktor (alpha); - für die Entwicklung dieser Idee gilt mein Dank Prof. Dr. Sebastian Padó (Computerlinguistik, Universität Heidelberg);
- Export der Kookkurrenz- bzw. Kotextprofile und der Kontrastprofile;
- Filterung und Export der Ergebnisse im DOT-Format (für Import und Verarbeitung in Netzwerkanalyseprogrammen wie Gephi oder GraphViz);
- Speichern und Laden von Arbeitssitzungen zur Reduktion von Rechenaufwand.
Screenshots