GSCL-Arbeitskreis Korpuslinguistik und quantitative Linguistik

Leitung: Alexander Mehler, Armin Hoenen
E-Mail: meh…@em.uni-frankfurt.de, h…@em.uni-frankfurt.de

Der Arbeitskreis Korpuslinguistik und quantitative Linguistik befasst sich mit der Entwicklung und Erprobung von Werkzeugen zur automatischen Analyse von Korpora sowie mit der Konstruktion und Anwendung mathematischer, quantitativer Modelle der explorativen Korpusanalyse. Der Arbeitskreis thematisiert folgende Fragestellungen:

  • Aufbereitung und Annotation von Korpora.
  • Korpusanalytisch basierte Metrisierung von Eigenschaften und Relationen sprachlicher Einheiten.
  • Extraktion, Rekonstruktion bzw. Exploration sprachlichen Wissens aus Korpora natürlichsprachlicher Texte.
  • Förderung von Anwendungen im Bereich der Textanalyse und Texttechnologie.
  • Unterstützung der linguistischen Theorienbildung.

Beschreibung

Die Korpuslinguistik thematisiert die automatische, explorative Analyse von Korpora natürlichsprachlicher Texte. Sie geht davon aus, daß textuelle Einheiten als Resultate von Kommunikationsprozessen wirklicher Sprecher/Hörer primäre sprachliche Erfahrungsdaten sind, die dem Sprachwissenschaftler vor jeder Analyse gegeben sind. Daher bilden Korpora textueller Einheiten die empirische Grundlage zur Analyse sprachlicher Einheiten, ihrer Eigenschaften und Relationen. Anders als kompetenztheoretische Ansätze betrachtet die Korpuslinguistik die systematische, quantitative Analyse von Korpora als Voraussetzung für die Falsifizierbarkeit sprachwissenschaftlicher Hypothesen wie auch für die Übertragbarkeit und Erweiterbarkeit ihrer Verfahren und die Reproduzierbarkeit ihrer Resultate. Diese methodische, wissenschaftstheoretisch untermauerte Konzeption steht in Zusammenhang mit einem erweiterten Gegenstandsbegriff: Die Korpuslinguistik zielt auf eine Analyse auch solcher Strukturen, die dem Sprachgefühl individueller Sprachteilnehmer unzugänglich sind und erst durch Analyse größerer Datenmengen erschlossen werden können. Dies betrifft die Untersuchung probabilistischer, präferenzrelationaler Strukturen, die unter anderem dadurch gekennzeichnet sind, daß sie in Abhängigkeit von pragmatischen, sprachlichen und außersprachlichen Faktoren nicht regelbasiert variieren.

Korpuslinguistische Ansätze lassen sich in die Gruppe explorativer und testender Verfahren unterteilen. Erstere Verfahrensgruppe zielt auf eine korpusanalytische Exploration sprachlicher Kategorien und Regularitäten bei gleichzeitiger Reduktion von Präsuppositionen im Hinblick auf die Regularitäten sprachlicher Einheiten. Hiervon sind solche Verfahren abzugrenzen, die vor dem Hintergrund vorstrukturierter, bereits mit syntaktischen, semantischen oder pragmatischen Informationen annotierten Korpora gegebene, nicht notwendigerweise korpusanalytisch gewonnene Hypothesen überprüfen. Der Arbeitskreis Korpuslinguistik integriert den Arbeitskreis zur Quantitativen Linguistik (QL), die durch ihre spezifischen Untersuchungsmethoden, ihren prinzipiell empirischen, korpusanalytischen Datenbezug sowie durch ihr spezifisches Erkenntnisinteresse gekennzeichnet ist. Der Untersuchungsgegenstand der QL ist auf keinen bestimmten Bereich sprachwissenschaftlicher Tätigkeit eingeschränkt. Ihre Methoden umfassen in Ergänzung und Erweiterung der in der mathematischen Linguistik verwendeten Methoden (Logik, Mengentheorie, Algebra, etc.) quantitative, numerische Verfahren (der Statistik, Stochastik, der Theorie unscharfer Mengen, etc.). Gegenüber rein algebraischen („qualitativen“) Ansätzen zeichnet sich die QL dadurch aus, daß sie den in der Wissenschaftstheorie etablierten Theorie- und Gesetzesbegriff übernimmt. In diesem Sinne zielt die theoretische QL auf die Konstruktion einer Sprachtheorie in Form nomologischer Systeme zur Einlösung eines linguistischen Erklärungsanspruchs.

Praktische Ziele

  • Austausch von Informationen über Aktivitäten im Forschungs- und Anwendungsbereich der Korpus- und quantitativen Linguistik.
  • Förderung der Kooperation forschungs- und/oder anwendungsbezogener Projekte durch Information über bzw. gemeinsame Nutzung von Korpora und Software.
  • Vereinheitlichung des Instrumentariums der Korpus- sowie der quantitativen Linguistik. Schaffung von Möglichkeiten zum Vergleich von Verfahren und Resultaten korpusanalytischer wie auch quantitativ-linguistischer Projekte.
  • Herstellung und Förderung internationaler Kontakte unter anderem durch Zusammenarbeit mit der International Quantitative Linguistics Association (IQLA).