Die Parameter

QUERY und ~QUERY

Die Angabe ist OBLIGATORISCH, der Datentyp ist STRING oder REGEX. Hier gibt man typischerweise das Suchwort (z.B. ‘Maske’) ein. Dieses kann auch ein regulärer Ausdruck sein (z.B. ‘/^Masken.*$/’, ‘/^*maske$/’, ‘/maske/’ etc.). Diesem Attribut kann außerdem eine komplette Abfrage in DDC als Wert mitgegeben werden. Zur Syntax von DDC vgl. die DDC-Dokumentation . Beispiele finden sich auch auf den DDC-Hilfeseiten .

DATE und ~DATE

Anzugeben ist ein durch zwei Jahreszahlen-Daten begrenzter Bereich, die beiden Werte, also untere und obere Schranke, können entweder durch den Doppelpunkt (:) oder durch den Bindestrich (-) von einander getrennt werden. Die gesamte Zeichenkette sollte kein Leernzeichen enthalten. Zugelassene Werte sind: DATUM (z.B. ‘1910’), mit dem Stern abgekürzte Formen desselben (z.B. ‘19*’) und MIN:MAX (z.B. ‘1900:1990’ oder ‘1900-1990’). Alternativ kann ein regulärer Ausdruck für die Darstellung des Untersuchungzeitraums angegeben werden, s. dazu das zweite Beispiel unten.

Beachten Sie, dass die Jahreszahlen sich auf das Erscheinen eines Textes im Korpus beziehen und damit vom Abdeckungszeitraum des jeweiligen Korpus (z.B. DTA: 1650:1910) abhängen. Wir definieren den Beobachtungszeitraum einer Analyse als den vom verwendeten Korpus abgedeckten Zeitraum. Wenn für DATE kein Wert angegeben wird, dann wird dieser Abdeckungszeitraum als Beobachtungszeitraum der aktuellen Analyse gewählt. Andernfalls wird der Beobachtungszeitraum durch den DATE-Wert festgelegt.

Es ist darauf zu achten, dass der durch den DATE-Wert festgesetzte Zeitraum vom Korpus vollständig abgedeckt bzw. erfasst wird. Für die (im DATE-Wert angegebenen) Jahreszeiträume, die vom Korpus nicht abgedeckt sind, werden keine Daten ausgegeben. Es wird bei der Angabe inkompatibler Zeiträume also keine Warnung oder Fehlermeldung ausgegeben.

Die Notation “*:*” ist eine Kurzschreibweise für “der gesamte Abdeckungszeitraum des Korpus”. Diese Kurzform ist hilfreich, wenn Sie das Startjahr und/oder das Endjahr der vom Korpus abgedeckten Periode nicht genau kennen.

Beispiele:

Eingabe Bedeutung
1900-1999 Interval: Texte aus dem zwanzigsten Jahrhundert
/^18[345]/ Regex: Dreißiger bis Fünfziger Jahre des 19. Jahrhunderts
1990:* Interval: Texte ab 1990
*:1999 Interval: Texte bis 1999
*:* Interval: gesamter Abdeckungszeitraum des zugrundeliegenden Korpus

SLICE und ~SLICE

Erforderlich ist ein positiver ganzzahliger Wert. Dieser bestimmt die Größe der Zeitscheiben, in die der durch das Korpus bzw. den DATE-Wert festgelegte Untersuchungszeitraum aufgeteilt wird. Wird ‘0’ angegeben, dann bildet der gesamte Untersuchungszeitraum eine Zeitscheibe. Das gleiche gilt, wenn die angegebene Ziffer größer ist als der Untersuchungszeitraum. Bei der Anzeige der Daten wird ein Intervall jeweils durch den unteren Wert dieses Intervalls angegeben. Ist also der Untersuchungszeitraum ‘1900-1940’ und der SLICE-Wert ‘10’, dann werden die Intervalle mit ‘1900’, ‘1910’, ‘1920’, ‘1930’, ‘1940’ angegeben. Für Zeitscheiben, die über den Untersuchungszeitraum hinausgehen, werden nur die im Untersuchungszeitraum liegenden Daten angezeigt, ein DATE-Wert ‘1820-1860’ produziert also 5 Zeitscheiben, die letzte davon umfasst nur 1 Jahr (für vier volle Jahrzehnte ist entsprechend ‘1820-1859’ anzugeben).

Wenn kein anderer Wert eingegeben wird, beträgt eine Zeitscheibe 10 Jahre (Standardwert=10).

Beachten Sie, dass bei den “diff:”-Profilen der SLICE-Wert und der ~SLICE-Wert kompatibel sein müssen. D.h. beide Werte müssen entweder gleich sein oder mindestens einer der Werte ist ‘0’.

GROUPBY

Die hier angegebenen Attribut-Werte-Paare ermöglichen es, die Ergebnismenge nach diesen Attribut-Werten zu gruppieren und weitere Einschränkunen (Filterung) für die Ergebnismenge festzulegen. Die hier angegebenen Attribute müssen bei der Erzeugung des Korpus indexiert worden sein. Die einzige momentan sicher verfügbare Kombination ist deshalb von der Art “l,p=ADJA” (oder ein anderer POS-Tag), mit der die Menge der Kollokationen auf Kollokationen einer bestimmten Wortart eingeschränkt werden können.

Beispiele:

Eingabe Bedeutung
l=/e/,p/^A/ das Lemma (der Kollokation) muss ein ‘e’ enthalten, die Wortart beginnt mit ‘A’
l=/bar$/,p=/^A/ das (adjektivische) Lemma muss auf -bar enden (‘brennbar’ etc.)

Weitere Möglichkeiten bietet das Profil der DDC-Abfrage, bei der weitere Metadaten(felder) der Korpora zur Gruppierung oder Beschränkung der Ergebnismenge verwendet werden können.

Wird in diesem Feld nichts anderes angegeben, dann werden die Daten (Kollokatoren) nach Lemmaform und Wortart gruppiert, ohne weitere Einschränkungen (Standardwert=l,p). Die Dabei folgen die Bezeichnungen der Wortarten dem in der deutschsprachigen Computerlinguistik gebräuchlichen Stuttgart-Tübingen-Tagset (STTS). Eine ausführliche Liste der Kürzel für die verschiedenen Wortformen mit erläuternden Beispielen bietet: http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-table.html

SCORE

Hier wird die Funktion angegeben, nach der Kollokationen für ein oder mehrere Stichwörter berechnet (bei ‘collocation’-Profilen) bzw. nach der die Stichwörter selbst (bei ‘unigram’-Profilen) berechnet und sortiert werden. Die zugelassen Werte sind: {f fm lf lfm mi ld ll}. Auf der Benutzerobefläche sind diesen sprechendere Namen zugeordnet. Eine etwas ausführlichere Beschreibung der einzelnen Funktionen mit Angaben zu weiterführender Literatur befindet sich unter http://kaskade.dwds.de/dstar/dta/diacollo/help.perl#scores

Standardmäßig ist für die “collocations”-Profile die Gewichtung nach logDice ausgewählt. LogDice ist ein häufig in der Korpuslinguistik eingesetztes einfaches statistisches Maß, welches möglichst gut die menschliche Intuition einer "interessanten" Kookurrenz abbilden soll. Maximalwert von logDice ist 14, Werte über 10 sind hoch signifikant. Der Wert 0 entspricht einem "zufälligen" gemeinsamen Vorkommen.

Wenn man die Häufigkeitsunterschiede eines Wortes in mehreren Zeitscheiben vergleichen möchte, dann bietet es sich an, die “Frequency per Million”-Funktion zu wählen, also eine relative Frequenz. Da die Menge der laufenden Wörter pro Zeitscheibe meist unterschiedlich groß ist, bietet diese Option eine Normalisierung über den verschiedenen Zeitscheiben und sichert dadurch deren Vergleichbarkeit.

KBEST

Erwartet wird hier eine positive ganze Zahl. Diese gibt die Menge der auszugebenden Treffer pro Zeitscheibe an, also Anzahl Koĺlokationen bei den “collocation”-Profilen und Stichwörter bei den “unigram”-Profilen. Die Angabe von ‘0’ oder eines negativen Werts, z.B. ‘-8’ führt zur Ausgabe aller möglichen Werte, was wegen der sehr großen Verarbeitungszeit unbedingt vermieden werden sollte. Wird kein Wert angegeben, dann werden die 10 besten Treffer ausgewählt (Standardwert=10).

CUTOFF

Mindestwert für den Score.Liegt der Score unter diesem angegebenen Mindestwert, so wird der betreffende Datensatz nicht angezeigt. Erwartet wird ein numerischer Wert (8, 8.0, -1.9 etc.). Andere Eingaben, z.B. STRING, werden ignoriert.

DIFF

Hier wird eine Differenzfunktion für zwei Werte eines “diff”-Profils erwartet. Die Wahl einer geeigneten DIFF-Funktion erfordert vertieftes statistisches Wissen. Ein ausführliche Darstellung der hinter den verschiedenen Werten steckenden Funktionen findet sich unter: http://kaskade.dwds.de/dstar/dta/diacollo/help.perl#diffs

Standardmäßig ist die Funktion adiff ausgewählt.

GLOBAL

Eingabe ist ein BOOL’scher Wert (0,1). Standardmäßig erfolgt die Auswahl der angezeigten Kollokatoren unabhängig für jeden Zeitabschnitt. Bei einer Einstellung KBEST: 10 werden z.B. erst für die erste Zeitscheibe die zehn stärksten Kollokatoren bestimmt und dann unabhängig davon die zehn stärksten für die zweite Zeitscheibe usw. Um die Entwicklung einer bestimmten Wortverbindung über mehrere Zeitscheiben hinweg verfolgen zu können, setzt man den Wert ‘1’. Dies führt dazu, dass die 10 stärksten Kollokatoren für den gesamten Untersuchungszeitraum bestimmt werden. Diese für den Gesamtzeitraum relevantesten Kollokatoren werden dann in jedem Zeitabschnitt in der dafür berechneten Stärke angezeigt. Die Option ist, wenn nicht anders gewählt, deaktiviert (Standardwert=0)

PROFIL

Hier muss aus einer Liste vorgegebener Werte ausgewählt werden. Grob gesagt kann sich die statistische Analyse beziehen auf a) (Mengen von) Stichwörter(n): unigram; b) Mengen von Kollokationen: collocations oder c) durch DDC-Abfragen gewonnene Stichwortmengen: DDC. Die Untersuchung kann dabei eine absolute oder eine vergleichende Perspektive haben, für Letztere sind die “diff:”-Varianten der unter a-c genannten Profile vorgesehen. Eine Liste und ausführlichere Beschreibung der hinter den Werten stehenden Methoden findet sich unter: http://kaskade.dwds.de/dstar/dta/diacollo/help.perl#profiles

Anmerkung:

Exkurs - DDC: Abfragen können im DiaCollo-eigenen Format, aber auch im DDC-Format gestellt werden. In einfachen Fällen sieht die Abfrage (QUERY) gleich aus. Interessant wird der DDC-Modus dann, wenn die Möglichkeiten der DiaCollo-eigenen Abfrage ausgereizt sind. Hierfür schaue man sich am besten die komplexeren Beispiele auf der Hilfe-Seite an.

Standardmäßig ist das Profil collocations ausgewählt.

FORMAT

Die Ergebnisdaten können in unterschiedlichen Formaten ausgegeben werden. Einige davon eignen sich besser für die (maschinelle) Weiterverarbeitung der Ergebnisdaten, andere für die Veranschaulichung. Es werden verschiedene Visualisierungswerkzeuge verwendet. Die Beispiele im Tutorial zeigen einige der Visualisierungsmöglichkeiten. Eine ausführlichere Beschreibung findet sich unter: http://kaskade.dwds.de/dstar/dta/diacollo/help.perl#formats

Standardmäßig ist die Ausgabeart HTML ausgewählt