Die Parameter
QUERY und ~QUERY
Die Angabe ist OBLIGATORISCH, der Datentyp ist STRING oder REGEX. Hier gibt man typischerweise das Suchwort (z.B. ‘Maske’) ein. Dieses kann auch ein regulärer Ausdruck sein (z.B. ‘/^Masken.*$/’, ‘/^*maske$/’, ‘/maske/’ etc.). Diesem Attribut kann außerdem eine komplette Abfrage in DDC als Wert mitgegeben werden. Zur Syntax von DDC vgl. die DDC-Dokumentation ⇗. Beispiele finden sich auch auf den DDC-Hilfeseiten ⇗.
DATE und ~DATE
Anzugeben ist ein durch zwei Jahreszahlen-Daten begrenzter Bereich, die beiden Werte, also untere und obere Schranke, können entweder durch den Doppelpunkt (:) oder durch den Bindestrich (-) von einander getrennt werden. Die gesamte Zeichenkette sollte kein Leernzeichen enthalten. Zugelassene Werte sind: DATUM (z.B. ‘1910’), mit dem Stern abgekürzte Formen desselben (z.B. ‘19*’) und MIN:MAX (z.B. ‘1900:1990’ oder ‘1900-1990’). Alternativ kann ein regulärer Ausdruck für die Darstellung des Untersuchungzeitraums angegeben werden, s. dazu das zweite Beispiel unten.
Beachten Sie, dass die Jahreszahlen sich auf das Erscheinen eines Textes im Korpus beziehen und damit vom Abdeckungszeitraum des jeweiligen Korpus (z.B. DTA: 1650:1910) abhängen. Wir definieren den Beobachtungszeitraum einer Analyse als den vom verwendeten Korpus abgedeckten Zeitraum. Wenn für DATE kein Wert angegeben wird, dann wird dieser Abdeckungszeitraum als Beobachtungszeitraum der aktuellen Analyse gewählt. Andernfalls wird der Beobachtungszeitraum durch den DATE-Wert festgelegt.
Es ist darauf zu achten, dass der durch den DATE-Wert festgesetzte Zeitraum vom Korpus vollständig abgedeckt bzw. erfasst wird. Für die (im DATE-Wert angegebenen) Jahreszeiträume, die vom Korpus nicht abgedeckt sind, werden keine Daten ausgegeben. Es wird bei der Angabe inkompatibler Zeiträume also keine Warnung oder Fehlermeldung ausgegeben.
Die Notation “*:*” ist eine Kurzschreibweise für “der gesamte Abdeckungszeitraum des Korpus”. Diese Kurzform ist hilfreich, wenn Sie das Startjahr und/oder das Endjahr der vom Korpus abgedeckten Periode nicht genau kennen.
Beispiele:
Eingabe | Bedeutung |
---|---|
1900-1999 | Interval: Texte aus dem zwanzigsten Jahrhundert |
/^18[345]/ | Regex: Dreißiger bis Fünfziger Jahre des 19. Jahrhunderts |
1990:* | Interval: Texte ab 1990 |
*:1999 | Interval: Texte bis 1999 |
*:* | Interval: gesamter Abdeckungszeitraum des zugrundeliegenden Korpus |
SLICE und ~SLICE
Erforderlich ist ein positiver ganzzahliger Wert. Dieser bestimmt die Größe der Zeitscheiben, in die der durch das Korpus bzw. den DATE-Wert festgelegte Untersuchungszeitraum aufgeteilt wird. Wird ‘0’ angegeben, dann bildet der gesamte Untersuchungszeitraum eine Zeitscheibe. Das gleiche gilt, wenn die angegebene Ziffer größer ist als der Untersuchungszeitraum. Bei der Anzeige der Daten wird ein Intervall jeweils durch den unteren Wert dieses Intervalls angegeben. Ist also der Untersuchungszeitraum ‘1900-1940’ und der SLICE-Wert ‘10’, dann werden die Intervalle mit ‘1900’, ‘1910’, ‘1920’, ‘1930’, ‘1940’ angegeben. Für Zeitscheiben, die über den Untersuchungszeitraum hinausgehen, werden nur die im Untersuchungszeitraum liegenden Daten angezeigt, ein DATE-Wert ‘1820-1860’ produziert also 5 Zeitscheiben, die letzte davon umfasst nur 1 Jahr (für vier volle Jahrzehnte ist entsprechend ‘1820-1859’ anzugeben).
Wenn kein anderer Wert eingegeben wird, beträgt eine Zeitscheibe 10 Jahre (Standardwert=10).
Beachten Sie, dass bei den “diff:”-Profilen der SLICE-Wert und der ~SLICE-Wert kompatibel sein müssen. D.h. beide Werte müssen entweder gleich sein oder mindestens einer der Werte ist ‘0’.
GROUPBY
Die hier angegebenen Attribut-Werte-Paare ermöglichen es, die Ergebnismenge nach diesen Attribut-Werten zu gruppieren und weitere Einschränkunen (Filterung) für die Ergebnismenge festzulegen. Die hier angegebenen Attribute müssen bei der Erzeugung des Korpus indexiert worden sein. Die einzige momentan sicher verfügbare Kombination ist deshalb von der Art “l,p=ADJA” (oder ein anderer POS-Tag), mit der die Menge der Kollokationen auf Kollokationen einer bestimmten Wortart eingeschränkt werden können.
Beispiele:
Eingabe | Bedeutung |
---|---|
l=/e/,p/^A/ | das Lemma (der Kollokation) muss ein ‘e’ enthalten, die Wortart beginnt mit ‘A’ |
l=/bar$/,p=/^A/ | das (adjektivische) Lemma muss auf -bar enden (‘brennbar’ etc.) |
Weitere Möglichkeiten bietet das Profil der DDC-Abfrage, bei der weitere Metadaten(felder) der Korpora zur Gruppierung oder Beschränkung der Ergebnismenge verwendet werden können.
Wird in diesem Feld nichts anderes angegeben, dann werden die Daten (Kollokatoren) nach Lemmaform und Wortart gruppiert, ohne weitere Einschränkungen (Standardwert=l,p). Die Dabei folgen die Bezeichnungen der Wortarten dem in der deutschsprachigen Computerlinguistik gebräuchlichen Stuttgart-Tübingen-Tagset (STTS). Eine ausführliche Liste der Kürzel für die verschiedenen Wortformen mit erläuternden Beispielen bietet: http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-table.html ⇗
SCORE
Hier wird die Funktion angegeben, nach der Kollokationen für ein oder mehrere Stichwörter berechnet (bei ‘collocation’-Profilen) bzw. nach der die Stichwörter selbst (bei ‘unigram’-Profilen) berechnet und sortiert werden. Die zugelassen Werte sind: {f fm lf lfm mi ld ll}. Auf der Benutzerobefläche sind diesen sprechendere Namen zugeordnet. Eine etwas ausführlichere Beschreibung der einzelnen Funktionen mit Angaben zu weiterführender Literatur befindet sich unter http://kaskade.dwds.de/dstar/dta/diacollo/help.perl#scores ⇗
Standardmäßig ist für die “collocations”-Profile die Gewichtung nach logDice ausgewählt. LogDice ist ein häufig in der Korpuslinguistik eingesetztes einfaches statistisches Maß, welches möglichst gut die menschliche Intuition einer "interessanten" Kookurrenz abbilden soll. Maximalwert von logDice ist 14, Werte über 10 sind hoch signifikant. Der Wert 0 entspricht einem "zufälligen" gemeinsamen Vorkommen.
Wenn man die Häufigkeitsunterschiede eines Wortes in mehreren Zeitscheiben vergleichen möchte, dann bietet es sich an, die “Frequency per Million”-Funktion zu wählen, also eine relative Frequenz. Da die Menge der laufenden Wörter pro Zeitscheibe meist unterschiedlich groß ist, bietet diese Option eine Normalisierung über den verschiedenen Zeitscheiben und sichert dadurch deren Vergleichbarkeit.
KBEST
Erwartet wird hier eine positive ganze Zahl. Diese gibt die Menge der auszugebenden Treffer pro Zeitscheibe an, also Anzahl Koĺlokationen bei den “collocation”-Profilen und Stichwörter bei den “unigram”-Profilen. Die Angabe von ‘0’ oder eines negativen Werts, z.B. ‘-8’ führt zur Ausgabe aller möglichen Werte, was wegen der sehr großen Verarbeitungszeit unbedingt vermieden werden sollte. Wird kein Wert angegeben, dann werden die 10 besten Treffer ausgewählt (Standardwert=10).
CUTOFF
Mindestwert für den Score.Liegt der Score unter diesem angegebenen Mindestwert, so wird der betreffende Datensatz nicht angezeigt. Erwartet wird ein numerischer Wert (8, 8.0, -1.9 etc.). Andere Eingaben, z.B. STRING, werden ignoriert.
DIFF
Hier wird eine Differenzfunktion für zwei Werte eines “diff”-Profils erwartet. Die Wahl einer geeigneten DIFF-Funktion erfordert vertieftes statistisches Wissen. Ein ausführliche Darstellung der hinter den verschiedenen Werten steckenden Funktionen findet sich unter: http://kaskade.dwds.de/dstar/dta/diacollo/help.perl#diffs ⇗
Standardmäßig ist die Funktion adiff ausgewählt.
GLOBAL
Eingabe ist ein BOOL’scher Wert (0,1). Standardmäßig erfolgt die Auswahl der angezeigten Kollokatoren unabhängig für jeden Zeitabschnitt. Bei einer Einstellung KBEST: 10 werden z.B. erst für die erste Zeitscheibe die zehn stärksten Kollokatoren bestimmt und dann unabhängig davon die zehn stärksten für die zweite Zeitscheibe usw. Um die Entwicklung einer bestimmten Wortverbindung über mehrere Zeitscheiben hinweg verfolgen zu können, setzt man den Wert ‘1’. Dies führt dazu, dass die 10 stärksten Kollokatoren für den gesamten Untersuchungszeitraum bestimmt werden. Diese für den Gesamtzeitraum relevantesten Kollokatoren werden dann in jedem Zeitabschnitt in der dafür berechneten Stärke angezeigt. Die Option ist, wenn nicht anders gewählt, deaktiviert (Standardwert=0)
PROFIL
Hier muss aus einer Liste vorgegebener Werte ausgewählt werden. Grob gesagt kann sich die statistische Analyse beziehen auf a) (Mengen von) Stichwörter(n): unigram; b) Mengen von Kollokationen: collocations oder c) durch DDC-Abfragen gewonnene Stichwortmengen: DDC. Die Untersuchung kann dabei eine absolute oder eine vergleichende Perspektive haben, für Letztere sind die “diff:”-Varianten der unter a-c genannten Profile vorgesehen. Eine Liste und ausführlichere Beschreibung der hinter den Werten stehenden Methoden findet sich unter: http://kaskade.dwds.de/dstar/dta/diacollo/help.perl#profiles ⇗
Exkurs - DDC: Abfragen können im DiaCollo-eigenen Format, aber auch im DDC-Format gestellt werden. In einfachen Fällen sieht die Abfrage (QUERY) gleich aus. Interessant wird der DDC-Modus dann, wenn die Möglichkeiten der DiaCollo-eigenen Abfrage ausgereizt sind. Hierfür schaue man sich am besten die komplexeren Beispiele auf der Hilfe-Seite ⇗ an.
Standardmäßig ist das Profil collocations ausgewählt.
FORMAT
Die Ergebnisdaten können in unterschiedlichen Formaten ausgegeben werden. Einige davon eignen sich besser für die (maschinelle) Weiterverarbeitung der Ergebnisdaten, andere für die Veranschaulichung. Es werden verschiedene Visualisierungswerkzeuge verwendet. Die Beispiele im Tutorial zeigen einige der Visualisierungsmöglichkeiten. Eine ausführlichere Beschreibung findet sich unter: http://kaskade.dwds.de/dstar/dta/diacollo/help.perl#formats ⇗
Standardmäßig ist die Ausgabeart HTML ausgewählt