Häufig gestellte Fragen (FAQs): Was muss ich tun, um ...

1. ... die Software lokal zu installieren?

DiaCollo ist eine in Perl geschriebene Library, die unter den gleichen Lizenzbedingungen wie Perl selbst steht. Der Quellcode dieser Library ist bei CPAN erhältlich (s. zum Beispiel http://metacpan.org/release/DiaColloDB ⇗ bzw. http://metacpan.org/release/DiaColloDB-WWW ⇗. Erfahrung mit Perl und der Implementierung von Libraries ist hilfreich.

2. ... mein eigenes Korpus mit DiaCollo zu indizieren?

Neben der Software selbst ist der Zugang zu einigen Korpora des Zentrums Sprache der BBAW über Webservices (und eine Benutzerschnittstelle) implementiert. Die Aufbereitung dieser Korpora findet im Rahmen des DDC-Korpusmanagements statt. Um zu klären, ob und wie Sie Ihre eigenen Korpora in diesen Rahmen integrieren können, wenden Sie sich bitte an jurish@bbaw.de. In manchen Fällen können Korpora auch über das CLARIN-Zentzrum der BBAW in die dortige Infrastruktur integriert werden. Um das zu klären, wenden Sie sich bitte an dwds@bbaw.de.

3. ... die Verwendung eines Stichwortes in zwei verschiedenen Korpora zu vergleichen?

Momentan können nicht zwei Korpora mit einer einzigen DiaCollo-Instanz analysiert werden. Man muss die Korpora durch zwei verschiedene Instanzen analysieren und die Daten parallel, z.B. in zwei Browserfenstern, anzeigen lassen. An einer korpusübergreifenden Analyse wird zurzeit gearbeitet.

4. ... die Kollokationsprofile desselben Stichworts in zwei Zeiträumen zu vergleichen?

a) PROFILE=diff:collocations auswählen
b) bei QUERY und ~QUERY das gleiche Stichwort eingeben
c) bei DATE und ~DATE die gewünschten (unterschiedlichen) Zeiträume angeben
d) bei SLICE und ~SLICE den gleichen Wert angeben

Ausgabe der Daten über ein FORMAT der Wahl (ausführlicher dazu Beispiel 6 des Tutorials).

5. ... die Kollokationsprofile eines Stichworts über einen bestimmten Zeitraum mit dem Kollokationsprofil über den gesamten Abdeckungszeitraum des Korpus zu vergleichen?

a) PROFILE=diff:collocations auswählen
b) bei QUERY und ~QUERY das gleiche Stichwort eingeben
c) bei DATE den Analysezeitrum und bei ~DATE den Referenzzeitraum (z.B. als *:*) eingeben
d) bei SLICE und ~SLICE den Wert ‘0’ angeben

Ausgabe der Daten über ein FORMAT der Wahl (ausführlicher dazu Beispiel 6 des Tutorials).

6. ... die Ausgabedaten zu gruppieren und / oder zu filtern (GROUPBY)

Die möglichen Attribute werden schon beim Aufbau der Korpora festgelegt. Im Prinzip kommen die meisten Metadatenfelder dafür in Frage, diese müssen aber bei der Aufbereitung der Korpora indiziert werden. Verlässlich indiziert sind bei den Korpora des Zentrums Sprache für jedes Stichwort die Grundform (‘lemma’ bzw. ‘l’) und die Wortart (part of speech, kurz: ‘pos’ bzw. ‘p’). Welche Felder für ein bestimmtes Korpus in DiaCollo indiziert wurden, kann der "Info"-Seite zu jedem Korpus entnommen werden (zugänglich durch Klicken auf den "Info"-Button). Diese Informationen finden sich in den Zeilen “attrs”, “tdf.attrs” und “tdf.meta”. Die indizierten Metadatenfelder können über die von DDC erzeugte “Info”-Seite für jedes Korpus eingesehen werden, die über den jeweiligen “Info”-Button unter http://kaskade.dwds.de/dstar/ ⇗ zugänglich ist. Im Eintrag "corpora" > Unterpunkt "bibl" werden die indizierten Metadatenfelder aufgelistet, im Eintrag "corpora" > Unterpunkt "indices" sind die für die Textdaten erstellten Indices aufgeführt. Wenn Sie eigene Korpora mit dem DDC-Korpusmanagement-System aufbauen wollen, empfiehlt sich ein Blick in die “Best Practice”-Guidelines ⇗.

8. ... die Ausgabedaten nach bestimmten Kriterien zu gruppieren/filtern?

Verlässlich stehen die Grundform und die Wortart zur Verfügung, um die Ausgabedaten, z.B. die Kollokationen zu einem Stichwort, zu gruppieren oder zu filtern. Für die Gruppierung reicht die Angabe des Parameters im GROUPBY-Feld (‘l’ für lemma, ‘p’ für Wortart). Für die Filterung werden den Parametern Werte beigegeben (z.B. l=/bar$/ p=/ADJA/; ausführlicher dazu im Beispiel 4 des Tutorials). Weitere Paramater können mithilfe der DDC-Syntax “abgefragt” werden, z.B.: {q:"* =2 Mann" #has[textClass,Wissenschaft*] ; bq:"* =2 Mann" #has[textClass,Belletristik*] ; slice:0 ; gb:l,p=ADJA ; p:diff-ddc} ⇗

(Hier wird das Metadatenfeld “textClass” ausgewählt und auf die Werte “Wissenschaft*” bzw. “Belletristik*” eingeschränkt.)

9. ... die Ergebnisdaten einer Analyse mit meinen eigenen Werkzeugen weiterzuverarbeiten?

Die Ausgabeformate “Text”, “JSON” und “Storable” sind besonders gut für die Übernahme der Analyseergebnisse in eigene Programme geeignet. Die Wahl des Formats hängt natürlich von den Eigenschaften der weiterverarbeitenden Software ab.

10. ... die Ergebnisdaten zu exportieren / lokal zu speichern?

Für die lokale Weiterverarbeitung der Daten sind HTML, text, JSON und Storable die wichtigsten Optionen. Um diese herunterzuladen, sollten Sie a) die “Raw URL” über den Daten anklicken und b) die dann im Browser angezeigten Daten über das Browser-Menü (Menüleiste: Datei → Seite speichern unter) lokal abspeichern. Die grafischen Visualisierungen können Sie über den abwärts gerichteten Pfeil am unteren rechten Rand des Feldes, das sich über der Ergebnisdarstellung befindet, heruntergeladen werden.

11. ... reguläre Ausdrück zu verwenden?

Bei einigen Feldern - QUERY, DATE, GROUPBY - können reguläre Ausdrücke anstelle von literalen Zeichenketten verwendet werden. Da die Software in PERL geschrieben wurde, entspricht auch die formale Syntax der regulären Ausdrücke den in PERL verwendeten Konventionen ⇗. Beispiele finden sich in der Schritt-für-Schritt-Anleitung (u.a. Beispiel 6) und in der Parameter-Referenz.

12. ... die Belege hinter einer Beobachtung (z.B. einer Kollokation) anzusehen?

Wenn man z.B. in der “Cloud-” oder der HTML-Darstellung auf eine Kollokation klickt, dann erhält man ein “Detail”-Fenster, das über die “KWIC”-Option auch den Durchgriff auf die Korpusbelege erlaubt (Details in Beispiel 1 des Tutorials).