DTA-Basisformat – Einführung
Die folgende Darstellung dokumentiert das XML-Basisformat des DTA, welches die Grundlage für die Annotation der DTA-Volltexte bildet. Das Basisformat folgt den P5-Richtlinien der Text Encoding Initiative (TEI). Da diese Richtlinien jedoch Lösungen für sämtliche Bedürfnisse bei der Textaufbereitung anbieten sollen und daher entsprechend vielfältig und umfangreich sind, bedürfen sie im konkreten Einzelfall einer näheren Spezifikation. Daher wurde aus den P5-Richtlinien für die Textstrukturierung im DTA-Korpus eine Tag-Auswahl getroffen (Tagset), die das DTA-Basisformat bildet. Dieses Tagset ist mit den P5-Richtlinien der TEI vollständig konform; auf Erweiterungen (tei.extensions) durch davon abweichende Elemente wurde verzichtet.
Das DTA-Basisformat soll im Rahmen der DTA-Richtlinien eine uneingeschränkte Textaufbereitung ermöglichen und dabei gleichzeitig Variationsspielräume bei der Annotation so einschränken, dass die Kohärenz der DTA-Texte untereinander gewährleistet wird. Für dieses Ziel stellt die Ausrichtung des DTA-Korpus in der Diachronie einerseits und die Textsortenvielfalt andererseits eine große Herausforderung dar, resultiert sie doch u. a. in einer strukturellen Variabilität der Vorlagen, der mit dem vorliegenden Annotationstagset Genüge getan werden muss.
Mit der Ausarbeitung des DTA-Basisformats wollen wir einen Vorschlag für einen Standard zur Volltext-Aufbereitung historischer Texte unterbreiten. Damit sollen zum einen Texte, die mit dem Basisformat kompatibel sind, in das DTA einfließen können, zum anderen aber die Verwendung von DTA-Texten in anderen Volltextarchiven erleichtert werden.
Zu den Dateien der Basisformat-Dokumentation
Stand dieser Seite: Fri Apr 13 12:29:51 2012



