1. Abstract: Dieser Beitrag befaßt sich in der Hauptsache mit den Problemen des Parsings von Wörterbuchartikeln, die in maschinenlesbarer Form vorliegen, insbesondere wenn es sich um ein historisch gewachsenes und nicht stark standardisiertes Wörterbuch, wie das »Deutsche Rechtswörterbuch«, handelt. Parsing ist dabei als jener Vorgang anzusehen, bei dem mit Hilfe einer Grammatik und einer Maschine einer Eingabe (hier: die maschinenlesbaren Wörterbuchartikel) eine Struktur – relativ zur Grammatik – zugewiesen oder die Eingabe als syntaktisch inkorrekt – wiederum relativ zur Grammatik – zurückgewiesen wird. Dabei wird von der Theorie der Angabe- und Mikrostruktur ausgegangen, die von H. E. Wiegand entwickelt wurde. Danach sind Wörterbuchartikel Texte, auf deren Textkonstituenten eine partitive Relation und eine Präzedenzrelation definiert sind. Diese Relationen gilt es durch das Parsing explizit zu machen.
Schließlich wird noch ein kurzer Blick auf die potentiellen Probleme geworfen, die beim Erstellen von maschinenlesbaren Wörterbuchartikeln auftreten, die ausschließlich in gedruckter Form vorliegen.
2. Abstract: In einem ersten Teil werden die grundsätzlichen Unterschiede, die zwischen einem Wörterbuchparser und einem Parser für die natürliche Sprache bestehen, beschrieben und diskutiert. Am auffälligsten ist, daß bei einem Wörterbuchparser – wenn überhaupt – nur eine sehr rudimentäre Lexikonphase vorgängig ist. Darüber hinaus ist ein Wörterbuchparser maßgeblich auf die typographischen und nichttypographischen Strukturanzeiger in einem Wörterbuchartikel angewiesen, während ein Parser für die natürliche Sprache in der Regel keine typographischen Strukturanzeiger berücksichtigt (in seltenen Fällen ist beispielsweise die Satzendemarke für die Analyse relevant).
Auf diesem Hintergrund wird der Wörterbuchparser LexParse charakterisiert, mit dem beim Deutschen Rechtswörterbuch an der Akademie der Wissenschaften, Heidelberg, gearbeitet wurde, und beispielhaft die Analyse eines Wörterbuchartikels, der bereits in maschinenlesbarer Form als Editor-Eingabe vorlag, demonstriert. Die Probleme, die sich beim Parsen ergeben haben, werden danach diskutiert. Abschließend wird ein kurzer Blick auf das Scannen und anschließende Parsen von Wörterbuchartikeln geworfen, wobei sich herausstellt, daß dieser Weg nicht gangbar ist, weil beim Scannen wichtige Strukturanzeiger, die in der maschinenlesbaren Form enthalten sind, vom Scanner nicht erkannt werden können, da diese weder als typographische noch als nichttypographische Strukturanzeiger im gedruckten Wörterbuchartikel auftreten.