Back to top

Implementierung eines Named Entity Recognition Systems für deutschsprachige Rechtstexte

Last modified Oct 11
   No tags assigned

Die Digitalisierung trifft heutzutage nahezu jede Domäne. Zurzeit ist auch die Rechtsdomäne betroffen. Eine stetig steigende Zahl an digitalisierten rechtlichen Dokumenten ist hierbei nur ein Indikator. Allerdings liegen die digitalisierten Rechtstexte meist in unstrukturierter Form vor, was die Verarbeitung durch Computersysteme stark einschränkt. Um eine digitale strukturelle Repräsentation dieser Rechtstexte zu erzeugen ist es unter anderem notwendig, so genannte Named Entities (NEs) zu erkennen. Hierzu wird Named Entity Recognition (NER) verwendet. Ein NER System muss zunächst potentielle NEs erkennen und diese anschließend anhand des zugrundeliegenden Typsystems klassifizieren. In der Literatur werden meist verschiedene Typen empfohlen. Hierbei sind immer Orte, Personen und Unternehmen bzw. Organisationen beinhaltet. Weitere Typen sind beispielsweise Datumswerte, Geldwerte oder Referenzen. Diese weiteren Unterscheidungen sind jedoch domänenabhängig. Named Entity Recognition Systeme für die rechtliche Domäne, insbesondere solche die speziell auf die deutsche Sprache geschnitten sind, sind jedoch Mangelware.

Daher soll im Rahmen dieser Arbeit ein Named Entity Recogniton System basierend auf deutschen Rechtstexten entwickelt werden. Hierzu soll zunächst ein für die Rechtsdomäne geeignetes Typsystem erstellt werden. Für NER gibt es unterschiedliche Verfahren, unter anderem eignen sich regelbasierte, wörterbuchbasierte und Machine Learning Verfahren. Im Rahmen dieser Arbeit soll ein ML-basiertes Verfahren entwickelt werden. Somit kommen supervised, semi-supervised und unsupervised Verfahren in Frage. Die Auswahl eines hierfür geeigneten Ansatzes ist somit auch Inhalt dieser Arbeit. Um ein supervised ML Verfahren anzuwenden wird ein annotierter Trainingsdatensatz benötigt. Zudem wird solch ein Datensatz auch im Falle eines unsupervised Ansatzes benötigt um eine Evaluation durchzuführen. Solch ein Datensatz ist aktuell für deutschsprachige Rechtstexte nicht vorhanden. Der Lehrstuhl für Software Engineering betrieblicher Informationssysteme verfügt über ein einfach zu bedienendes Tool um annotierte Datensätze dieser Art zu erstellen. Daher soll im Rahmen dieser Arbeit solch ein Datensatz erstellt werden. Abschließend ist eine Evaluation des entwickelten Systems notwendig. Hierbei soll das entwickelte Verfahren mit bestehenden NER Systemen verglichen werden.

 

Folgende Vorkenntnisse sind notwendig :
- Deutsch auf Muttersprachniveau
- Erfahrung in der Entwicklung mit Java und Python
- Erfahrung mit Machine Learning
- Erfahrung mit NLP oder den Wille Zeit zu investieren, um sich mit NLP schnell vertraut zu machen

Bei Interesse wenden Sie sich bitte an Ingo Glaser mit Ihrer Bewerbung, bestehend aus Motivation, aktuellem CV und Notenauszug.

Files and Subpages

There are no subpages or files.