Back to top

Bachelor's Thesis Ludwig Sigl

Last modified Apr 30, 2015

Aufgabenstellung:

 

An der Fakultät für Informatik gibt es eine digitale Sammlung von Vorlesungsaufzeichnungen für Kurse an der Fakultät mit dem Tool TTT (Zitat). Diese Aufzeichnungen werden bereits gemäß der in den Vorträgen verwendeten Folien segmentiert, und für jedes der Segmente wird per OCR der Text der Folien extrahiert. Das Ergebnis ist als XML-Datei mit einem XML-Schema verfügbar.

 

Ziel der Arbeit ist es,  eine Plattform zu entwickeln, um das Vorlesungsarchiv thematisch zu erschließen.

 

Hierzu sollen zunächst Heuristiken entwickelt werden, um aus der XML-Datei relevante Vorkommen von Schlüsselworten  (d.h. Themen) und Inhaltstypen zu extrahieren (z.B. Definition, Bild, Beispiel, Programm, Beweis, Literaturangabe). Es ist zu erwarten, dass  für Materialien verschiedener Kurse verschiedene Heuristiken notwendig sind. Parameter der Heuristik für die Erkennung von Schlüsselworten sind z.B. Position auf der Folie, Zeichengröße, Farbe, Zeichensatz, Stil (fett), relative Position zu einem anderen Schlüsselwort (z.B. Definition, Bennutzung, Beispiel, ).

 

Die Heuristik ist durch ein Java-Werkzeug umzusetzen, das serverseitig ohne Benutzerinteraktion durchgeführt werden kann. Für den iterativen und interaktiven Prozess der Entwicklung der Kurs-Spezifischen Heuristiken ist ein Java-Applikation, evtl. mit Web-Oberfläche zu entwickeln.

 

Parallel ist eine Themenhierarchie zu verwalten:

- Wurzelthema = Informatik

- Jedes Thema besitzt mindestens ein Schlüsselwort (z.B: „Endlicher Automat“) und weitere Schlüsselworte (Synonyme, „Finite State Automaton“, „State Machine“)

- Evtl. Description

- Jedes Thema kann beliebig viele Unterthemen besitzen („Deterministischer Endlicher Automat“), „Nicht-Deterministischer Endlicher Automat“)

- Ein Unterthema kann evtl. zu mehr als einem Thema gehören („NFA“ -> „Endlicher Automat“ und „Nichtdeterminismus“)

 

- Pro Thema existiert eine Anzahl von Vorkommen des Themas auf Folien

- Jedes Vorkommen besteht aus

            einem Schlüsselwort

einem Verweis auf eine Folie,

einer Positionsangabe,

einem Inhaltstyp (Definition, Erklärung, Benutzung, …)

und einem Verweis auf das Thema.

Ein Vorkommen kann entweder ein Vorschlag (basierend auf Heristik) oder ein bestätigtes Vorkommen sein.

Für ein bestätigtes Vorkommen wird die Zeit und der Autor der Bestätigung gespeichert.

 

Über eine Web-Oberfläche sollen verschiedene Benutzer (Studierende, Dozenten) die Folien interaktiv thematisch erschließen können. Dazu sollen die Benutzer durch die Folien blättern. Für jede Folie werden die  bisher (heuristisch und manuell) identifizierten Vorkommen (Wort, Inhalstyp) möglichst mit der  visuellen Angabe der Position auf der Folie angezeigt.

 

Für jedes Schlüsselwort  in einem Vorkommen wird zunächst überprüft, ob das Schlüsselwort bereits als Name oder Synonym eines Themas in der Themenhierarchie vorkommt  (definiertes Schlüsselwort)

In einer ersten Liste werden alle Vorkommen von definierten Schlüsselworten angezeigt (inkl. wer/wann) . Der Benutzer kann nun folgendes mit diesen tun:

- Vorschlag bestätigen => Vorkommen wird in Themenhierarchie eingehängt.

- Vorschlag ignorieren

- Vorschlag bearbeiten

            Inhaltstyp ändern

            ? Thema ändern

- Thema manuell hinzufügen

            Thema eingeben (= Schlüsselwort)

            Positioin eingeben

 

In einer zweiten Liste werden Vorkommen von undefinierten Schlüsselworten angezeigt. Der Benutzer kann nun folgendes mit diesen tun:

- Vorschlag bestätigen und Thema in Themenhierarchie einfügen.

            Auswahl Oberthema

            Neues Thema mit Name = Vorschlag.Keyword

            Verlinkung Vorkommen mit Thema

 

Jederzeit können berechtigte lesende Nutzer  eine Suche nach Folien zu einem Thema durchführen

- Eingabe Text

- Autocompletion Themen nach Name / Synonym (evtl. Descripition)

- Anzeige aller Vorkommen zum Thema

            Miniaturvoransicht (Mouse-Over?) wäre super

- Facetten-Drill-Down über

            Kurs

            Autor

            Folien-Nummer

            Inhaltstyp

            Autor des Vorkommens

- (durch Tricia-Standard)

 

Denkbar: Zähler bei Vorkommen, wie häufig es in der Trefferliste aufgerufen wurde. Ermöglicht höheres Ranking beliebter Folien.

 

Files and Subpages

Name Type Size Last Modification Last Editor
BAC-Ausarbeitung.pdf 1,09 MB 16.05.2012 Alexander Steinhoff (account disabled)
presentation.pdf 645 KB 16.05.2012 Alexander Steinhoff (account disabled)