Topic/S Abschluss

Nachdem nun auch die Projektverlängerung bei Fink & Partner zu Ende geht, ist es Zeit für eine abschließende Zusammenfassung der Projektergebnisse. In den letzten fast zweieinhalb Jahren haben wir uns intensiv mit der automatischen Themen- und Trendgenerierung aus Nachrichteninhalten beschäftigt.

Als Grundlage für die Berechnung von Themen muss der Inhalt der Medienobjekte maschinenlesbar erschlossen werden. Für Texte und Bildbeschreibungen kommt die Named Entity Recognition (NER) zum Einsatz. Mit ihrer Hilfe können vollautomatisch Personen, Orte und Organisationen in den Inhalten erkannt. Wir greifen dabei auf eine wörterbuchbasierte Lösung zurück, da sie eine geringe Fehlerquote und vollständige Kontrolle über den eingesetzten Wortschatz bietet. Um trotzdem flexibel bei der Erkennung neuer Entitäten zu sein, kommt zusätzlich eine statistische Methode zum Einsatz. Die von ihr ermittelten unbekannten Entitäten werden zur Erweiterung der Wörterbücher genutzt. Zusätzlich zu den Entitäten kommt eine Keywordextraktion zum Einsatz. Diese Keywords helfen in Kombination mit den Named Entities den Inhalt eines Dokumentes schnell zu erfassen. Außerdem wird über statistische Verfahren automatisch die Kategorie (z. B. Sport, Politik, Wirtschaft) eines Textdokumentes bestimmt. Die gesamten Informationen des Extraktionsprozesses werden in Form eines Graphen gespeichert, welcher die Analyse von Querbeziehungen zwischen den Medienobjekten ermöglicht. Außerdem lassen sich die strukturierten Informationen zur Umsetzung einer facettierten Suche nutzen. Die Abbildung zeigt eine facettierte Suchoberfläche in unserem Forschungsprototypen.

 

Die Ermittlung der Themen erfolgt nun mit Hilfe eines hierarchischen  Clusteralgorithmus, der die gemeinsamen Entitäten der Mediendokumente auswertet. Auf diesem Weg lassen sich Gruppen von Medienobjekten erstellen, die alle dasselbe Hauptthema beschreiben. Zur Benennung der Themen nutzen wir die wichtigsten Entitäten und Keywords der enthaltenen Dokumente. Auf diese Weise kann eine gute Übersicht über den Inhalt des Themas vermittelt werden. Die Themen werden in kurzen Abständen neu berechnet, um Änderungen in der Nachrichtenlage zu erkennen aus welchen sich die Nachrichtentrends berechnen lassen. Mit den so berechneten Themen findet der Redakteur einen Idealen Einstieg in die medialen Geschehnisse des Tages und kann dadurch eine größere Menge an Informationen überblicken. Ausgehend von dieser Übersicht kann er anschließend seine Recherche vertiefen. Durch die Verknüpfung von verschiedenen Medientypen innerhalb der Themen, z. B. Bild und Text, lassen sich die zu produzierenden multimedialen Inhalte einfach zusammenstellen.

 

Erfahrungen

Während des Projektes konnten wir einen guten Einblick in die aktuellen technischen Möglichkeiten in der Knowledge-Exctraction und dem Semantic Web sammeln. Durch eigene Forschungsarbeit und die Evaluation externer Lösungen hat sich ergeben, dass die Produkte auf dem Gebiet der NER fortgeschritten sind und es möglich ist, hochwertige Extraktionsergebnisse zu erzielen. Wenn es aber um die Unterscheidung von Entitäten mit gleichem Namen geht (Disambiguierung) ist noch einiges an Forschungsarbeit zu leisten, da hier die Ergebnisse hinter den Erwartungen zurückbleiben.

Veröffentlichungen

Dank dem großen Interesse an unserer Arbeit konnten wir unseren Prototypen und die damit verbunden Erkenntnisse auf Konferenzen und Messen vorstellen:

Die Rückmeldungen waren durchweg positiv und wir konnten einige interessante Anregungen mitnehmen.

Topic/S UI Screencast

Im Dezember 2013 konnte Artur Werstler seine Diplomarbeit zum Thema "Benutzerschnittstelle für themen- und trendbezogene Suche in NewsRoom-Anwendungen", die in Kooperation von fink & Partner Media Services GmbH und dem Lehrstuhl für Multimediatechnik der TUD verfasst wurde, erfolgreich verteidigen. @Artur: Gratulation!

Im Ergebniss der Diplomarbeit enstand auch ein Screencast, der elementare Interaktionen der neuartigen, auf Themen und Trends basierenden Suche illustriert. Die neue Suchmethodik unterscheidet sich von der verbreiteten, Stichwort-orientierten Suche (über die inhärente Semantik hinaus) prinzipiell durch eine erhebliche Zusammenfassung der gelieferten Suchergebnisse und damit durch eine weit effektivere Nutzung der verfügbaren Bildschirmfläche.

Mit der auf Themen und Trends basierenden Suche konnte eine der prominentesten Zielstellungen des Topic/S-Projektes erfolgreich umgesetzt werden.

p