Topic/S Abschluss

Nachdem nun auch die Projektverlängerung bei Fink & Partner zu Ende geht, ist es Zeit für eine abschließende Zusammenfassung der Projektergebnisse. In den letzten fast zweieinhalb Jahren haben wir uns intensiv mit der automatischen Themen- und Trendgenerierung aus Nachrichteninhalten beschäftigt.

Als Grundlage für die Berechnung von Themen muss der Inhalt der Medienobjekte maschinenlesbar erschlossen werden. Für Texte und Bildbeschreibungen kommt die Named Entity Recognition (NER) zum Einsatz. Mit ihrer Hilfe können vollautomatisch Personen, Orte und Organisationen in den Inhalten erkannt. Wir greifen dabei auf eine wörterbuchbasierte Lösung zurück, da sie eine geringe Fehlerquote und vollständige Kontrolle über den eingesetzten Wortschatz bietet. Um trotzdem flexibel bei der Erkennung neuer Entitäten zu sein, kommt zusätzlich eine statistische Methode zum Einsatz. Die von ihr ermittelten unbekannten Entitäten werden zur Erweiterung der Wörterbücher genutzt. Zusätzlich zu den Entitäten kommt eine Keywordextraktion zum Einsatz. Diese Keywords helfen in Kombination mit den Named Entities den Inhalt eines Dokumentes schnell zu erfassen. Außerdem wird über statistische Verfahren automatisch die Kategorie (z. B. Sport, Politik, Wirtschaft) eines Textdokumentes bestimmt. Die gesamten Informationen des Extraktionsprozesses werden in Form eines Graphen gespeichert, welcher die Analyse von Querbeziehungen zwischen den Medienobjekten ermöglicht. Außerdem lassen sich die strukturierten Informationen zur Umsetzung einer facettierten Suche nutzen. Die Abbildung zeigt eine facettierte Suchoberfläche in unserem Forschungsprototypen.

 

Die Ermittlung der Themen erfolgt nun mit Hilfe eines hierarchischen  Clusteralgorithmus, der die gemeinsamen Entitäten der Mediendokumente auswertet. Auf diesem Weg lassen sich Gruppen von Medienobjekten erstellen, die alle dasselbe Hauptthema beschreiben. Zur Benennung der Themen nutzen wir die wichtigsten Entitäten und Keywords der enthaltenen Dokumente. Auf diese Weise kann eine gute Übersicht über den Inhalt des Themas vermittelt werden. Die Themen werden in kurzen Abständen neu berechnet, um Änderungen in der Nachrichtenlage zu erkennen aus welchen sich die Nachrichtentrends berechnen lassen. Mit den so berechneten Themen findet der Redakteur einen Idealen Einstieg in die medialen Geschehnisse des Tages und kann dadurch eine größere Menge an Informationen überblicken. Ausgehend von dieser Übersicht kann er anschließend seine Recherche vertiefen. Durch die Verknüpfung von verschiedenen Medientypen innerhalb der Themen, z. B. Bild und Text, lassen sich die zu produzierenden multimedialen Inhalte einfach zusammenstellen.

 

Erfahrungen

Während des Projektes konnten wir einen guten Einblick in die aktuellen technischen Möglichkeiten in der Knowledge-Exctraction und dem Semantic Web sammeln. Durch eigene Forschungsarbeit und die Evaluation externer Lösungen hat sich ergeben, dass die Produkte auf dem Gebiet der NER fortgeschritten sind und es möglich ist, hochwertige Extraktionsergebnisse zu erzielen. Wenn es aber um die Unterscheidung von Entitäten mit gleichem Namen geht (Disambiguierung) ist noch einiges an Forschungsarbeit zu leisten, da hier die Ergebnisse hinter den Erwartungen zurückbleiben.

Veröffentlichungen

Dank dem großen Interesse an unserer Arbeit konnten wir unseren Prototypen und die damit verbunden Erkenntnisse auf Konferenzen und Messen vorstellen:

Die Rückmeldungen waren durchweg positiv und wir konnten einige interessante Anregungen mitnehmen.