Go to page

Bibliographic Metadata

Restriction-Information
 The document is publicly available on the WWW
Links
Abstract

Die Idee, inhaltlich verwandte Texte automatisiert in Verbindung zueinander zu setzen, ist

nicht neu. Der im Rahmen dieser Arbeit vorgestellte Lösungsansatz verfolgt zwei Hauptziele:

automatisiert auf Basis unstrukturierter Texte zu arbeiten und eine hohe Anzahl gleichzeitiger

Zugriffe zu unterstützen. Es unterscheidet sich von anderen Verfahren im Wesentlichen durch

die Ermittlung des semantischen Abstandes zwischen den Texten auf Basis einer

asymmetrischen vorberechneten Distanzmatrix. Die Beziehungen zwischen unstrukturierten

Textobjekten werden mittels eines, von der Landessprache unabhängigen, heuristischen

Algorithmus zur Merkmalsselektion hergestellt. Die resultierende "Wortwolke" wird dann als

Anfrageparameter für die Selektion passender Texte verwendet. Dem Benutzer werden zum

gerade angezeigten Text inhaltlich verwandte Texte empfohlen. Die

Verarbeitungsgeschwindigkeit des Verfahrens wurde in Form der Laufzeitkomplexität der

Algorithmen analysiert. Über einen Zeitraum von 12 Monaten wurden außerdem

umfangreiche Praxistests auf der Website eines Industriemagazins durchgeführt, um die

Effizienz des Verfahrens im Hinblick auf die Qualität der Empfehlungen zu prüfen. Die

Ergebnisse zeigen, dass der vorgestellte Ansatz den manuell erstellten Empfehlungen

professioneller Redakteure nahezu ebenbürtig ist.

Abstract

The idea to link texts with related content in an automated way is not new. The approach

developed and presented here has two main goals: to work automatically on unstructured texts

and to support a large number of parallel accesses. It is distinct from other approaches in that

it determines the semantic distance between texts on the basis of an asymmetrical precalculated

distance matrix. The relations between unstructured text objects are generated by a

language independent heuristic algorithm for feature selection. The resulting bag of words is

used in a query to select matching texts. The user receives recommendations to texts the

content of which is related to the text that appears in front of him. Performance was analyzed

on basis of the algorithms runtime complexity. Extensive real-life tests over a period of 12

months were conducted on the website of an industrial magazine in order to check the

efficiency of the procedure with regard to quality of the recommendations. Results show that

the presented approach nearly equals the quality of manual made recommendations by

professional editors.