Herleitung und Entwicklung eines effizienten und numerisch robusten Verfahrens zur Indexierung der verborgenen Semantik im deutschen Web
Bisher wurden in der akademischen und industriellen Forschung hauptsächlich die Möglichkeiten einer semantischen Annotation von Webdokumenten für eine ontologie-unterstützte Wissensrepräsentation untersucht. Die hierzu erforderliche, automatisierte Erstellung semantischer Annotationen ist für digitale Bibliotheken und andere homogene Sammlungen von Webdokumenten aufgrund der in den letzten Jahren erzielten Ergebnisse sehr gut einsetzbar. Aufgrund der Vielfalt und Heterogenität des Web ist die automatisierte Erstellung semantischer Annotationen jedoch hierfür nur sehr begrenzt einsetzbar. Im Gegensatz zur automatisierten Erstellung semantischer Annotationen ist Latent Semantic Indexing (LSI) ein auf Techniken der linearen Algebra basierendes, numerisches Verfahren. Die wesentliche Innovation des Verbundprojekts Vertical LSI besteht zum einen in der vertikalen Eingrenzung des Web mittels feinkörnigem Clustering für eine Zerlegung der im LSI-Verfahren betrachteten Term-Dokument-Matrix des gesamten Index in schwach gekoppelte Teilmatrizen moderater Größe. Zum anderen wurde mittels der Integration von LSI mit geeigneten linguistischen Verfahren für die semantische Analyse von Webseiten die Präzision der Ergebnisse entscheidend verbessert.