Nutzung der Informations- und Datenvielfalt des WWW
Das World Wide Web stellt eine wachsende Flut an Daten zur Verfügung;
Vielfach Informationen, deren Nutzung für das eigene Businessumfeld
immer mehr an Bedeutung gewinnt, wie beispielsweise Neuigkeiten des
Wettbewerbs oder öffentlich geäußerte Kundenmeinungen in Blogs und Foren.
Der Großteil dieser unternehmensrelevanten Informationen liegt unstrukturiert
vor - als HTML/XHTML-Seiten, Animationen, Grafiken, Videos, etc.
Welche Möglichkeiten stehen zur Verfügung, um relevante Informationen nutzbar zu machen?
Die gewünschten Inhalte aus einer Web-Seite automatisiert zu extrahieren,
ist in der Regel sehr komplex, da Web-Seiten nicht einheitlich strukturiert
sind und die Daten mit Layout- und Navigationselementen vermischt sind. Die
Anforderung an Tools zur Webdaten-Extraktion liegt daher darin, die Struktur
von Web-Seiten zu erkennen, die gewünschten Daten zu isolieren und automatisiert
zu extrahieren. Content aus mangelhaft strukturierten bzw. unstrukturiert
vorliegenden Seiten soll in ein klar strukturiertes Ausgabeformat transformiert werden.
SWT entwickelt Wrapper- und Extraktionstools
Gestützt auf detaillierte Marktanalysen ist feststellbar, dass zwar
Software-Lösungen zur automatisierten Extraktion webbasierter Daten
auf dem Markt verfügbar sind, es jedoch an praxisorientierten Gesamtlösungen
und Servicekonzepten für den europäischen Markt mangelt. Basierend auf
internationalen Standards haben wir daher im Rahmen eigener Forschungsarbeit
Tools entwickelt, um praxisgerecht auf spezielle Marktanforderungen eingehen zu können.
Programme zur Extraktion von Daten, deren Position auf der Webseite bekannt
ist, werden als Wrapper (auch Screen oder Web Scraper) bezeichnet. Ein Kriterium
für die Güte der Extraktionsmechanismen ist die Robustheit gegenüber Änderungen
an der Struktur der Webseite. Hierfür sind fehlertolerante Extraktionsalgorithmen
erforderlich. Die mangelnde Qualität verfügbarer Software-Tools war der
Anstoß für die Entwicklung von Web-Select.
In vielen Fällen müssen die Datenstrukturen ohne feste Vorgaben erkannt
und interpretiert werden. Anforderungen in diesem Bereich haben zur Entwicklung
des Web-Finders geführt, der auf Erkenntnissen und Methoden aus den Bereichen
Information-Retrieval, Mustererkennung und maschinelles Lernen zurückgreift.
SWT entwickelt Services (Saas-Geschäftsmodell)
Basierend auf den entwickelten WebIntelligence-Tools liegt der Schwerpunkt
seit 2007 im Aufbau einer effizienten Service-Infrastruktur (SaaS) zur
automatisierten Nutzung webbasierter Daten.
Zielsetzung des Service-Modells ist es, die Nutzung der Technologie nicht
nur IT-Profis, sondern vor allem auch Anwendern aus der Fachabteilung
zugänglich zu machen. Im Rahmen unseres SaaS-Geschäftsmodells ist beim
Kunden keine eigene IT-Infrastruktur erforderlich; die Recherche- und
Extraktionsprozesse laufen auf den Servern von SWT und liefern die
relevanten Web-Informationen automatisiert und regelmäßig im
erforderlichen Datenformat bzw. als News-Dienst. Damit ist mit der Nutzung
des Service-Modells kein Implementierung-, Wartungs- und Schulungsaufwand
verbunden und es werden kundenintern keine Ressourcen gebunden.
Weitere Informationen
|