Einführung: Automatisierte Datengewinnung aus dem WWW
Eine wachsende Flut an Daten steht im World Wide Web, manchmal auch Deep Web bezeichnet,
zur Verfügung. Diese Informationen werden von privatwirtschaftlichen Unternehmen,
staatlichen und nicht-staatlichen Organisationen sowie Privatpersonen bereitgestellt
und haben unterschiedlichste Formate: HTML-Seiten, Grafiken, Videos, Flash-Animationen,
Daten aus anderen Quellen wie z.B. Datenbanken, etc.
Um die verfügbaren Informationen nutzen zu können, ergeben sich prinzipiell zwei
Aufgabenstellungen:
|
o
|
Wo finde ich die gesuchten Informationen?
|
|
o
|
Wie bekomme ich die Informationen effizient aus dem Web,
um sie für meine Zwecke nutzen zu können?
|
Wo finde ich die gesuchten Informationen?
Bei der ersten Aufgabenstellung geht es darum, dass Informationen zu einem bestimmten
Thema gesucht werden ohne vorab zu wissen, wo diese im Web zu finden sind (http://???.???.???/).
Zur Lösung dieser Aufgabenstellung gibt es bereits Suchmaschinen, verschiedenste
Portale, etc.
Wie bekomme ich die Informationen effizient aus dem Web,
um sie für meine Zwecke nutzen zu können?
Bei der zweiten Aufgabenstellung geht es darum, dass man prinzipiell weiß, wo die
gewünschten Daten zu finden sind (z.B. unter http://www.web-select.com/). Man braucht nun
ein Werkzeug, um die Informationen effizient auszulesen und diese zur Nutzung in
strukturierter Form zur Verfügung zu haben, um diese beispielsweise in eigene Geschäftsprozesse
integrieren zu können.
Die Struktur verschiedener Web-Seiten ist uneinheitlich, die Daten sind mit Layout-
und Navigationselementen vermischt. Die gewünschte Information einer bestimmten Seite
automatisch zu selektieren, ist daher nicht einfach. Daher die Anforderung an ein
Tool bzw. eine Lösung, die Struktur von Web-Seiten zu erkennen, die gewünschten Daten
zu isolieren und automatisiert zu extrahieren. Daten aus unstrukturierten oder mangelhaft
strukturierten Seiten sollen in ein klar strukturiertes Ausgabeformat transformiert werden.
Aufgrund eingehender Marktanalysen haben wir festgestellt, dass vor allem im universitären
Bereich sehr viel Forschungsarbeit in diesem Bereich geleistet wird, aber wenige
kommerzielle Produkte auf dem Markt verfügbar sind. - Vor allem Software Tools, die nicht
nur von IT-Profis sondern auch von Anwendern aus der Fachabteilung genutzt werden können.
Wir sind überzeugt, dass wir unseren Kunden mit Web-Select eine sehr gute Lösung bieten können.
|