Web-Select.com
      Über uns   |   News & Presse   |   Kontakt   |   AGB  

Einführung: Automatisierte Datengewinnung aus dem WWW


Eine wachsende Flut an Daten steht im World Wide Web, manchmal auch Deep Web bezeichnet, zur Verfügung. Diese Informationen werden von privatwirtschaftlichen Unternehmen, staatlichen und nicht-staatlichen Organisationen sowie Privatpersonen bereitgestellt und haben unterschiedlichste Formate: HTML-Seiten, Grafiken, Videos, Flash-Animationen, Daten aus anderen Quellen wie z.B. Datenbanken, etc.

Um die verfügbaren Informationen nutzen zu können, ergeben sich prinzipiell zwei Aufgabenstellungen:

o Wo finde ich die gesuchten Informationen?
o Wie bekomme ich die Informationen effizient aus dem Web, um sie für meine Zwecke nutzen zu können?


Wo finde ich die gesuchten Informationen?

Bei der ersten Aufgabenstellung geht es darum, dass Informationen zu einem bestimmten Thema gesucht werden ohne vorab zu wissen, wo diese im Web zu finden sind (http://???.???.???/). Zur Lösung dieser Aufgabenstellung gibt es bereits Suchmaschinen, verschiedenste Portale, etc.


Wie bekomme ich die Informationen effizient aus dem Web, um sie für meine Zwecke nutzen zu können?

Bei der zweiten Aufgabenstellung geht es darum, dass man prinzipiell weiß, wo die gewünschten Daten zu finden sind (z.B. unter http://www.web-select.com/). Man braucht nun ein Werkzeug, um die Informationen effizient auszulesen und diese zur Nutzung in strukturierter Form zur Verfügung zu haben, um diese beispielsweise in eigene Geschäftsprozesse integrieren zu können.


Die Struktur verschiedener Web-Seiten ist uneinheitlich, die Daten sind mit Layout- und Navigationselementen vermischt. Die gewünschte Information einer bestimmten Seite automatisch zu selektieren, ist daher nicht einfach. Daher die Anforderung an ein Tool bzw. eine Lösung, die Struktur von Web-Seiten zu erkennen, die gewünschten Daten zu isolieren und automatisiert zu extrahieren. Daten aus unstrukturierten oder mangelhaft strukturierten Seiten sollen in ein klar strukturiertes Ausgabeformat transformiert werden.

Aufgrund eingehender Marktanalysen haben wir festgestellt, dass vor allem im universitären Bereich sehr viel Forschungsarbeit in diesem Bereich geleistet wird, aber wenige kommerzielle Produkte auf dem Markt verfügbar sind. - Vor allem Software Tools, die nicht nur von IT-Profis sondern auch von Anwendern aus der Fachabteilung genutzt werden können. Wir sind überzeugt, dass wir unseren Kunden mit Web-Select eine sehr gute Lösung bieten können.



Seitenanfang