Web-Finder und Data-Extractor arbeiten zur Lösung anforderungsspezifischer
Daten-Extraktionsaufgaben eng zusammen.
| o |
Ermittlung und Abstimmung der Web-Quellen, die als Recherche-Grundlage dienen:
- konkrete URL/Link-Liste
- Trefferliste diverser Suchmaschinen und Metasuchmaschinen
|
| o |
Abstimmung der Quellsprache
|
| o |
Selektion von Web-Seiten entsprechend festgelegter Suchkriterien:
Auf Basis der ermittelten Web-Quellen werden alle auf einer Site
befindlichen Hyperlinks in beliebiger Tiefe durchsucht und jene
Web-Seiten selektiert, die den festgelegten Kriterien entsprechen
und anschließend in einer Datenbank gespeichert.
|
| o |
Aufbau und Abstimmung der anforderungsspezifischen Ontologien:
- Festlegung von Kriterien und Definition der Ontologie
- Festlegung von Musterausdrücken
- Festlegung von Regeln und Gewichtungen
|
| o |
Definition und Erstellung der erforderlichen Ausgabestruktur
|
| o |
Extraktion relevanter Daten auf Basis der erstellen Ontologie:
Mit Hilfe der entwickelten Ontologie werden relevante Kontexte in der
Seite gefunden und extrahiert. Im Zuge der Datengewinnung kann die
Ontologie weiter angepasst und somit auf spezielle Aufgabenstellungen
weiter „trainiert“ werden. Diese Technik erzielt damit einen hohen Grad
an Genauigkeit und ist von etwaigen Änderungen in der HTML-Struktur
völlig unabhängig.
|
| o |
Transformation der extrahierten Daten in die definierte Ausgabestruktur
|