Recherchefrage: Crawler und ähnliches zur Datenextraktion

Hallo,

ich Recherchiere gerade zur Thematik der "Datenextraktion aus dem Internet". Aus meinen Erfahrungen her, habe ich schon einmal etwas von Crawlern(auch Spider) gehört. Zusätzlich hab ich etwas von Harvestern und Wrappern gelesen. Ebenso hab ich etwas dazu von WGet gelesen welches reine Internetseiten auch zum Offline lesen genutzt werden kann.

Da ihr euch damit intensiver beschäftigt wisst ihr sicherlich:

1. Wo die genauen Unterschiede oder Grenzen der einzelnen Verfahren sind
2. Weitere Verfahren (Methoden und Techniken)
3. Wie man dazu Literatur findet(Hierbei sind links oder Buchtitel sehr Hilfreich), immerhin habt ihr das auch erlernt

Ich danke schon jetzt für eine Diskussion
 
Zuletzt bearbeitet:
Ein Crawler ist nichts anderes als ein Spider. Ein Harvester hingegen sucht gezielt nach bestimmten Informationen und speichert diese ab. Mit wget hat beides nichts zu tun. wget kann man auf eine Seite ansetzen und das Tool folgt automatisch jedem darin enthaltenen Link und zieht die dahinter "verborgenenen" Webinhalte als HTML direkt auf die Festplatte.

In der Praxis bestehen Spider zumeist aus 2 Komponenten. Die erste Komponente holt sich direkt Textdaten aus dem Web und folgt dabei einer Domain-Liste. Die zweite Komponente sorgt dann für's Processing der Daten. Sie bereitet die Daten also so auf, dass sie schnell nach bestimmten Stichworten durchsucht werden können. Oft werden dafür XML-Strukturen genutzt, die sich schneller durchsuchen lassen als das reine HTML. Außerdem kann ein gutes Processing bestimmte Gewichtungen für Stichwörter festlegen und die Strukturen danach anordnen, so dass das Durchsuchen der Strukturen noch schneller geht. Bei einer semantischen Websuche sorgt das Processing ausserdem dafür, dass bestimmte Informationen miteinander verknüpft werden.
 
Ich hatte dir in der PN ja versprochen mal bei uns firmenintern anzufragen. Die erste Buchempfehlung kann ich dir schonmal geben. Kam gerade von einem unserer Projektleiter rein: "Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications)" von Bing Liu. Solltest du aus Berlin oder Umgebung sein kam hier auch das Angebot vom Abteilungsleiter "Softwareentwicklung", dass du gern mal bei unserem Research-Team vorbeischauen kannst um einen Blick in deren Bücherregal zu werfen. Wenn das nicht möglich ist, kann er mir erst morgen einiges an Literatur empfehlen, da er heute nicht dazu kommt.

Edit: Hier noch ein Klassiker: "Managing Gigabytes. Compressing and Indexing Documents and Images" von Ian Witten.
 
Hi,

Danke, dass du gefragt hast und vielen Dank für das Angebot mit den Bücherregal. Nur komme ich nicht aus der Gegend.
Nach dem ich nun wusste wonach man suchen kann ist es leichter :wink:!
Denn zu den ersten beiden Büchern gibt es auch die Veröffentlichung unter Google-Books zum nachlesen:
Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data(Bing Liu):
http://books.google.com/books?id=6M...&resnum=1&ved=0CCwQ6AEwAA#v=onepage&q&f=false
Managing Gigabytes. Compressing and Indexing Documents and Images(Ian Witten):
http://books.google.com/books?id=2F...&resnum=1&ved=0CC8Q6AEwAA#v=onepage&q&f=false

noch mal danke dafür.
 
Zurück
Oben