Hackerboard Wiki HaboBlog
Hackerboard bei Facebook Hackerboard bei Google+ Hackerboard bei Twitter

[HaBo]

 
Code Kitchen Allgemeines Coder-Forum rund um das Programmieren eigenständiger, ausführbarer Programme.

Recherchefrage: Crawler und ähnliches zur Datenextraktion

Diskussion: Recherchefrage: Crawler und ähnliches zur Datenextraktion im Forum Code Kitchen, in der Kategorie Software Home; Anzeige Hallo, ich Recherchiere gerade zur Thematik der "Datenextraktion aus dem Internet". Aus meinen Erfahrungen her, habe ich schon einmal ...

Antwort
Alt 10.12.10, 18:14   #1 (permalink)
 
Registriert seit: 10.12.10
searcher Leistung: Facit NTK
Likes: 0
Post Recherchefrage: Crawler und ähnliches zur Datenextraktion

Anzeige

Hallo,

ich Recherchiere gerade zur Thematik der "Datenextraktion aus dem Internet". Aus meinen Erfahrungen her, habe ich schon einmal etwas von Crawlern(auch Spider) gehört. Zusätzlich hab ich etwas von Harvestern und Wrappern gelesen. Ebenso hab ich etwas dazu von WGet gelesen welches reine Internetseiten auch zum Offline lesen genutzt werden kann.

Da ihr euch damit intensiver beschäftigt wisst ihr sicherlich:

1. Wo die genauen Unterschiede oder Grenzen der einzelnen Verfahren sind
2. Weitere Verfahren (Methoden und Techniken)
3. Wie man dazu Literatur findet(Hierbei sind links oder Buchtitel sehr Hilfreich), immerhin habt ihr das auch erlernt

Ich danke schon jetzt für eine Diskussion


Geändert von searcher (10.12.10 um 20:28 Uhr)
searcher ist offline   Mit Zitat antworten
Alt 10.12.10, 20:28   #2 (permalink)
Moderator
 
Benutzerbild von bitmuncher
 
Registriert seit: 30.09.06
bitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcore
Likes: 441
Standard

Ein Crawler ist nichts anderes als ein Spider. Ein Harvester hingegen sucht gezielt nach bestimmten Informationen und speichert diese ab. Mit wget hat beides nichts zu tun. wget kann man auf eine Seite ansetzen und das Tool folgt automatisch jedem darin enthaltenen Link und zieht die dahinter "verborgenenen" Webinhalte als HTML direkt auf die Festplatte.

In der Praxis bestehen Spider zumeist aus 2 Komponenten. Die erste Komponente holt sich direkt Textdaten aus dem Web und folgt dabei einer Domain-Liste. Die zweite Komponente sorgt dann für's Processing der Daten. Sie bereitet die Daten also so auf, dass sie schnell nach bestimmten Stichworten durchsucht werden können. Oft werden dafür XML-Strukturen genutzt, die sich schneller durchsuchen lassen als das reine HTML. Außerdem kann ein gutes Processing bestimmte Gewichtungen für Stichwörter festlegen und die Strukturen danach anordnen, so dass das Durchsuchen der Strukturen noch schneller geht. Bei einer semantischen Websuche sorgt das Processing ausserdem dafür, dass bestimmte Informationen miteinander verknüpft werden.
__________________
Mein Blog - Mein Job - Diaspora

Der Ring uns zu knechten besteht aus 12 Sternen auf blauem Grund.

Neue Beiträge im Habo via Twitter - Das HaBo auf FB - Das HaBo bei G+
bitmuncher ist gerade online   Mit Zitat antworten
   
HaBOT
 
- Anzeige -

Werbung ist gerade online    
Alt 13.12.10, 16:13   #3 (permalink)
Moderator
 
Benutzerbild von bitmuncher
 
Registriert seit: 30.09.06
bitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcore
Likes: 441
Standard

Ich hatte dir in der PN ja versprochen mal bei uns firmenintern anzufragen. Die erste Buchempfehlung kann ich dir schonmal geben. Kam gerade von einem unserer Projektleiter rein: "Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications)" von Bing Liu. Solltest du aus Berlin oder Umgebung sein kam hier auch das Angebot vom Abteilungsleiter "Softwareentwicklung", dass du gern mal bei unserem Research-Team vorbeischauen kannst um einen Blick in deren Bücherregal zu werfen. Wenn das nicht möglich ist, kann er mir erst morgen einiges an Literatur empfehlen, da er heute nicht dazu kommt.

Edit: Hier noch ein Klassiker: "Managing Gigabytes. Compressing and Indexing Documents and Images" von Ian Witten.
__________________
Mein Blog - Mein Job - Diaspora

Der Ring uns zu knechten besteht aus 12 Sternen auf blauem Grund.

Neue Beiträge im Habo via Twitter - Das HaBo auf FB - Das HaBo bei G+
bitmuncher ist gerade online   Mit Zitat antworten
Alt 13.12.10, 18:59   #4 (permalink)
Moderator
 
Benutzerbild von bitmuncher
 
Registriert seit: 30.09.06
bitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcore
Likes: 441
Standard

Und noch eine Empfehlung: http://nlp.stanford.edu/IR-book/info...eval-book.html
__________________
Mein Blog - Mein Job - Diaspora

Der Ring uns zu knechten besteht aus 12 Sternen auf blauem Grund.

Neue Beiträge im Habo via Twitter - Das HaBo auf FB - Das HaBo bei G+
bitmuncher ist gerade online   Mit Zitat antworten
Alt 13.12.10, 21:53   #5 (permalink)
Themenstarter
 
Registriert seit: 10.12.10
searcher Leistung: Facit NTK
Likes: 0
Standard

Hi,

Danke, dass du gefragt hast und vielen Dank für das Angebot mit den Bücherregal. Nur komme ich nicht aus der Gegend.
Nach dem ich nun wusste wonach man suchen kann ist es leichter !
Denn zu den ersten beiden Büchern gibt es auch die Veröffentlichung unter Google-Books zum nachlesen:
Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data(Bing Liu):
http://books.google.com/books?id=6Mh...page&q&f=false
Managing Gigabytes. Compressing and Indexing Documents and Images(Ian Witten):
http://books.google.com/books?id=2F7...page&q&f=false

noch mal danke dafür.
searcher ist offline   Mit Zitat antworten
Antwort
   
- Anzeige -

Werbung ist gerade online    

[HaBo] » Software Home » Code Kitchen » Recherchefrage: Crawler und ähnliches zur Datenextraktion
Themen-Optionen
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks sind aus
Pingbacks sind aus
Refbacks sind aus



1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61