| Code Kitchen Allgemeines Coder-Forum rund um das Programmieren eigenständiger, ausführbarer Programme. |
Diskussion: Recherchefrage: Crawler und ähnliches zur Datenextraktion im Forum Code Kitchen, in der Kategorie Software Home; Anzeige Hallo, ich Recherchiere gerade zur Thematik der "Datenextraktion aus dem Internet". Aus meinen Erfahrungen her, habe ich schon einmal ...
![]() |
| | #1 (permalink) |
| Registriert seit: 10.12.10 ![]() Likes: 0 | Anzeige Hallo, ich Recherchiere gerade zur Thematik der "Datenextraktion aus dem Internet". Aus meinen Erfahrungen her, habe ich schon einmal etwas von Crawlern(auch Spider) gehört. Zusätzlich hab ich etwas von Harvestern und Wrappern gelesen. Ebenso hab ich etwas dazu von WGet gelesen welches reine Internetseiten auch zum Offline lesen genutzt werden kann. Da ihr euch damit intensiver beschäftigt wisst ihr sicherlich: 1. Wo die genauen Unterschiede oder Grenzen der einzelnen Verfahren sind 2. Weitere Verfahren (Methoden und Techniken) 3. Wie man dazu Literatur findet(Hierbei sind links oder Buchtitel sehr Hilfreich), immerhin habt ihr das auch erlernt Ich danke schon jetzt für eine Diskussion Geändert von searcher (10.12.10 um 20:28 Uhr) |
| | |
| | #2 (permalink) |
| Moderator ![]() Registriert seit: 30.09.06 ![]() ![]() ![]() ![]() ![]() ![]() Likes: 441 | Ein Crawler ist nichts anderes als ein Spider. Ein Harvester hingegen sucht gezielt nach bestimmten Informationen und speichert diese ab. Mit wget hat beides nichts zu tun. wget kann man auf eine Seite ansetzen und das Tool folgt automatisch jedem darin enthaltenen Link und zieht die dahinter "verborgenenen" Webinhalte als HTML direkt auf die Festplatte. In der Praxis bestehen Spider zumeist aus 2 Komponenten. Die erste Komponente holt sich direkt Textdaten aus dem Web und folgt dabei einer Domain-Liste. Die zweite Komponente sorgt dann für's Processing der Daten. Sie bereitet die Daten also so auf, dass sie schnell nach bestimmten Stichworten durchsucht werden können. Oft werden dafür XML-Strukturen genutzt, die sich schneller durchsuchen lassen als das reine HTML. Außerdem kann ein gutes Processing bestimmte Gewichtungen für Stichwörter festlegen und die Strukturen danach anordnen, so dass das Durchsuchen der Strukturen noch schneller geht. Bei einer semantischen Websuche sorgt das Processing ausserdem dafür, dass bestimmte Informationen miteinander verknüpft werden.
__________________ Mein Blog - Mein Job - Diaspora Der Ring uns zu knechten besteht aus 12 Sternen auf blauem Grund. Neue Beiträge im Habo via Twitter - Das HaBo auf FB - Das HaBo bei G+ |
| | |
| HaBOT | - Anzeige - |
| |
| | #3 (permalink) |
| Moderator ![]() Registriert seit: 30.09.06 ![]() ![]() ![]() ![]() ![]() ![]() Likes: 441 | Ich hatte dir in der PN ja versprochen mal bei uns firmenintern anzufragen. Die erste Buchempfehlung kann ich dir schonmal geben. Kam gerade von einem unserer Projektleiter rein: "Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications)" von Bing Liu. Solltest du aus Berlin oder Umgebung sein kam hier auch das Angebot vom Abteilungsleiter "Softwareentwicklung", dass du gern mal bei unserem Research-Team vorbeischauen kannst um einen Blick in deren Bücherregal zu werfen. Wenn das nicht möglich ist, kann er mir erst morgen einiges an Literatur empfehlen, da er heute nicht dazu kommt. Edit: Hier noch ein Klassiker: "Managing Gigabytes. Compressing and Indexing Documents and Images" von Ian Witten.
__________________ Mein Blog - Mein Job - Diaspora Der Ring uns zu knechten besteht aus 12 Sternen auf blauem Grund. Neue Beiträge im Habo via Twitter - Das HaBo auf FB - Das HaBo bei G+ |
| | |
| | #4 (permalink) |
| Moderator ![]() Registriert seit: 30.09.06 ![]() ![]() ![]() ![]() ![]() ![]() Likes: 441 | Und noch eine Empfehlung: http://nlp.stanford.edu/IR-book/info...eval-book.html
__________________ Mein Blog - Mein Job - Diaspora Der Ring uns zu knechten besteht aus 12 Sternen auf blauem Grund. Neue Beiträge im Habo via Twitter - Das HaBo auf FB - Das HaBo bei G+ |
| | |
| | #5 (permalink) |
| Themenstarter Registriert seit: 10.12.10 ![]() Likes: 0 | Hi, Danke, dass du gefragt hast und vielen Dank für das Angebot mit den Bücherregal. Nur komme ich nicht aus der Gegend. Nach dem ich nun wusste wonach man suchen kann ist es leichter !Denn zu den ersten beiden Büchern gibt es auch die Veröffentlichung unter Google-Books zum nachlesen: Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data(Bing Liu): http://books.google.com/books?id=6Mh...page&q&f=false Managing Gigabytes. Compressing and Indexing Documents and Images(Ian Witten): http://books.google.com/books?id=2F7...page&q&f=false noch mal danke dafür. |
| | |
![]() |
| - Anzeige - | |
| |
| Themen-Optionen | |
| Ansicht | |
| |