Webcrawler/searchspider gesucht

Hey Leute ich bräuchte ein Tool zum durchsuchen von Intranet und Internet Seiten nach PersonenDaten (Durchwahlen, HandyNummern). Die Standardcrawler können im Zweifel nicht mehr als Google... Gibt es da ne Möglichkeit? Ein fertiges Tool mit dem ich mir nicht gleich drei Trojaner und zwei Viren als Gäste beim Download einfache?
Die crawler in der Robots.txt kann man wohl knicken... 8)
 
Wenn es sich um JS-lastige Resourcen handelt, könnteste mit PhantomJS oder Casper spidern.
Gibt aber mit Sicherheit auch schon etwas fertiges, hier mal ein Primer.
 
Check ich nicht

kann mir einer Phantom oder Casper erklären? Ich nutze Win10 und kann Casper daher z.b. nicht öffnen X(
Mein Wunsch ist es einen Spider zu haben der a. fertig ist (notfalls Zahle ich dafür) der b. folgendes finden kann:
Die Handynummer von Joe Kaeser (Vorstand) der Siemens AG- diese muss aus dem Intranet gelesen werden können...
Sowas geht, ich habe das schon mal gesehen- kann mich aber nicht mehr daran erinnern wie das Tool hieß das benutzt wurde
 
Cewl erstellt Wordlists aus den Inhalten von Webseiten oder leitet das an stdout weiter. Da Handynummern ein gewisses Muster aufweisen wirst du mit ner min_worth_length von ca. 10 und grep nach +49-17 oder entsprechend dem Format und der vermutlich Telekomvorwahl Glück haben können, nachdem du die 5 Yottabyte gezogen hast.
Wie du die Nummer dem Namen zuordnest ist dann abhängig was du alles crawlen willst. min_word_length runter drehen und dann grep nach Joe Kaeser und dann i. R. die Nummer danach.
Nimm Kali in ner VM.
 
Zuletzt bearbeitet:
Sandmann, das sind headless-browser welche man automatisieren kann.
Hilfe dafür ist ein eigener Thread.
Kannst ja erstmal eine VM aufsetzten und schauen ob das überhaupt was für dich ist.
Ansonsten gibt es noch SlimerJS und mit sicherheit noch einige Andere.

Mal davon ab, wäre es für dein Vorhaben ggf. einfacher direkt nach einem API-zugang zu fragen, oder dir die Seitenaufrufe anzuschauen, Web-Applikations haben manchmal die tolle Eigenschaft, die Datenabfrage schön zu separieren, und die Schnittstellen sind manchmal einfach nur Wrapper für gut konfigurierbare SQL-Abfragen, womit du deinen API-zugang auch hättest.

Das hier wäre ggf. auch was für dich YaCy - The Peer to Peer Search Engine: Home .

btw: wiso ist die Handynummer vom Vorstand so viel wichtier als die anderen Datensätze die es zu sammeln gilt?
Ansonsten fragen, Nummern haben normalerweise die Leute die sie brauchen.
Stichwort Wiki?
Gruß

Fluffy
 
Zurück
Oben