Webseite aufzeichnen

Hallo Leute !

Bevor ich euch direkt mit ner Frage überfalle kurz was zu mir.

Besitze einge Grundkenntnisse im Bereich Hard- und Software (hauptsächlich Win) und hab mich auch schon ein paar mal mit nem Programm zur Hoimepagegestaltung befast. Allerdings nicht sonderlich ausfürlich und Ahnung von Java Code etc. hab ich schon mal gar nicht.

Aber das ist auch für mein Vorhaben nicht notwendig denk ich.

Also ich möchte von der Seite "www.Proxylisten.de" eine gewisse Anzahl Proxys in ner Textdatei auf meinem Rechner gespeichert haben. (Sagen wir mal 3000 Stück)

Die Liste sollte sich von selbst alle 30 min aktualisieren, also die alten Proxies gegen neue von der Seite austauschen.

Über Excel/Word wäre das ja auch nicht das Problem wenn die eigentliche Proxyliste nich mit Java/Php oder was weiß ich was das genau is geschrieben wäre. (Hab früher in der Schule mal sowas gemacht aber da haben wir nur ganz normalen Text aktualisiert)

Es reicht mir wenn in der Textdatei die Ip-Adressen stehn, alles andere wäre überflüssig.

Vielen Dank im Vorraus für eure Hilfe !
 
und hab mich auch schon ein paar mal mit nem Programm zur Hoimepagegestaltung befast.

1.) Grundvoraussetzung, fundierte HTML-Kenntnisse, schonmal nicht vorhanden...

Aber das ist auch für mein Vorhaben nicht notwendig denk ich.

2.) völlig falsche Annahme... du möchtest HTML, da du dieses parsen musst, sicher beherrschen und zusätzlich eine Script- oder Programmiersprache, mit welcher du die POST-Anfragen auf http://www.proxy-listen.de/Proxy/Proxyliste.html absetzt... und dementsprechend wäre Grundlagen-Wissen, wie HTTP so funktioniert, auch ganz gut...

relativ einfach lässt sich sowas z.B. mittels cURL lösen, entweder direkt als Konsolenprogramm oder innerhalb von PHP:
PHP: cURL - Manual

und mit PHP könntest du mit 'nem 3-Zeiler - vorausgesetzt, du würdest reguläre Ausdrücke beherrschen - den zurückgelieferten HTML-Code nach IP-Adressen+Portnummer filtern und diese in eine Text-Datei speichern...

Über Excel/Word wäre das ja auch nicht das Problem wenn die eigentliche Proxyliste nich mit Java/Php oder was weiß ich was das genau is geschrieben wäre.

3.) Das hat nichts damit zu tun, mit was die Seite geschrieben wurde... am Ende kommt immer HTML-Code raus, welcher einfach nach den IP-Adressen durchsucht werden muss...

Es reicht mir wenn in der Textdatei die Ip-Adressen stehn, alles andere wäre überflüssig.

4.) selbst beim Formulieren deiner Anforderungen fehlt etwas:
nur die IP-Adressen nützen dir nichts... die Port-Angabe gehört auch immer mit dazu... ;-)




Nachtrag:
und nein, auch wenn es für mich kein Problem wäre, das mal schnell zu schreiben, werde ich es nicht tun, da dies didaktisch überhaupt nicht wertvoll wäre...
du sollst ja schließlich was dabei lernen...
 
Ersteinmal danke für die Antwort und die Zeit die du darin investiert hast.

Hätte ich gewollt, dass du mir sowas schreibst dann hätte ich auch explizit danach gefragt, hab ich aber nicht - da ich mich mit dem Gedanken das zu lernen auch beschäftige. Sobald ich etwas Zeit dazu finde werd ich das auch tun.

Und es ist nicht egal wie das geschrieben wurde, denn wenn ich ne direkt url zu der auf der Seite dargestellten Proxyliste hätte, dann wäre das ganz einfach über ne Abfrage möglich. Dummerweise muss man ja aber vorher ein paar Einstellungen machen wie die Liste angezeigt werden soll.

Kann ich eventuell über den Quellcode der Seite eine Url dazu herauslesen oder gibts dazu ganz einfach keine ?

Ich kann natürlich auch mit nem Programm wie z.B. AutoIt ein Macro aufnehmen, allerdings is das ne ziemlich umständliche und unkomfortable Lösung.
 
Wenn du die ganzen Einstellungsfelder ausgefüllt hast und auf "Anzeigen" klickst wird ja per POST-Methode das Formular abgeschickt. Nachstellen könnest du das abschicken in dem du z.B. als URL:
... usw nutz.

Dafür musst du aber ein wenig HTML können, um zu schauen wie die Namen der einzelnen Fehler heißen. So müsstest du z.B. Statt "port=all" hinschreiben "filter_port=Alle".
 
Und es ist nicht egal wie das geschrieben wurde, denn wenn ich ne direkt url zu der auf der Seite dargestellten Proxyliste hätte, dann wäre das ganz einfach über ne Abfrage möglich. Dummerweise muss man ja aber vorher ein paar Einstellungen machen wie die Liste angezeigt werden soll.
Das hat jedoch nur indirekt mit der Programmiersprache zu tun (also ob in PHP, Java, Ruby, Python,...), sondern mit der Tatsache, dass die Seite erst ausgeliefert wird, nachdem ein POST-Request versendet wurde.

Und da die Seite ausschließlich auf die POST-Daten reagiert, funktioniert auch der Trick, den blinkfreak182 schrieb, auch nicht (denn das wäre dann über GET)

siehe Hypertext Transfer Protocol - HTTP-Request-Methoden

Du hast insofern recht, dass es sich nicht um eine statische HTML-Seite handelt sondern um eine dynamische Seite, welche eben in Abhängigkeit der übermittelten Daten andere Inhalte ausgibt - in welcher Sprache genau die Seite geschrieben ist, ist da allerdings, wie erwähnt, nicht relevant, da das Ausgabeformat in jedem Fall HTML-Code ist...
 
Nochmals danke für die Antworten !

Ich hab mir das viel einfacher vorgestellt, zumal die Aufgabe manuell ja recht einfach zu erledigen wäre. Aber das is eben zeitaufwendig und wer hat schon lust alle halbe Stunde die Listen zu kopieren.

Machbar is das ganze auf jeden Fall mit dem Programm Proxy Multiply. Da kann man auch gleich einstellen wie oft der die Liste wohin kopieren soll. Obwohl das auch keine ideale Lösung is und kostenlos is das Programm eigentlich auch nich.

Wenn noch jemand ne Idee hat - bitte melden !
 
Ich hab mal die Befehle abgefangen die da verwendet werden:

"GET/__utm.gif?utmwv=5.3.3&utms=21&utmn=2078002906&utmhn=www.proxy-listen.de&utmt=event&utme=5(Proxyform*Submit)&utmcs=UTF-8&utmsr=1680x1050&utmvp=586x697&utmsc=24-bit&utmul=de-de&utmje=1&utmfl=11.3%20r300&utmdt=Kostenlose%20Proxyliste&utmhid=493118751&utmr=0&utmp=%2FProxy%2FProxyliste.html&utmac=UA-190582-6&utmcc=__utma%3D166798463.982443482.1342431996.1342431996.1342431996.1%3B%2B__utmz%3D166798463.1342431996.1.1.utmcsr%3D(direct)%7Cutmccn%3D(direct)%7Cutmcmd%3D(none)%3B&aip=1&utmu=6AQAAAAAAAAAAAAAQ~HTTP/1.1..Host:www.google-analytics.com..User-Agent:Mozilla/5.0(WindowsNT6.1;WOW64;rv:13.0)Gecko/20100101Firefox/13.0.1..Accept:image/png,image/*;q=0.8,*/*;q=0.5..Accept-Language:de-de,de;q=0.8,en-us;q=0.5,en;q=0.3..Accept-Encoding:gzip,deflate..Connection:keep-alive..Referer:http://www.proxy-listen.de/Proxy/Proxyliste.html...."

"POST/Proxy/Proxyliste.htmlHTTP/1.1..Hostwww.proxy-listen.de..User-Agent:Mozilla/5.0(WindowsNT6.1;WOW64;rv:13.0)Gecko/20100101Firefox/13.0.1..Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8..Accept-Language:de-de,de;q=0.8,en-us;q=0.5,en;q=0.3..Accept-Encoding:gzip,deflate..Connection:keep-alive..Referer:http://www.proxy-listen.de/Proxy/Proxyliste.html..Cookie:c35e628c9dde56768f0bc76b5363e64a=r6sn5al8cf4ik9v72qmmeotm20;__utma=166798463.982443482.1342431996.1342431996.1342431996.1;__utmb=166798463.27.3.1342432176397;__utmc=166798463;__utmz=166798463.1342431996.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)..Content-Type:application/x-www-form-urlencoded..Content-Length:203....filter_port=&filter_http_gateway=&filter_http_anon=&filter_response_time_http=&poi=65fa27c1f4dec46198a1687ad1bd3d2a&filter_country=&filter_timeouts1=&liststyle=leech&proxies=300&type=http&submit=Anzeigen"

Also da war noch bisschen mehr aber wenn ich das richtig verstanden hab geht's ja um "GET" bzw "POST" oder ?
Und was mach ich jetzt damit ?
 
Zuletzt bearbeitet:
Nicht selten sind gerade solche Seiten eben nicht auf REST Zugriffe hin ausgerichtet, denn deren Kapital ist eine frei und öffentlich zur Verfügung gestellte Ressource - Wissen oder Kenntnis um etwas besimmtes - und die gilt es auch ein Stück weit zu schützen. So wie ich das sehe, haben die recht akzeptable Hürden für allzuvoreilige eingebaut, was am Ende natürlich auch der Bedienbarkeit geschuldet ist.

Insofern kann ich beavisbee' Posting nur zustimmen - Streng Dich mal ein bischen an ;)
 
Ein anderer Ansatz wäre ein Java-Programm. Innerhalb dieses kannst du relativ einfach mit HtmlUnit Informationen von Webseiten auslesen.
Dann noch ein FileWriter / FileOutputStream auf eine Textdatei und du hast dein Ziel erreicht.
Vorraussetzung sind hierfür logischerweise Grundkenntnisse in Java.

mit freundlichen Grüßen,
Joroe.
 
Zurück
Oben