Website rekursiv herunterladen mit geringem Aufwand

@night@ · Jun 5, 2021

Hallo,

ich würde gerne eine Website mit möglichst geringem Aufwand komplett oder zumindest teilweise herunterladen. Die gewünschten Dateien befinden sich in einem Bereich, der nur über einen Login zugänglich ist. Die Motivation ist, dass ich nicht monatlich Geld für Zugang zu Mediendateien bezahlen möchte, die sich kaum bis gar nicht ändern. Andererseits bin ich aber auch zu faul die für mich interessanten Dateien manuell herunterzuladen.

Ich habe mit curl und wget schon Teile aus dem Bereich herunterladen können, der nur über einen Login einsehbar ist. Allerdings hakt es am rekursiven Download. Mir fehlt leider die Zeit um die genauen Gründe dafür zu finden und zu beheben.

Viel eleganter und einfacher wäre es denke ich, einfach einen Browser zu automatisieren und diesen anzuweisen alle Dateien der Domain oder zumindest einen Teilbereich davon herunterzuladen. Da die Website eher klein ist, dürfte sich der Datenaufwand dafür in Grenzen halten (< 5GB).

Frage: Wie kann ich das Problem mit möglichst geringem Zeitwaufwand lösen? Hat jemand schonmal etwas in diese Richtung gemacht? Möglichkeiten gibt es ja viele (Firefox automatisieren, Selenium, etc.). Am liebsten wäre mir irgendeine API, die den Großteil der gewünschten Funktionalitäten schon beinhaltet und z. B. mit einer Skriptsprache wie Python ansprechbar ist. Außerdem wäre es gut, wenn sie einen normalen Brwoser möglichst gut imitiert. Bei Selenium finde ich mit dem Suchbegriff "selenium download full website" bei Google nicht viel, weshalb ich hier schon die Vermutung habe, dass das aus welchen Gründen auch immer nicht so gut geeignet ist.

Grüße

bitmuncher · Jun 5, 2021

Logge dich ein, nimm die Cookies aus deinem Browser und übergib diese als Parameter an ‚wget‘.

@night@ · Jun 6, 2021

bitmuncher hat gesagt.:
Logge dich ein, nimm die Cookies aus deinem Browser und übergib diese als Parameter an ‚wget‘.

Das habe ich so schon getan. Nach ein paar Unterrichtseinheiten (ist eine E-Learning-Website) werde ich aber rausgeschmissen (mit 2 Sekunden Wartezeit zwischen den Requests). Wenn ich im Browser viele Kurseinheiten in kurzer Zeit öffne, passiert dies nicht. Naja, ich habe die für mich interessanten Inhalte jetzt manuell heruntergeladen. Bestimmt hätte man das technisch irgendwie lösen können, aber wegen Stress im Berufsumfeld bin ich momentan nicht so heiß darauf, mich in meiner Freizeit mit technischen Problemen zu beschäftigen. Passt mit der Motivation natürlich nicht richtig in ein IT-Security-Forum, schon klar

bitmuncher · Jun 6, 2021

Wenn die Website das wget erkennt, liegt das meist am gesendeten User-Agent. Lasse wget einfach den UA deines Browsers mitsenden.

Website rekursiv herunterladen mit geringem Aufwand

@night@

0

bitmuncher

Senior-Nerd

@night@

0

bitmuncher

Senior-Nerd