Hallo,
ich würde gerne eine Website mit möglichst geringem Aufwand komplett oder zumindest teilweise herunterladen. Die gewünschten Dateien befinden sich in einem Bereich, der nur über einen Login zugänglich ist. Die Motivation ist, dass ich nicht monatlich Geld für Zugang zu Mediendateien bezahlen möchte, die sich kaum bis gar nicht ändern. Andererseits bin ich aber auch zu faul die für mich interessanten Dateien manuell herunterzuladen.
Ich habe mit curl und wget schon Teile aus dem Bereich herunterladen können, der nur über einen Login einsehbar ist. Allerdings hakt es am rekursiven Download. Mir fehlt leider die Zeit um die genauen Gründe dafür zu finden und zu beheben.
Viel eleganter und einfacher wäre es denke ich, einfach einen Browser zu automatisieren und diesen anzuweisen alle Dateien der Domain oder zumindest einen Teilbereich davon herunterzuladen. Da die Website eher klein ist, dürfte sich der Datenaufwand dafür in Grenzen halten (< 5GB).
Frage: Wie kann ich das Problem mit möglichst geringem Zeitwaufwand lösen? Hat jemand schonmal etwas in diese Richtung gemacht? Möglichkeiten gibt es ja viele (Firefox automatisieren, Selenium, etc.). Am liebsten wäre mir irgendeine API, die den Großteil der gewünschten Funktionalitäten schon beinhaltet und z. B. mit einer Skriptsprache wie Python ansprechbar ist. Außerdem wäre es gut, wenn sie einen normalen Brwoser möglichst gut imitiert. Bei Selenium finde ich mit dem Suchbegriff "selenium download full website" bei Google nicht viel, weshalb ich hier schon die Vermutung habe, dass das aus welchen Gründen auch immer nicht so gut geeignet ist.
Grüße
ich würde gerne eine Website mit möglichst geringem Aufwand komplett oder zumindest teilweise herunterladen. Die gewünschten Dateien befinden sich in einem Bereich, der nur über einen Login zugänglich ist. Die Motivation ist, dass ich nicht monatlich Geld für Zugang zu Mediendateien bezahlen möchte, die sich kaum bis gar nicht ändern. Andererseits bin ich aber auch zu faul die für mich interessanten Dateien manuell herunterzuladen.
Ich habe mit curl und wget schon Teile aus dem Bereich herunterladen können, der nur über einen Login einsehbar ist. Allerdings hakt es am rekursiven Download. Mir fehlt leider die Zeit um die genauen Gründe dafür zu finden und zu beheben.
Viel eleganter und einfacher wäre es denke ich, einfach einen Browser zu automatisieren und diesen anzuweisen alle Dateien der Domain oder zumindest einen Teilbereich davon herunterzuladen. Da die Website eher klein ist, dürfte sich der Datenaufwand dafür in Grenzen halten (< 5GB).
Frage: Wie kann ich das Problem mit möglichst geringem Zeitwaufwand lösen? Hat jemand schonmal etwas in diese Richtung gemacht? Möglichkeiten gibt es ja viele (Firefox automatisieren, Selenium, etc.). Am liebsten wäre mir irgendeine API, die den Großteil der gewünschten Funktionalitäten schon beinhaltet und z. B. mit einer Skriptsprache wie Python ansprechbar ist. Außerdem wäre es gut, wenn sie einen normalen Brwoser möglichst gut imitiert. Bei Selenium finde ich mit dem Suchbegriff "selenium download full website" bei Google nicht viel, weshalb ich hier schon die Vermutung habe, dass das aus welchen Gründen auch immer nicht so gut geeignet ist.
Grüße