[java] html request an wikipedia

Hi,
ich bin gerade ein bisschen am Rumprobieren, und würde gerne mal versuchen einen html request an wikipedia (bzw andere wikis) zu senden, bzw. den Artikel eines von mir im java programm eingegebenen Suchworts, im programm vorliegen zu haben. Wie müsste man vorgehen?

Auf dem gebiet habe ich leider keinerlei erfahrung ... mir fehlt so ein bisschen der ansatz nach was ich googeln soll.

Ein paar kurze Denkanstöße, Stichwörter und Links wären also echt cool :), würde mich freuen.
 
Die größte problematk ist noch das ich mir aktuell nich vorstellen kann wie ich auf die Art und Weise an meinen gewünschten Artikel komme bzw. was mir die Methoden genau zurück liefern..

Bzw. was ich dem Aerver in meinem Request sende, um die gewünschte Antwort zu erhalten. Vor Allen Dingen, woher ich weiß was ich ihm sende, will ich von ihm zB den Artikel über java, was muss ich ihm dann in der Anfrage senden, da fehlt mir noch so ein bisschen das wissen, wie es dann technisch umzusetzen ist dürfte kein problem sein.
 
Zuletzt bearbeitet:
Wie wärs einfach mit ausprobieren?

Schau doch was gesendet wird wenn du eine Suche mit einem Browser machst. Wenn das nicht gleich offensichtlich zu sehen ist können z.B. das Firefox Add-on Tamper Data oder halt gleich Wireshark helfen.
 
Wenn du wissen willst wie die Antwort in etwa aussieht, reicht es schon auf die Seite zu gehen und den Quelltext anzeigen zu lassen.

Das ist dann der Teil der Daten, die für dich am interessantesten sein dürfte. Dazu kommen dann noch Header-Daten, die du zum Beispiel dazu brauchst, um zu wissen ob dein Request erfolgreich war.

Wenn du die Daten dann aufbereiten willst musst du die noch parsen. Das klappt zum Beispiel mit einem XML-Parser, bei dem man aber evtl. noch recht viel per Hand machen muss, wenn man nur einen kleinen Ausschnitt der Daten braucht.

Mein Tipp: schau mal nach, ob bei den Webdiensten JSON-Schnittstellen existieren, die sind nämlich genau zu dem Zweck gedacht pure Daten für andere Anwendungen bereitzustellen.
 
Ein ganz anderer Ansatz, der sich besonders für das Auslesen komplexerer Webseiten anbietet, wäre die Nutzung von HtmlUnit.

HtmlUnit is a "GUI-Less browser for Java programs". It models HTML documents and provides an API that allows you to invoke pages, fill out forms, click links, etc... just like you do in your "normal" browser.

mit freundlichen Grüßen,
Joroe.
 
Ich meine auch, dass es kein "html request", sondern ein "http request" ist. Das eine ist eine Auszeichnungssprache, das andere ein Protokoll.
 
Zurück
Oben