Textteile aus einer Html-Datei extrahieren

Hallo zusammen,

ich habe ein Problem. Und zwar habe ich leider kaum Ahnung von Perl aber muss aus einer html-Datei Textteile extrahieren.

Ich verwende Windows und den "Padre" daher sieht mein bisheriger Code so aus:

Code:
my $liste = '/blablabla/seite1.htm';
my $liste2 = '/blablabla/seite1.txt';
open (my $fh, '<', $liste) or die "Fehler beim oeffnen";
open (my $fh2, '>', @liste2) or die "Fehler beim Anlegen der neuen Datei";
print "\nDateien zum kopieren geoeffnet\n";

my @array=();

if ($liste=~ m/<!-- message -->(.*)<\/!-- message -->/ ) {print @_}; 

close ($liste);
close(liste2);
print "\nDateien  geschlossen, Kopiervorgang beendet\n";

Wie man vllt erkennen kann sind in der Datei die spannenden Teile immer zwischen den Tags <!-- message --> und </!-- message --> enthalten und sollen in einer .txt-Datei ausgegeben werden.

schon jetzt vielen Dank für die Antworten und die Hilfe

greets,
Flelix
 
Wie man vllt erkennen kann sind in der Datei die spannenden Teile immer zwischen den Tags <!-- message --> und </!-- message --> enthalten und sollen in einer .txt-Datei ausgegeben werden.

Code:
#!/usr/bin/env perl 

use strict;
use warnings;

my $liste  = '/tmp/seite1.htm';
my $liste2 = '/tmp/seite1.txt';

open ("READ", "< $liste") or die "Fehler beim oeffnen";
open ("WRITE", "> $liste2") or die "Fehler beim Anlegen der neuen Datei";

print "\nDateien zum kopieren geoeffnet\n";

while( <READ> ) {

  if ($_ =~ m/<!-- message -->([^<]+)<\/!-- message -->/ ) {
    print WRITE $1 . "\n";
  }

}

close (READ);
close (WRITE);

print "\nDateien  geschlossen, Kopiervorgang beendet\n"
HTH

Micha
 
Zuletzt bearbeitet:
Zurück
Oben