WCM Forum

WCM Forum (http://www.wcm.at/forum/index.php)
-   Programmierung (http://www.wcm.at/forum/forumdisplay.php?f=17)
-   -   PERL: Titel aus HTML Quellcode auslesen (http://www.wcm.at/forum/showthread.php?t=204142)

tricipitinus 22.11.2006 13:42

PERL: Titel aus HTML Quellcode auslesen
 
Hi!

Ich will aus einer Liste von eingegebenen URLs den Titel aus dem jeweiligen quellcode auslesen und ausgeben.
was ich schon habe:

Code:

#!/usr/bin/perl

 
use LWP::Simple;
  $Url = get 'http://orf.at/ticker/236327.html';

@html = split ( /\s+/, $Url );

if ($html == "<title>") {print "Titel gefunden!"};

mir fällt nun aber keine möglichkeit ein, wie ich die Zeichen zwischen
Code:

<title> und </title>
extrahieren und ausgeben kann..

colossus 22.11.2006 14:25

Mit Perl kann ich nicht dienen, vielleicht hilft dir aber auch ein sed-Script:

Code:

sed -r '/<title>.*<\/title>/!d;s/<title>(.+)<\/title>/\1/' file1 file2 ... fileN

tricipitinus 23.11.2006 23:54

danke, habs schon geschafft...falls es jm. interessiert ^^

Code:

#! /usr/bin/perl -w

use LWP::Simple;

#Eingabeaufforderung der URLs
print "Enter URLs including http:// , use blanks to seperate them: ";
chomp ($input  = <>);
@urls = split ( /\s+/,$input);

#Jeder link wird geladen und nach dem Muster <title>*</title> durchsucht
foreach $url (@urls) {
  my($html)=get($url);
  print "\nThe webpage: $url has the title: ";
  $html =~ m/(<title>.*<\/title>)/i; #Hier wird ein Patternmatch durchgeführt, das /i bewirkt no-case-sensitivity
  print $1 . "\n";
}



Alle Zeitangaben in WEZ +2. Es ist jetzt 08:44 Uhr.

Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
© 2009 FSL Verlag