Foro - Perl en Español

por **Altair Auditore** » 2011-09-11 07:18 @345

Hola de nuevo...

Podría alguien darme alguna info de cómo podría capturar lo que comienza en la etiqueta <title> y termina en </url>.

Yo puedo capturar todo lo que está dentro de la etiqueta <title> pero al identificar el salto de línea no obtengo ningún resultado...

Este es el texto donde hago la búsqueda:
<Title>Stadtplaene fuer Handys von Nokia und Sony Ericsson - News ...</Title>
<Url>http://www.xonio.com/news/news_10830297.html</Url>

Gracias por su ayuda.
Saludos.

<Result>
<Title>
CHIP Online - Deutschlands Webseite Nr. 1 fuer Computer, Handy ...
</Title>
<Url>http://www.pconline.de/</Url>
<ClickUrl>http://www.pconline.de/</ClickUrl></Result>
<Result>
<Title>
nautiker-Werbeagentur, Werbung, Marketing, Internet-Agentur ...
</Title>
<Url>http://www.nautiker.info/</Url>
<ClickUrl>http://www.nautiker.info/</ClickUrl>
</Result>
<Result>
<Title>SV Manching e.V.</Title>
<Url>http://www.sv-manching.de/</Url>
<ClickUrl>http://www.sv-manching.de/</ClickUrl>
</Result>
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Y una parte del código que he probado es este:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

open(DATOS,"$file")|| die "Die File $archivo, existiert nicht - Aborting Programm";
while(<DATOS>){
  $linea=$_;
  if($linea=~m{<title>\n(.*?)<\/title>}sig){
   print TEMP $linea;
  }
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Como verás, abro el archivo donde tengo las líneas anteriores y lo voy recorriendo dentro del while() pero aun no he podido capturar todo lo que está dentro de las etiquetas <title> y </url>. Lo único que sé es que ese salto de línea me está dando problemas. De ahí nada más... ¿Podrías darme una idea de cómo podría hacer esto?

Muchas gracias por tu ayuda.
Saludos.

por **explorer** » 2011-09-11 18:59 @832

Yo lo haría así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

use File::Slurp;
 
my $html = read_file($file);
 
while($html =~ m{<title>\s*(.*?)\s*</title>.*?<url>\s*(.*?)\s*</url>}gsmi) {
    print "[$1] => [$2]\n";
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

El resultado es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

[CHIP Online - Deutschlands Webseite Nr. 1 fuer Computer, Handy ...] => [http://www.pconline.de/]

[nautiker-Werbeagentur, Werbung, Marketing, Internet-Agentur ...] => [http://www.nautiker.info/]

[SV Manching e.V.] => [http://www.sv-manching.de/]Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Foro - Perl en Español

Capturar texto dentro de HTML

Capturar texto dentro de HTML

Publicidad

Re: Capturar texto dentro de HTML

Re: Capturar texto dentro de HTML

Re: Capturar texto dentro de HTML

¿Quién está conectado?