Foro - Perl en Español

Publicado: **2011-06-06 11:10 @507**

Hola, que tal, soy nuevo en el foro, estaba necesitando encontrar un grupo que trabaje con Perl, ya que hace tiempo estuve en el tema y ahora me estoy volviendo a integrar.

Mi consulta, estimo que debe ser muy simple.
Espero me puedan ayudar.

Tengo un html, donde dentro de las etiquetas <ul><il></il></ul> está la información que necesito; esto se repite dentro del código varias veces y necesito extraerlo por cada vez que encuentre la etiqueta <ul>.

Yo, en el primer momento, descargo el contenido HTML a una variable $contenido:

my $req = HTTP::Request->new(GET => $publi);
my $response = $browser->request($req);
my $contenido = $response->content();
$contenido =~ s/[\t\n]//g;

Lo limpio de tabuladores y saltos de línea.
Encuentro la región que contiene la etiqueta <ul> y la capturo a $1.

$contenido = $1;

Luego intento hacer un proceso para sustraer los datos.

while ( $contenido =~ /<ul class="gridRow.*">(.*)<div/g ) {

encuentra lo que busco, pero no lo hace por cada vez que inicia con la etiqueta <ul>. No sé si me explico bien.

Espero que alguien entienda, de lo contrario, respondo preguntas o reformulo la cuestión... Gracias.

Publicado: **2011-06-06 14:45 @656**

Hola teofederico. Creo que se entendería mejor si pusieras un ejemplo del código HTML que quieres procesar y lo que llevas de tu programa en Perl.

Saludos.

Publicado: **2011-06-06 15:15 @677**

Bienvenido a los foros de Perl en español, teofederico.

Los comodines avariciosos (.*) son peligrosos, porque capturan todo lo que puedan, a veces, demás.

Deberías usar comodines no avariciosos (.*?). Algo así:

m{<ul .*?>(.*?)</ul>}

De esta manera, la captura está garantizada desde que empieza <ul> hasta el primer </ul> que encuentre.

Como dice ileiva, estaría bien ver un poco de código original.

Publicado: **2011-06-06 19:06 @837**

Sintáxis: [ Descargar ] [ Ocultar ]

Using html4strict Syntax Highlighting

<div class="divAdsenseGridTop afsGrid ">
<ul class="gridRow cat344  ">
                    <li class="date"> fecha</li>
                    <li class="photo"><a class='nophoto' href='#' title='#'><img/></a></li>
                    <li class="title"><a href="#"> Dato </a><span class="location">#</span></li>
                    <li class="category">#</li>
                    <li class="price">u$s </li>
</ul>
<ul class="gridRow cat344  ">
                    <li class="date"> fecha</li>
                    <li class="photo"><a class='nophoto' href='#' title='#'><img/></a></li>
                    <li class="title"><a href="#"> Dato </a><span class="location">#</span></li>
                    <li class="category">#</li>
                    <li class="price">u$s </li>
</ul>
</div>
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Esta es una porción del código; logro captar el contenido dentro de las <div>, y lo almaceno en $1

$contenido = $1;

$contenido =~ s/[\t\r]/ /g; # Elimino espacios y demás, para detectar mas fácilmente el contenido

Mi problema es al querer hacer un proceso repetitivo (while) de reconocimiento para cada <ul>, para procesar cada class (que ya lo tengo resuelto).

Disculpen, soy medio bruto explicándome.

Voy a intentar de la manera que me proponen.

Publicado: **2011-06-06 20:08 @881**

Bueno, asumiendo que tienes listo lo de procesar cada class, entonces algo así debería funcionar:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use File::Slurp;
use strict;
 
my $f = read_file('file.html');
 
while ($f =~ /<div .*?>(.*?)<\/div>/gs ) {
    my $div_content = $1;
    while ($div_content =~ /<ul .*?>(.*?)<\/ul>/gs ) {
        print $1;  # Procesar aquí cada class
    }
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Los modificadores g y s indican que se debe procesar todas las ocurrencias encontradas y tratar la cadena como una sola línea respectivamente.

Saludos.

Publicado: **2011-06-06 20:17 @887**

explorer escribiste:Bienvenido a los foros de Perl en español, teofederico.

Los comodines avariciosos (.*) son peligrosos, porque capturan todo lo que puedan, a veces, demás.

Deberías usar comodines no avariciosos (.*?). Algo así:

m{<ul .*?>(.*?)</ul>}

De esta manera, la captura está garantizada desde que empieza <ul> hasta el primer </ul> que encuentre.

Como dice ileiva, estaría bien ver un poco de código original.

Muchisimas gracias! funciono excelente!

Si estan por Argentina, les invito o unos mates o una cerveza.

Publicado: **2011-06-06 22:55 @997**

Efectivamente ileiva,

Ya tenía gran porción del código hecho, hasta que me di cuenta, que lo estaba haciendo mal. Ya que algunos parámetros se me escapan por hacer mal el regex, solo tuve que agregar "}g" al código de nuestro colega, para así, dejarlo funcional.

Te agradezco, ahora estoy viendo si puedo interactuar con un archivo ASP de un sitio, que no crea peticiones por url y es más complicado.

Resumiendo, el código terminó:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

if ( $contenido =~ m/(<ul class="gridRow.*">.*<\/div>)/g ) {
$contenido = $1;
while ( $contenido =~ m{<ul class="gridRow.*?">(.*?)</ul>}g ) { aqui parseo cada class y obtengo los datos }
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

¡ Gracias !

¿ Agrego al título "Resuelto" ?

Publicado: **2011-06-07 01:29 @104**

Qué bueno que ya lo solucionaste, para eso está el foro

.

teofederico escribiste:¿ Agrego al título "Resuelto" ?

Yo creo que sí.

Saludos.

Publicado: **2011-06-07 01:32 @105**

BORRADO por incumplir las normas del sitio.

Publicado: **2011-06-07 03:49 @200**

Basándome en una de tus respuestas anteriores, donde pusiste esto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

    if ( $contenido =~ m/(<ul class="gridRow.*">.*<\/div>)/g ) {
    $contenido = $1;
    while ( $contenido =~ m{<ul class="gridRow.*?">(.*?)</ul>}g ) { aqui parseo cada class y obtengo los datos }
    }
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Te aconsejaría que una vez que entras al if (y luego al while) vayas creando nuevas variables para almacenar el valor de las ocurrencias en vez de modificar la misma que estás procesando, que en este caso es $contenido. Si lo piensas detenidamente, estás alterando el valor de la información que procesas por tanto pierdes lo que tenías antes de encontrar alguna ocurrencia.

Espero haya quedado claro. Saludos.

Foro - Perl en Español

Consulta por expresión regular

Consulta por expresión regular

Re: Consulta por expresión regular

Re: Consulta por expresión regular

Re: Consulta por expresión regular

Re: Consulta por expresión regular

Re: Consulta por expresión regular

Re: Consulta por expresión regular

Re: Consulta por expresión regular

Re: Consulta por expresión regular

Re: Consulta por expresión regular