Foro - Perl en Español

por **jacks** » 2011-05-09 09:22 @432

La verdad es que ahora ya sí que estoy perdido de qué puedo hacer para que el programa me genere lo mismo que a ti; esto es, que me funcione.

Yo suelo adoptar varias estrategias para saber, primero, dónde está el error.

Una de ellas, sería ejecutar el programa paso a paso, con el depurador, hasta llegar al momento en que falla. Lo que pasa es que, en este caso, se podría tardar mucho.

Otra, es procesar menos información, hasta que funcione bien.

Es decir: en vez de procesar todo lo que nos podamos bajar de la web, darle al programa, al principio, un HTML del que sabemos que no tiene nada "raro".

Si el resto del programa funciona, repetimos la prueba, pero con una parte de HTML mayor.

Si el resto del programa falla, repetimos la prueba, pero reduciendo el HTML.

El objetivo es localizar la parte de la página HTML que provoca el fallo. Se puede usar la táctica de la búsqueda binaria, para hacer un número de pruebas mínimo.

Naturalmente, si al final, resulta que no es el HTML (porque, quizás, sale el error incluso cuando el HTML está vacío), entonces sí que habrá que procesar ese último HTML bajo el depurador de Perl, yendo paso a paso, y averiguar por qué cae esa línea.

Según el manual del módulo, lo que hay que hacer es sobreescribir la función getHTML(). En su lugar, escribes otra que se llame igual, pero que tenga como misión leer el HTML desde el propio disco duro tuyo. Recortarlo según la prueba que estés haciendo, y devolviendo el resultado (el código HTML) que espera el resto del módulo.

De esta manera, las pruebas serán más rápidas, que si tienes que repetir la conexión a la web deportiva.

por **jacks** » 2011-05-10 07:32 @355

Hola, explorer.

He ejecutado el código con el depurador (perl -d generarRSS.txt), creo que es así, pero era eterno, como tu decías y la parte de cambiar el getHTML() creo que no lo he entendido demasiado bien como para probarlo con lo cual podría cagarla.

En cuanto a reducir el código no sé si te he entendido bien y te refieres a buscar otra sección con menos contenido actualizado o a otra cosa.

por **explorer** » 2011-05-10 17:28 @769

Me refería a que fueras probando con un código HTML cada vez más pequeño, hasta identificar qué parte de la página no le gusta al programa.

por **jacks** » 2011-05-12 06:36 @317

Hola explorer. He estado mirando el tema de los RSS y al final conseguí que me funcionara en Linux Ubuntu pero el problema es que el programa que estoy desarrollando tiene que correr en Windows y el módulo XML::RSS::FromHTML no está disponible. Con lo cual, miré el módulo XML::RSS, que sí lo está, pero llevo probando durante varios días el ejemplo o el modo de empleo que aparece en CPAN y, la verdad, no me genera ningún tipo de información, si no que al llamar al programa desde la línea de comandos, me imprime en formato XML. Los datos que yo introduje, como por ejemplo la dirección de la página web, el título que yo introduje... pero el caso es que no genera ningún tipo de información extra. ¿Sabes si el módulo XML::RSS puede generar algo parecido aunque no llegue al nivel de XML::RSS::FromHTML?

por **explorer** » 2011-06-16 15:35 @691

Yo solo sé lo que aparece en la página de manual de XML::RSS.

Si miras la sinopsis, verás que se puede poner mucha información.

El resultado es un xml, desde luego, porque un RSS es justamente, un XML.

Si el problema es que no funciona en Windows, pero sí en Linux, la solución es obvia (y muy barata).

por **jacks** » 2011-06-20 07:34 @357

Hola explorer. El módulo XML::RSS sí me funciona en Windows. El que no me funciona es el XML::RSS::FromHTML. Usando el módulo XML::RSS y leyendo en CPAN he intentado probar lo que pone en la sinopsis pero no me genera rss sino que me imprime en XML los datos que yo introduje en el código:

Código:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!c:/perl/bin 
 
# create an RSS 1.0 file (http://purl.org/rss/1.0/)
 
 use Modern::Perl;
 use XML::RSS;
 
 my $rss = XML::RSS->new(version => '1.0');
 
 $rss->channel(
   title        => "freshmeat.net",
   link         => "http://freshmeat.net",
   description  => "the one-stop-shop for all your Linux software needs",
   dc => {
     date       => '2000-08-23T07:00+00:00',
     subject    => "Linux Software",
     creator    => '[email protected]',
     publisher  => '[email protected]',
     rights     => 'Copyright 1999, Freshmeat.net',
     language   => 'en-us',
   },
 
   syn => {
     updatePeriod     => "hourly",
     updateFrequency  => "1",
     updateBase       => "1901-01-01T00:00+00:00",
   },
 
   taxo => [
     'http://dmoz.org/Computers/Internet',
     'http://dmoz.org/Computers/PC'
   ]
 );
 
 
 $rss->image(
   title  => "freshmeat.net",
   url    => "http://freshmeat.net/images/fm.mini.jpg",
   link   => "http://freshmeat.net",
   dc => {
     creator  => "G. Raphics (graphics at freshmeat.net)",
   },
 );
 
 
 
 $rss->add_item(
   title       => "GTKeyboard 0.85",
   link        => "http://freshmeat.net/news/1999/06/21/930003829.html",
   description => "GTKeyboard is a graphical keyboard that ...",
   dc => {
     subject  => "X11/Utilities",
     creator  => "David Allen (s2mdalle at titan.vcu.edu)",
   },
   taxo => [
     'http://dmoz.org/Computers/Internet',
     'http://dmoz.org/Computers/PC'
   ]
 );
 
 
 $rss->textinput(
   title        => "quick finder",
   description  => "Use the text input below to search freshmeat",
   name         => "query",
   link         => "http://core.freshmeat.net/search.php3",
 );
 
 # print the RSS as a string
 
 print $rss->as_string;
 
 
 # print the title and link of each RSS item
 
 foreach my $item (@{$rss->{'items'}}) {
 
     print "title: $item->{'title'}\n";
     print "link: $item->{'link'}\n\n";
 
 }
 
 # output the RSS 0.9 or 0.91 file as RSS 1.0
 
 $rss->{output} = '1.0';
 
 print $rss->as_string;
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Resultado XML:

Sintáxis: [ Descargar ] [ Ocultar ]

Using xml Syntax Highlighting

<?xml version="1.0" encoding="UTF-8"?>
 
<rdf:RDF
 xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
 xmlns="http://purl.org/rss/1.0/"
 xmlns:content="http://purl.org/rss/1.0/modules/content/"
 xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/"
 xmlns:dc="http://purl.org/dc/elements/1.1/"
 xmlns:syn="http://purl.org/rss/1.0/modules/syndication/"
 xmlns:admin="http://webns.net/mvcb/"
>
 
<channel rdf:about="http://freshmeat.net">
<title>freshmeat.net</title>
<link>http://freshmeat.net</link>
<description>the one-stop-shop for all your Linux software needs</description>
<dc:language>en-us</dc:language>
<dc:rights>Copyright 1999, Freshmeat.net</dc:rights>
<dc:date>2000-08-23T07:00+00:00</dc:date>
<dc:publisher>[email protected]</dc:publisher>
<dc:creator>[email protected]</dc:creator>
<dc:subject>Linux Software</dc:subject>
<syn:updateBase>1901-01-01T00:00+00:00</syn:updateBase>
<syn:updateFrequency>1</syn:updateFrequency>
<syn:updatePeriod>hourly</syn:updatePeriod>
<taxo:topics>
  <rdf:Bag>
    <rdf:li resource="http://dmoz.org/Computers/Internet" />
    <rdf:li resource="http://dmoz.org/Computers/PC" />
  </rdf:Bag>
</taxo:topics>
<items>
 <rdf:Seq>
  <rdf:li rdf:resource="http://freshmeat.net/news/1999/06/21/930003829.html" />
 </rdf:Seq>
</items>
<image rdf:resource="http://freshmeat.net/images/fm.mini.jpg" />
<textinput rdf:resource="http://core.freshmeat.net/search.php3" />
</channel>
<image rdf:about="http://freshmeat.net/images/fm.mini.jpg">
<title>freshmeat.net</title>
<url>http://freshmeat.net/images/fm.mini.jpg</url>
<link>http://freshmeat.net</link>
<dc:creator>G. Raphics (graphics at freshmeat.net)</dc:creator>
</image>
<item rdf:about="http://freshmeat.net/news/1999/06/21/930003829.html">
<title>GTKeyboard 0.85</title>
<link>http://freshmeat.net/news/1999/06/21/930003829.html</link>
<description>GTKeyboard is a graphical keyboard that ...</description>
<dc:creator>David Allen (s2mdalle at titan.vcu.edu)</dc:creator>
<dc:subject>X11/Utilities</dc:subject>
<taxo:topics>
  <rdf:Bag>
    <rdf:li resource="http://dmoz.org/Computers/Internet" />
    <rdf:li resource="http://dmoz.org/Computers/PC" />
  </rdf:Bag>
</taxo:topics>
</item>
<textinput rdf:about="http://core.freshmeat.net/search.php3">
<title>quick finder</title>
<description>Use the text input below to search freshmeat</description>
<name>query</name>
<link>http://core.freshmeat.net/search.php3</link>
</textinput>
</rdf:RDF>
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Con lo cual ¿este módulo no me generará como el otro, las noticias actualizadas de la página?

por **explorer** » 2011-06-20 09:11 @424

XML::RSS sí que genera RSS (y de varias versiones, hasta la 1.0) pero solo de la información que le proporciones. No realiza ningún análisis de información externa.

Esa es justo la tarea que hace XML::RSS::FromHTML y XML::RSS::FromHTML::Simple: leer la página original, extraer la información, y componer el RSS (usando XML::RSS, por cierto).

Si no puedes instalar el módulo, al menos puedes ver su código e intentar imitar su funcionamiento en tu programa, para que realice las mismas tareas.

Lo que tampoco hace, a diferencia de XML::RSS::FromHTML, es almacenar las fechas de las noticias ya publicadas, para llevar un control de los tiempos.

por **jacks** » 2011-06-20 11:17 @512

Hola, explorer. Espero no ser pesado pero he conseguido instalar XML::RSS::FromHTML en Windows (aunque me dijo que no, pasó el test pero me dio la opción de continuar) y he usado el programa que escribiste en la hoja uno sobre el diario Marca.

El problema es que no sé por qué en la parte de descripción me pone una letra en vez de la noticia y hay caracteres mal puestos. Esto es lo que me sale como resultado:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$VAR1 = [
          {
            'link' => '" title="Resumen 2010-2011">Resumen 2010-2011</a></h3>
<p>El Barcelona pudo con el \'efecto Mou\'. Deportivo, Hércules y Almería descienden.</p>
</li>
</ul>
<ul>
<li class="noticia',
            'title' => '1',
            'description' => 'C'
          },
          {
            'link' => 'http://www.marca.com/deporte/futbol/primera-division/2010-2011/dorsales/',
            'title' => 'Todos los dorsales',
            'description' => 'C'
          },
          {
            'link' => 'http://www.marca.com/2010/08/13/multimedia/graficos/1281720946.html',
            'title' => 'La nueva perla del fútbol',
            'description' => 'A'
          },
          {
            'link' => 'http://www.marca.com/2009/11/13/multimedia/graficos/1258122822.html',
            'title' => 'Iniesta, el crack silencioso',
            'description' => 'D'
          },
          {
            'link' => 'http://www.marca.com/2009/02/07/futbol/equipos/real_madrid/1234005565.html',
            'title' => 'Raúl González Blanco',
            'description' => 'N'
          },
          {
            'link' => 'http://www.marca.com/edicion/marca/otros_deportes/graficos/es/desarrollo/1046308.html',
            'title' => 'Leo Messi',
            'description' => 'D'
          },
          {
            'link' => 'http://www.marca.com/edicion/marca/otros_deportes/graficos/es/desarrollo/1079288.html',
            'title' => 'Kun Agüero',
            'description' => 'A'
          }
        ];
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Aparte de esto el archivo marca.xml me lo abre con Internet Explorer y mee da error:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

No se puede mostrar la página XML 

No se puede ver la entrada XML con la hoja de estilo . Corrija el error y haga clic en el botón Actualizar, o inténtelo de nuevo más tarde.

--------------------------------------------------------------------------------

El documento XML debe tener un elemento de nivel superior. Error al procesar el recurso file:///C:/Documents and Settings/J...
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

y para finalizar me pone cuando ejecuto el programa desde la línea de comandos:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

"Malformed UTF-8 character (fatal) at C:/Perl/lib/HTML/Entities.pm line 464"Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

y mirando esa línea:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

# Encode control chars, high bit chars and '<', '&', '>', ''' and '"'
        $$ref =~ s/([^\n\r\t !\#\$%\(-;=?-~])/$char2entity{$1} || num_entity($1)/ge;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2011-06-20 11:54 @538

Había un error en la línea 41. Además, he descomentado las líneas de la función decode(), para que convierta los caracteres desde la codificación de la página (iso-8859-15).

Lo he ejecutado y no me sale error.

Foro - Perl en Español

Comparar páginas Perl

Re: Comparar páginas Perl

Publicidad

Re: Comparar páginas Perl

Re: Comparar páginas Perl

Re: Comparar páginas Perl

Re: Comparar páginas Perl

Re: Comparar páginas Perl

Re: Comparar páginas Perl

Re: Comparar páginas Perl

Re: Comparar páginas Perl

Re: Comparar páginas Perl

¿Quién está conectado?