Perl en Español

  1. Home
  2. Tutoriales
  3. Foro
  4. Artículos
  5. Donativos
  6. Publicidad
 
Índice general » Mundo Perl » Avanzado » Comparar páginas Responder al tema
Nuevo tema


Página 1 de 1  [ 6 mensajes ] 
 
Nota 2011-04-05 11:23 @516

Perlero Frecuente
Registrado: 2011-04-05 11:14 @510
Mensajes: 148
Comparar páginas
Hola, soy nuevo en esto y me gustaría saber si podrían ayudarme con un problema.

Quiero crear con Perl un programa que me genere RSS para las páginas que no tengan dicha opción. Con lo cual lo que pensé es en descargarme la página guardándola en una base de datos y volver a descargarme la misma página más adelante y comparar los dos ficheros en los que me descargué la página para encontrar si hay alguna diferencia entre ambas.

El código que me he generado ya me descarga todo el contenido de la página en formato texto. Me gustaría saber cómo hacer para que a partir de ahí poder encontrar diferencias significativas entre ambas, como alguna actualización que se haya hecho o algo. Sino me expresé bien, por favor, hagánmelo saber.

Muchas gracias.


Nota 2011-04-05 13:38 @609
Avatar de Usuario
Administrador
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España
Mensajes: 10249
Re: Comparar páginas
Bienvenido a los foros de Perl en español, jacks.

Para generar los RSS, lo normal es quedarse con los titulares y con algo de texto, de cada entrada o página. Si las pasas a texto, puedes estar perdiendo el formato de la página, y ser más complicado el distinguir el título del resto.

Hay módulos en CPAN que ayudan a buscar la diferencia entre dos textos. Por ejemplo, String::Diff.

Lo malo es que cada sitio web tiene un formato de página, por lo que habría que hacer casi un programa distinto por cada una de ellas.

Yo uso algo así para saber cuándo hay nuevos mensajes en estos foros, en la página de "Ver temas activos". Para ello, uso el complemento "Update Scanner" para el Firefox 4. Podrías bajarlo, para ver su código (está en JavaScript, pero es fácil de seguir).

_________________
JF^D Perl programming


Nota 2011-04-05 14:46 @657

Perlero Frecuente
Registrado: 2011-04-05 11:14 @510
Mensajes: 148
Re: Comparar páginas
Entonces, ¿me recomendarías no hacerlo como te explique antes no por eso de que cada página puede tener un formato diferente?

La verdad que tengo que hacerlo con Perl y me leí bastantes tutoriales y lo que se me ocurrió fue hacer lo que te expliqué.

La verdad ahora me tendré que replantear un poco cómo hacerlo porque lo que me interesa es coger el título y parte de la noticia y aparte un link que te lleve directamente a la noticia.

Quizás parezca muy complicado explicado así pero si pudieras darme un pequeño consejo de por dónde tirar te lo agradecería. Sino iré mirando y te consultare dudas.

Gracias.


Nota 2011-04-05 17:01 @751
Avatar de Usuario
Administrador
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España
Mensajes: 10249
Re: Comparar páginas
Naturalmente que se puede hacer como comentas, pero, ¿sabes qué formato tienen las páginas que vas a analizar?

En HTML, lo normal es usar las marcas <h1>, <h2>, ... <h6> para indicar cabeceras de sección, por lo que son una pista para localizar los titulares de las noticias. Y si son seguidas por marcas de párrafo <p>, pues con más seguridad.

Pero esto no es una regla universal. Depende de cada página. Solo tienes que elegir unas cuantas, para que te des cuenta de la dificultad que entraña.

Mientras que el HTML es un estándar, la disposición no lo es.

(En HTML5 hay más control sobre la semántica del contenido de una página.)

Quizás debas reducir el campo de aplicación, después de explicar la problemática a la que te enfrentas. Si tienes que justificarte ante un profesor, debes llegar a un acuerdo con él, para ver en cuáles y en qué páginas debes aplicar tu programa.

_________________
JF^D Perl programming


Nota 2011-04-07 06:21 @306

Perlero Frecuente
Registrado: 2011-04-05 11:14 @510
Mensajes: 148
Re: Comparar páginas
No sé si servirá, pero buscando en Internet y leyendo un poco que otro algún tutorial he encontrado que con el módulo XML::RSS y algún otro más como el parser se podría hacer algo.

Tengo que leerme un poco más su funcionalidad y métodos en CPAN, pero quería consultarte si es buena opción.

De todas formas no he dado mucho la programación en HTML pero por lo que me comentó mi compañero lo más seguro es que las páginas que utilizaremos utilicen <h1><h2>... para las cabeceras.


Nota 2011-04-07 06:31 @313
Avatar de Usuario
Administrador
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España
Mensajes: 10249
Re: Comparar páginas
jacks escribió:
No sé si servirá, pero buscando en Internet y leyendo un poco que otro algún tutorial he encontrado que con el módulo XML::RSS y algún otro más como el parser se podría hacer algo.
Sí, en CPAN hay de todo.

jacks escribió:
Tengo que leerme un poco más su funcionalidad y métodos en CPAN, pero quería consultarte si es buena opción.
No lo conozco, lo siento. En CPAN hay decenas de miles de módulos. Es imposible conocerlos todos.

jacks escribió:
De todas formas no he dado mucho la programación en HTML pero por lo que me comentó mi compañero lo más seguro es que las páginas que utilizaremos utilicen <h1><h2>... para las cabeceras.
Pues es extraño, entonces, que hayas creado este hilo en el foro de Avanzado... quizás hubiera sido mejor que lo hubieras puesto en el de Básico. Las respuestas que recibirás son muy distintas, unas de otras.

_________________
JF^D Perl programming


Responder al tema  [ 6 mensajes ] 

Reglas del Foro
No puedes abrir nuevos temas en este Foro
No puedes responder a temas en este Foro
No puedes editar tus mensajes en este Foro
No puedes borrar tus mensajes en este Foro
No puedes enviar adjuntos en este Foro

Publicidad

Socializa

Síguenos por Twitter

Suscríbete GRATUITAMENTE al Boletín de Perl en Español

Saltar a:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Traducción al español por Huan Manwë para phpbb-es.com
phpBB SEO