• Publicidad

Opinión sobre crawlers + expresiones regulares

¿Apenas comienzas con Perl? En este foro podrás encontrar y hacer preguntas básicas de Perl con respuestas aptas a tu nivel.

Opinión sobre crawlers + expresiones regulares

Notapor danimera » 2008-04-17 13:31 @605

En una empresa en la que pensaba laborar como programador en PHP me pidieron lo siguiente:

Correct the preg shown in the form so that the news links and titles of main stories on http://www.eltiempo.com are found. To help you a bit, a preg is given that matches any url on the page. However, it's not correct yet, because it matches too much.
Preg:
Código: Seleccionar todo
%"([^\"]*)"%is


Bueno, en sí ellos necesitan extraer la información de las casas (precio, código postal, foto, descripción, etc.) los datos básicos para guiar a nuestros visitantes en su búsqueda de vivienda.

Realmente lo que quiero saber es que opinan los que sepan, de utilizar algún módulo de Perl que maneje esto... Juro que es más fácil utilizar algún módulo de Perl para esto, que desarrollar aplicaciones PHP ^^.

No más es que encuentre el módulo correcto para esto ^^

Que me pueden decir acerca de esto,
100% Telch - Perl Web Programming
Cali PerlMongers: http://cali.pm.org
Avatar de Usuario
danimera
Perlero frecuente
Perlero frecuente
 
Mensajes: 871
Registrado: 2005-06-23 19:02 @834
Ubicación: Colombia

Publicidad

Notapor explorer » 2008-04-17 15:46 @698

A ver... una cosa es decir que se quieren todos los enlaces de la página web y otra cosa es sacar los enlaces de un determinado bloque.

Cuando hablas de "casas", supongo que te refieres a la caja que está en la columna de la derecha, en la que sale una foto de una casa y un precio. ¿No?
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14480
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Notapor danimera » 2008-04-17 16:51 @744

mmm A ver... Lo que quiere la empresa como objetivo es obtener la información de las casas (precio, código postal.. etc...)... Lo que está arriba en inglés fue la prueba que me enviaron que hice para mejorar esa expresión regular... Lo que debe sacar son los titulares de las principales noticias...

Por ahora la idea es general. Se supone que debo ejecutar el script en varias páginas y extraer la información de las casas, pero este va a variar dependiendo la página entonces imagino que debo cambiar de expresión regular, esto es lógico... La idea general es esta: usar expresiones regulares para extraer información de casas en venta de muchas páginas...
100% Telch - Perl Web Programming
Cali PerlMongers: http://cali.pm.org
Avatar de Usuario
danimera
Perlero frecuente
Perlero frecuente
 
Mensajes: 871
Registrado: 2005-06-23 19:02 @834
Ubicación: Colombia

Notapor explorer » 2008-04-17 18:13 @800

Sintáxis: [ Descargar ] [ Ocultar ]
Using perl Syntax Highlighting
#!/usr/bin/perl -l
use WWW::Mechanize;

use warnings;
use strict;

my $inicio = 'http://www.eltiempo.com/';

my $mech = WWW::Mechanize->new( autocheck => 1 );
$mech->get( $inicio );

my @links = $mech->find_all_links( url_regex => qr/ARTICULO/ );

for my $link ( @links ) {
    print $link->text;
}
Coloreado en 0.002 segundos, usando GeSHi 1.0.8.4
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14480
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Notapor danimera » 2008-04-17 21:00 @917

Huy, explorer, qué humillación. Y lo peor es que matándome haciendo eso en PHP... humm, no... yo no estoy para matarme, no trabajaré para esa empresa si no me dejan manejar eso en Perl... Ellos quieren resultados y me exijen PHP...

Gracias. Definitivamente veré si subcontrato a alguien, pero definitivamente ese trabajo lo haré solo en Perl.

¿De dónde descargo ese módulo?
100% Telch - Perl Web Programming
Cali PerlMongers: http://cali.pm.org
Avatar de Usuario
danimera
Perlero frecuente
Perlero frecuente
 
Mensajes: 871
Registrado: 2005-06-23 19:02 @834
Ubicación: Colombia

Notapor explorer » 2008-04-18 03:16 @178

Al menos, le enseñas cómo se hace en Perl :-)

Y el módulo se descarga con
Sintáxis: [ Descargar ] [ Ocultar ]
Using bash Syntax Highlighting
cpan WWW::Mechanize
Coloreado en 0.003 segundos, usando GeSHi 1.0.8.4

como siempre...
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14480
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Notapor danimera » 2008-04-18 13:31 @605

¡Ah! Raro. No lo vi en CPAN. Será que busqué mal, por eso pregunté. Sí, claro, les mandaré la opción de hacerlo en Perl.
100% Telch - Perl Web Programming
Cali PerlMongers: http://cali.pm.org
Avatar de Usuario
danimera
Perlero frecuente
Perlero frecuente
 
Mensajes: 871
Registrado: 2005-06-23 19:02 @834
Ubicación: Colombia

Notapor Jenda » 2008-04-19 18:44 @822

Otros módulos que te pueden ayudar en buscar algo dentro de HTML son HTML::TableExtract, HTML::Parser, HTML::TreeBuilder y HTML::TagParser.
-------------------------------------------------------
- Estoy aquí para practicar español. Si te ayudó mi respuesta ayudame con un mensaje privado sobre mis faltas por favor. Seguramente habrá muchas :-)
Jenda
Perlero nuevo
Perlero nuevo
 
Mensajes: 132
Registrado: 2007-10-29 06:31 @313
Ubicación: Praga, Republica Checa

Notapor danimera » 2008-04-21 09:13 @426

Thanks you Henda
100% Telch - Perl Web Programming
Cali PerlMongers: http://cali.pm.org
Avatar de Usuario
danimera
Perlero frecuente
Perlero frecuente
 
Mensajes: 871
Registrado: 2005-06-23 19:02 @834
Ubicación: Colombia


Volver a Básico

¿Quién está conectado?

Usuarios navegando por este Foro: No hay usuarios registrados visitando el Foro y 3 invitados

cron