Foro - Perl en Español

por **Fernando** » 2011-05-18 07:25 @350

¿Qué tal, gente? Esta vez los molesto para que me den un consejo.

Tengo el siguiente problema: a partir de un dominio/URL que me pasan (por web service, por parámetro de un script, etc, no importa) debo decir a qué categoría pertenece dicho dominio/URL.

Para esto cuento con varios archivos dispuestos en directorios (nombre de categorías) de la siguiente manera:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

[...]

foros/dominios

foros/urls

hacking/dominios

hacking/urls

[...]Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

El archivo "foros/dominios", por ejemplo, cuenta con la siguiente información:

Sintáxis: [ Descargar ] [ Ocultar ]

[...]
blog.cnexp.net
blog.codigophp.com
blog.columbiarecords.com
blog.com
blog.com.pt
blog.concept-i.dk
blog.converter.cz
blog.craftzine.com
blog.csdn.net
blog.cuatro.com
blog.cynx.de
blog.czhannes.com
blog.damonledet.com
[...]

Entonces por ejemplo, si el dominio/URL se encuentra dentro de alguno de los archivos (dominio, URL) del directorio "foros", la categoría sería "foros". Y así.

En total estamos hablando de unas 20-30 categorías, cada una con sus archivos correspondientes, que suman unas 3 millones de líneas, aprox.

Mi consulta es la siguiente: ¿este tipo de búsquedas (estamos hablando, en cantidad, de unas 100 por minuto tal vez) conviene hacerlas a partir de archivos, o me conviene pasar todo a una base de datos MySQL y buscar desde allí?

¡¡Desde ya muchas gracias!!
Saludos./

Fernando.-

Si cada URL corresponde a una sola categoría, se pueden meter los 3 millones de URL en un solo hash, cuyas claves sean las URL, y el valor, la categoría (que es lo que queremos obtener, claro).

Otra cosa es cuándo leerlas y cuántas consultas tenemos que resolver.

Si son muchas consultas, pero espaciadas en el tiempo (dices que vienen desde un servicio web), entonces lo más efectivo sería dejar el proceso en segundo plano, o persistente, algo así como PPerl, SpeedCGI o FastCGI, para que el programa no tenga que leer los 3 millones de líneas en cada invocación (bueno, tampoco es tanta información, todo depende de las prestaciones que quieras obtener).

por **Fernando** » 2011-05-18 10:50 @493

Hola explorer.

Sí, son varias consultas por segundo, y cada URL pertenece a UNA categoría solamente.

Y en cuanto al uso de hashes, ¿lo que vos me sugerís es un hash de arrays? Es decir, algo como esto en salida:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$dominios = {
          'foros' => [
                      'url1',
                      'url2',
                      'url3'
                    ],
          'hacking' => [
                      'url1',
                      'url2',
                      'url3'
                        ],
          '[...]' => [
                         '[...]'
                     ]
        };
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

¿Cómo realizaría luego la búsqueda ahí dentro?

¡Muchas gracias! ¡Saludos!

por **panterozo** » 2011-05-18 11:17 @512

Hola Fernando:

Yo plantearía distinto el hash, y creo que es lo que te decía explorer...

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my %dominios;
$dominios{'foros'} = [
               'url1',
               'url2',
               'url3'
              ];
$dominios{'hacking'} = [
               'url1',
               'url2',
               'url3'
              ];
$dominios{'[...]'} = [
               'url1',
               'url2',
               'url3'
              ];
 
 
foreach my $k (sort keys %dominios){
        print $k;
        foreach my $url (@{$dominios{$k}}){
                print "\n--> ".$url;
                }
        print "\n";
        }
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

¡¡¡Saludos!!!

por **ileiva** » 2011-05-18 11:55 @538

Si cada URL pertenece sólo a una categoría y quieres privilegiar el tiempo de respuesta entonces es más eficiente almacenar cada URL como clave en el hash y su valor sería la categoría a la que pertenece. Creo que eso es lo que quiso decir explorer.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my %URLS = {
        'url1' => 'categoriadeurl1',
        'url2' => 'categoriadeurl2'
};
 
print "La categoria de url1 es ".$URLS{'url1'}."\n";
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Saludos.

por **explorer** » 2011-05-18 11:55 @538

No, yo solo hablaba de un hash:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my%categorias=(
'blog.cnexp.net'=>'foros/dominios',
'blog.codigophp.com'=>'foros/dominios',
'blog.columbiarecords.com'=>'foros/dominios',
'blog.com'=>'foros/dominios',
'blog.com.pt'=>'foros/dominios',
'blog.concept-i.dk'=>'foros/dominios',
);

print$categoria{'blog.com'},"\n";Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

El verdadero problema es aumentar la eficiencia del programa, por cada petición.

Una forma de resolverlo sería incluir esta información en el propio programa, bien de forma directa como he puesto yo en las líneas anteriores, o en la sección __DATA__. Naturalmente esto es válido si las 3 millones de líneas no cambian frecuentemente.

por **Fernando** » 2011-05-19 07:18 @346

Hola gente, ¡muchas gracias por las respuestas!

Este script lo voy a armar como servicio web, y va a recibir varias consultas por segundo. Como prueba hice lo siguiente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl -w
use IO::File;
use strict;
use warnings;
 
my %hash_table;
 
open(CHAT, "<bl/dominios")
  or die "Error abriendo el archivo: $!";
while (<CHAT>) {
  chomp;
  $hash_table{$_} = 'chat';
}
close CHAT;
 
open(FORO, "<bl/foro")
  or die "Couldn't open file for processing: $!";
while (<FORO>) {
  chomp;
  $hash_table{$_} = 'foros';
}
close FORO;
 
print "chat.com pertenece a la categoria: " .$hash_table{'chat.com'}, "\n";
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Parece funcionar bien con 780.000 registros. ¿Algo así más o menos me aconsejaban?

Voy a dejar el servicio web corriendo de fondo, como bien dijo explorer, utilizando pperl, por ejemplo. Ahora bien, si tengo que agregar dominios nuevos al hash (una vez por semana o una vez cada 15 días):
¿tengo que reiniciar el servicio web y recargar todos los dominios? ¿o existe alguna forma de hacerlo en tiempo de ejecución?

¡Muchas gracias a todos!

por **explorer** » 2011-05-19 09:18 @429

Se me ocurre dividir el problema en partes...

Primero, un programa que vigile los cambios en los directorios donde están los ficheros. Se puede usar un cron, por ejemplo, que mire a ver si hay cambios. O usar el propio sistema operativo para que te informe de que hay un cambio en el árbol de ficheros (en Windows y Linux se puede hacer sin muchos problemas).

Desde Perl, se puede realizar con módulos como Filesys::Notify::Simple (para Linux y MacOS X) y Win32::FileNotify (para Windows).

Entonces, este programa queda esperando por los cambios. En caso de que ocurran, se lee todos los ficheros de todos los directorios y crea un nuevo fichero con todos ellos reunidos, con solo dos columnas (dominio/URL y categoría).

Segundo, el programa que hace de servidor, al arrancar, lee el fichero y lo pasa a un hash, y se queda en un bucle esperando por las peticiones externas (si dices que tiene que ser un servicio web, se podría hacer con algún módulo tipo HTTP::Server, y con fork() para responder a varios al mismo tiempo, etc). Antes de servir una petición, puede mirar a ver si el fichero ha cambiado (con el operador -M, por ejemplo). Si ha cambiado, reinicia el proceso de carga del fichero. Y luego sirve la petición.

Bueno, esto es una idea, pero seguro que hay formas mejores.

Con pperl, hay un problema: está sin actualizar desde el 2004, por lo que ya no es compatible con los Perl modernos.

Lo recomendado, entonces, es usar FCGI (Fast CGI). Con el módulo CGI::Fast se puede crear, fácilmente, un proceso CGI que queda persistente y puede responder a la petición web, de forma rápida.

Foro - Perl en Español

Performance Perl vs MySQL en búsquedas

Performance Perl vs MySQL en búsquedas

Publicidad

Re: Performance Perl vs MySQL en búsquedas

Re: Performance Perl vs MySQL en búsquedas

Re: Performance Perl vs MySQL en búsquedas

Re: Performance Perl vs MySQL en búsquedas

Re: Performance Perl vs MySQL en búsquedas

Re: Performance Perl vs MySQL en búsquedas

Re: Performance Perl vs MySQL en búsquedas

Re: Performance Perl vs MySQL en búsquedas

Re: Performance Perl vs MySQL en búsquedas

¿Quién está conectado?