Foro - Perl en Español

por **crawler** » 2011-08-15 06:31 @313

Hola a todos, soy nuevo en el foro y necesito un poco de ayuda.

Estoy tratando de realizar un programa que sepa reconocer las poblaciones de Cataluña en un texto cualquiera.

Tengo guardado como claves de un hash los nombre de las poblaciones y como valor un índice (1..947), para el tratamiento de poblaciones formadas por una sola palabra (ej. Reus, Girona, Sabadell), divido el texto por espacios y compruebo si existe en el hash.

Pero el problema lo tengo para reconocer las poblaciones formadas con más de una palabra, como por ejemplo: La Bisbal d'Empordà, El Vendrell etc...

Disculpad sino me he explicado muy bien y agradeceré cualquier ayuda o sugerencia.

Nos comentas que estás dividiendo el texto por los espacios, así que sospecho que estás usando el primer método, el del 'eq'. El problema está en que hay poblaciones con más de una palabra.

Lo podrías resolver complicando un poco más la estructura de datos, buscando por todas las palabras que componen cada población, ampliando el hash, y por cada población, además, saber cuántas palabras lo forman. Pero es que además, deberías llevar el control de si las palabras encontradas están juntas y en el orden adecuado. Desde luego, sería muy complicado, pero con esta solución podrías localizar poblaciones que están escritas "al revés", como por ejemplo, Bisbal d'Empordà, La (solo cambia una palabra de sitio, para dar más importancia a Bisbal).

Otra solución. Con index() puedes buscar si un texto está dentro de otro, y te devuelve la posición (empezando en 0) en donde se encuentre.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#! /usr/bin/perl
use common::sense;              # Hay que tener sentido común
#use Modern::Perl;              # Somos modernos
#use autodie;                   # es mejor morir que regresar con deshonor (proverbio Klingon)
#use utf8;                      # este programa está escrito en utf8
use open qw(:utf8 :std);        # la salida y la entrada estándar serán en utf8
 
my $texto = "
Reus es una población de Cataluña, de Reus
La Bisbal d'Empordà jhf sdkjfh sakdlfh sdkfh skhf sdkf dkjfh
sdlkjfh sdlkjfh slkjfh sdklfjh sklfjh sdklfjh sdkjfh sdkfh
ksdf kdjfh sdkfh sf El Vendrell fjdh fskdjfh skdjfh ksdjfh
Gironaslkfj lkjf lskjf lsdkjf sdljf La Bisbal d'Empordà
sldfj ljflsdkjf ";
 
my @poblaciones = (
    'Reus', 'Girona', 'Sabadell',
    "La Bisbal d'Empordà", 'El Vendrell',
);
 
for my $población (@poblaciones) {
    my $pos = 0;
    while($pos = index($texto, $población, $pos) + 1 ) {
        print "Población $población encontrada en posición $pos\n";
    }
}
__END__
Población Reus encontrada en posición 2
Población Reus encontrada en posición 40
Población Girona encontrada en posición 224
Población La Bisbal d'Empordà encontrada en posición 45
Población La Bisbal d'Empordà encontrada en posición 260
Población El Vendrell encontrada en posición 185
 
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Funciona, pero siempre y cuando las poblaciones estén escritas de la misma manera en que las tienes definidas en el array.

Pero no es perfecto. Fíjate que ha encontrado 'Girona', pero está "pegada" a la palabra que le sigue: index() no sabe distinguir entre palabras y espacios. Solo busca cadenas de caracteres. Y en algunos casos no nos servirá.

Otra solución, usando expresiones regulares.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#! /usr/bin/perl
use common::sense;              # Hay que tener sentido común
#use Modern::Perl;              # Somos modernos
#use autodie;                   # es mejor morir que regresar con deshonor (proverbio Klingon)
#use utf8;                      # este programa está escrito en utf8
use open qw(:utf8 :std);        # la salida y la entrada estándar serán en utf8
 
my $texto = "
Reus es una población de Cataluña, de Reus
La Bisbal d'Empordà jhf sdkjfh sakdlfh sdkfh skhf sdkf dkjfh
sdlkjfh sdlkjfh slkjfh sdklfjh sklfjh sdklfjh sdkjfh sdkfh
ksdf kdjfh sdkfh sf El Vendrell fjdh fskdjfh skdjfh ksdjfh
Gironaslkfj lkjf lskjf lsdkjf sdljf La Bisbal d'Empordà
sldfj ljflsdkjf sabadell df slkjf slfj El vendrell
LA BISBAL D'EMPORDÀ Y REUS";
 
my @poblaciones = (
    'Reus', 'Girona', 'Sabadell',
    "La Bisbal d'Empordà", 'El Vendrell',
);
 
for my $población (@poblaciones) {
 
    while ($texto =~ /\b$población\b/gsmi) {
 
        print "Población $población encontrada en posición ", pos($texto), "\n";
    }
}
 
__END__
Población Reus encontrada en posición 5
Población Reus encontrada en posición 43
Población Reus encontrada en posición 356
Población Sabadell encontrada en posición 303
Población La Bisbal d'Empordà encontrada en posición 63
Población La Bisbal d'Empordà encontrada en posición 278
Población La Bisbal d'Empordà encontrada en posición 349
Población El Vendrell encontrada en posición 195
Población El Vendrell encontrada en posición 329
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Fíjate, que además de encontrar todas las posiciones anteriores, podemos:

saber cuándo es una palabra separada de las demás (Girona ya no se encuentra, porque en el texto aparece como Gironaslkfj)
no importa si está escrito en mayúsculas o no (última línea del $texto) o mezclado (el caso de "El vendrell")

Yo te recomiendo que mires esta opción de usar expresiones regulares (aparte que es muy sencilla: solo buscamos por $población, separada del texto del $texto por \b, que marca los límites de una palabra. Y la buscamos independientemente de si está en mayúsculas o no (/i).

Atento a la codificación de caracteres que estés usando... eso también influye.

por **crawler** » 2011-08-15 10:37 @484

Muchas gracias explorer por tu rapidez y tu solución, te explico que antes he sido muy directo.

Estoy realizando una araña que ya es capaz de extraer de los canales culturales de sindicalizacion, el texto del titular, un texto que yo le llamo "información" ( normalmente informa de la fecha, hora y lugar publicados por el autor) y el texto puramente de la noticia.

Bien a partir de estos campos necesito comprobar si alguno de estos contiene la población para más tarde geolocalizar el evento.

Normalmente en la mayoría de noticias, el texto "información" facilita el nombre de la población,

Para realizar la búsqueda, separo el texto del campo "información" por espacios y compruebo si existe como llave del hash que contiene las poblaciones, este criterio solo sirve para encontrar las poblaciones de un palabra y computacionalmente hablando es eficiente.

ej:
@palabras_informacion = split(/\s+/, $text_informacion);

foreach my $i (@palabras_informacion)
{
if( exists ( $municipios{$i}) )
{
$ubicacion = $i;
print "Trobat per clau -> text_info: $ubicacion\n";
last;
}
}

El último criterio es buscar dentro del texto de la noticia.

Como bien dices, con expresiones regulares puedo casi reconocer en el texto si hay una población pero realmente es complejo ya que existen demasiadas ambigüedades y ocurrencias.

De todas formas te agradezco muchísimo tus consejos y tu tiempo, creo que seguiré por el camino de las expresiones regulares.

por **pvaldes** » 2011-08-17 18:44 @822

Yo no separaría el texto en palabras, de hecho igual haría justo lo contrario.

Me explico:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

"Caminando por El Vendrell, siguiendo la carretera encontramos el pueblo del Ven-

drell"Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Hay dos problemas aquí.

Pero si quitamos todos los espacios en blanco, los saltos de carro y los guiones y encima pasamos todo a minúsculas.

"caminandoporelvendrell,siguiendolacarreteraencontramoselpueblodelvendrell"

Aparecen ambas citas,

Es una postura extrema desde luego, simplemente para poner de manifiesto que tienes que considerar la posibilidad de que se inserte un guión traicionero y un salto de línea.

Foro - Perl en Español

Cómo detectar poblaciones en un texto

Cómo detectar poblaciones en un texto

Publicidad

Re: Cómo detectar poblaciones en un texto

Re: Cómo detectar poblaciones en un texto

Re: Cómo detectar poblaciones en un texto

¿Quién está conectado?