Foro - Perl en Español

por **explorer** » 2007-10-06 03:50 @201

Entonces, si partimos de un texto en que las secciones ya tienen divididas a las palabras, solo hay que leer las secciones y procesarlas por separado. Ni siquiera hay que saber el número total de palabras.

Eso al menos he entendido cuando has escrito "tendrán". ¿O te refieres a que tenemos que transformar las 1000 palabras en cinco secciones de igual tamaño? En ese caso, no es necesario leer el texto como secciones separadas por las marcas '<s>'. Bastaría con leer todo el texto palabra a palabra, como tienes en la primera lectura, y luego procesarlas en cinco bloques de igual tamaño.

Quizás si pones un ejemplo quede más claro. Siento ser tan específico, pero no es lo mismo según cómo sea la entrada que nos den y la salida que nos piden.

En cuanto a la parte que no entiendes, olvídala, al menos de momento.

Código: Seleccionar todo: Alonso acaba segundo y se jugará el título en Brasil AGENCIAS. Shanghai · Así vivimos el Gran Premio de China con Alonso ¿Quién dice que los milagros no existen? Kimi Raikkonen y Fernando Alonso acabaron primero y segundo en el Gran Premio de China, penúltima prueba del Mundial de Fórmula 1, lo que sumado al abandono de Lewis Hamilton hará que el título se decida el próximo 21 de octubre en Brasil. El piloto inglés sigue líder, con 107 puntos, por los 103 del español y los 100 del finlandés. Son los únicos pilotos con opciones. La salida de la carrera, como ya sucedió hace una semana en Japón, tuvo al agua como protagonista. Así, los coqueteos con la lluvia surgieron nada más ponerse verdes los semáforos, aunque, eso sí, el pavimiento nunca se puso tan difícil como en tierras niponas. En esas condiciones, Alonso buscó el lado exterior izquierdo de la calzada para rebasar a los Ferrari. Lo logró con Massa a la salida de la primera curva, pero el brasileño le devolvió la moneda poco después.

El texto tiene 178 palabras, las cuales hay que dividir en 5 secciones. (178/5=35.6) Por lo que se deberán formar 4 secciones de 35 palabras y una última sección de 38 palabras (el resto). Un vez tenemos las palabras en cada una de las $secciones, tenemos que buscar en cada sección las diferentes KEYWORDS de la parte __DATA__

Código: Seleccionar todo: Sección 1 (35 palabras) Alonso acaba segundo y se jugará el título en Brasil AGENCIAS. Shanghai · Así vivimos el Gran Premio de China con Alonso ¿Quién dice que los milagros no existen? Kimi Raikkonen y Fernando Alonso acabaron Sección 2 (35 palabras) primero y segundo en el Gran Premio de China, penúltima prueba del Mundial de Fórmula 1, lo que sumado al abandono de Lewis Hamilton hará que el título se decida el próximo 21 de octubre Sección 3 (35 palabras) en Brasil. El piloto inglés sigue líder, con 107 puntos, por los 103 del español y los 100 del finlandés. Son los únicos pilotos con opciones. La salida de la carrera, como ya sucedió hace Sección 4 (35 palabras) una semana en Japón, tuvo al agua como protagonista. Así, los coqueteos con la lluvia surgieron nada más ponerse verdes los semáforos, aunque, eso sí, el pavimiento nunca se puso tan difícil como en tierras Sección 5 (38 palabras) niponas. En esas condiciones, Alonso buscó el lado exterior izquierdo de la calzada para rebasar a los Ferrari. Lo logró con Massa a la salida de la primera curva, pero el brasileño le devolvió la moneda poco después.

Siguiendo con el ejemplo anterior:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

__DATA__

alonso

título
...Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

La salida del programa debería ser:

Código: Seleccionar todo: Alonso - sección 1: 3 ocurrencias Alonso - sección 4: 1 ocurrencia título - sección 1: 1 ocurrencia título - sección 2: 1 ocurrencia

Creo que ahora puede haber quedado más claro, y una vez tenga esa salida, lo almacenaré en una matriz de la siguiente forma:

Acumulando los resultados de varios ficheros en la misma matriz.

Espero que puedas ayudarme en este problema que se me ha planteado.

¡Un saludo y muchísimas gracias por la ayuda prestada!

por **explorer** » 2007-10-07 18:17 @803

A ver si este hilo te puede dar alguna pista más.

por **explorer** » 2007-10-07 22:07 @963

Esta es otra solución: se basa en contar las apariciones de las palabras en cada sección, antes de buscarlas.

Es una forma de contar elementos sin tener que usar expresiones regulares.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

1#!/usr/bin/perl

        2 use strict;# somos estrictos,

        3 use warnings;# precavidos,

        4 use integer;# enteros,

        5 use locale;# y lugareños.
6
7# lectura ###################################################################
8
9# leemos todo el texto

       10 my$fichero=do{local$/=undef;open FICHERO,'<kk.txt';<FICHERO>};
11
12# sacamos las palabras

       13 my@palabras=$fichero=~m/ (\w+) /mogsix;
14#print 'Hay ', scalar @palabras, " palabras en el texto,\n";
15
16# tamaño de las secciones

       17 my$largo_de_seccion=@palabras/5;
18#print "Con $largo_de_seccion palabras por sección.\n";
19
20# vamos guardando las @palabras, en bloques del tamaño del $largo_de_seccion,
21# para las cinco secciones

       22 my@secciones;

       23 for(0..4){
24
25# extraemos la sección

       26     my@seccion_palabras=splice@palabras, 0,$largo_de_seccion;
27
28# contamos las veces que sale cada palabra

       29     my%seccion_palabras;

       30     foreachmy$palabra(@seccion_palabras){$seccion_palabras{$palabra}++}
31
32# la estadística la guardamos en el array de @secciones
33# como un hash en que las palabras son las claves y el valor, las veces que aparece

       34     push@secciones,{%seccion_palabras};
35}
36
37# la última sección debe contener el resto de @palabras por colocar

       38 $secciones[-1]{$_}++foreach@palabras;
39
40# el resultado es de la forma:
41# @secciones = [
42#          {
43#            'existen' => 1,
44#            'segundo' => 1,
45#            'primero' => 1,
46#            'jugará' => 1,
47#            'no' => 1,
48#            'Shanghai' => 1,
49#            'Fernando' => 1,
50#            'y' => 2,
51#            'Alonso' => 3,
52#            ...
53#          },
54#          {
55#            ...
56#
57# No nos importa el orden de las palabras.
58# Solo saber que existen, en qué sección están y cuantas veces aparecen
59
60# ahora, leemos las keywords, quitándoles los finales de línea

       61 chomp(my@keywords=<DATA>);
62
63# estadísticas ###############################################################

       64 foreachmy$keyword(@keywords){

       65

       66     my$ocurrencias;

       67

       68     foreachmy$seccion(0..4){
69
70# si existe en la sección el keyword

       71         if(exists$secciones[$seccion]{$keyword}){
72
73# vamos las veces que aparece

       74             $ocurrencias=$secciones[$seccion]{$keyword};

       75

       76             print"$keyword - sección ",$seccion+1,': ';

       77             print$ocurrencias,' ocurrencia';

       78

       79             if($ocurrencias!= 1 ){print's'}

       80

       81             print"\n";

       82         }

       83     }

       84

       85     print"\n"if$ocurrencias;

       86 }

       87

       88 __DATA__
89 Alonso
90 título
91 PedroColoreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **jorcaes** » 2007-10-08 02:52 @161

Hola Explorer, ahora ya lo tengo muchísimo más claro. Tu ejemplo me ha ayudado muchísimo, es más, ahora tan sólo debo completar tu desarrollo para que se realice sobre un directorio lleno de textos y almacenarlo todo en un fichero Excel.

Revisando tu código tengo una pregunta. ¿Cómo debo leer la sección DATA y las palabras en las secciones para que también considere ocurrencia aunque esté en mayúsculas y minúsculas? Es decir:

Alonso == alonso == ALONSO

Debe ser con lc en la siguiente línea, no?

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

 61 chomp(my@keywords=lc(<DATA>));Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Pero no sé si debo de ajustar alguna otra línea del código...

Otra cosa, he estado modificando el código para almacenar la salida en una matriz en formato Excel y no me funciona. Yo creo que está correcto, pero por más vueltas que le doy, no consigo localizar el error.

Os dejo el trozo de código que empleo para guardar en Excel:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

foreachmy$seccion(0..4){

# si existe en la sección el keyword
if(exists$secciones[$seccion]{$keyword}){

# vemos las veces que aparece
$ocurrencias=$secciones[$seccion]{$keyword};

$sheet->Cells(1,2)->{Value}="Sección 1";
$sheet->Cells(1,3)->{Value}="Sección 2";
$sheet->Cells(1,4)->{Value}="Sección 3";
$sheet->Cells(1,5)->{Value}="Sección 4";
$sheet->Cells(1,6)->{Value}="Sección 5";

if(!$fila{$keyword}){
$fila{$keyword}=$fila;
$sheet->Cells($fila,1)->{Value}="$keyword";
$fila++;
}

$sheet->Cells($fila{$keyword},$columna{$seccion+1})->{Value}+="$ocurrencias";

print"$keyword - sección ",$seccion+1,': ';
print$ocurrencias,' ocurrencia';

if($ocurrencias!= 1 ){print's'}

print"\n";
}
}Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Y en éste enlace podeis ver TODO el código, no lo pongo aquí porque sino se queda muy largo del post.

http://rafb.net/p/3WnX5F82.html

Saludos y muchas gracias!

por **explorer** » 2007-10-08 06:02 @293

Sí, una buena medida es pasar todas las palabras a minúsculas o mayúsculas. Pero no te vale lo que has escrito con la función lc(). Tendrás que hacer un bucle por cada keyword o usar un map() (no probado):

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

chomp(my@keywords=map{lc}<DATA>);Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Y también habrá que hacerlo en el array de las palabras leídas desde el $fichero. Notar que tampoco se hace un control de los posibles espacios en blanco en los keywords, pero supongamos que los hemos escrito bien, sin ellos.

En cuanto a la parte de Excel, como has comentado la línea del strict y del warning, perl no ha podido avisarte de que no tienes definido ni declarado el hash %fila por ningún lado.

por **jorcaes** » 2007-10-08 11:50 @535

Hola de nuevo, pues he realizado las siguientes modificaciones:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

...

my@palabras=$fichero=~/(\b[^\W_\d][\w'-]+\b)/g;

...

chomp(my@keywords=map{lc}<DATA>);

...
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Y tras algunas pruebas NO está del todo correcto, ya que no me considera iguales las palabras en minúsculas y la primera en mayúscula, es decir, esto lo NO lo considera igual Alonso != alonso, y yo quiero que lo interprete como igual.

Por otra parte ya he conseguido redirigir la salida hacia una matriz excel correctamente y más o menos lo realiza correctamente para el primero de los ficheros contenidos en un idrectorio, pero no realiza ninguna acción para el resto de textos y está todo incluido en el bucle principal...

Pego TODO el código en el siguiente enlace...

http://rafb.net/p/XiUegv18.html

Muchísmas gracias por la ayuda, esto parece un foro Online casi, las respuestas son instantáneas.

por **explorer** » 2007-10-08 12:19 @554

Te falta por pasar a minúsculas también las palabras que lees del $fichero. Te lo he dicho antes.

Al principio del programa, donde declaras las variables, agrega: my %fila;.

Solo se procesa un fichero porque el <DATA> se agota. Debes sacar la línea que lee del __DATA__ y llevarla fuera del bucle, antes de que empiece.

No he mirado mucho la forma de escribir a la hoja de cálculo, pero creo que se puede simplificar bastante, teniendo en cuenta que estamos haciendo un doble bucle por keywords y secciones.

por **jorcaes** » 2007-10-10 10:30 @479

Correcto Explorer, tienes toda la razón del mundo. Se me había pasado. Por otra parte he modificado la forma de escribir en el Excel y la he simplificado un poco y ahora funciona perfecto, es más, ya lo tengo finalizado.

¡¡¡Muchísimas gracias por la ayuda ofrecida!!!

por **rednet** » 2007-11-15 09:36 @441

Hola, ¿sería posible ver el código entero ya que, el link http://rafb.net/p/XiUegv18.html no se encuentra activo y tengo que realizar algo similar y me serviría mucho? Desde ya, muchas gracias.

Foro - Perl en Español

Búsqueda especial

Publicidad

¿Quién está conectado?