Foro - Perl en Español

por **Maku79** » 2018-03-28 10:24 @475

¡¡Hola de nuevo!!

Soy mega nueva en este lenguaje. Hasta hace nada iba con los arrays y ahora ya me estoy lanzando con el "hash". :roll:

Sigo jugando y me invento cosas a ver si puedo conseguirlas pues creo que con este lenguaje se puede hacer de todo, jejeje.

Pero voy poco a poco.

A ver si explico bien lo que pretendo.

Antes de nada comentar que he visto los manuales que me indicó explorer del manual en inglés y en español (http://perldoc.perl.org/perlfaq4.html#H ... r-array%3f) y a pesar de seguirlos, no consigo eliminar los duplicados. Me da que el problema lo tengo en la forma de hacer el bucle, pero tras probar con varios "print" de variables, sigo sin ver dónde está el problema.

Tengo un fichero por bloques:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

11113333444455552222,asdjjdssldl sldksld sldksl

444455556666677778, dfrtrsas lllabbla jjjewe

1234,dgstrs jj.op

4321,uytfg/a

012345678911223344556,fdflstls kktllb qqqqqq dddrrete

98765432199887766554,ñlkjkht sttrvmns c.f.

5643,lloopp ddddddttttt

9087,noseque nosecuantos
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

y así sucesivamente.

Dentro de este fichero inicial ya consigo sacar en otro fichero las primeras líneas de cada bloque, es decir:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

11113333444455552222,asdjjdssldl sldksld sldksl

012345678911223344556,fdflstls kktllb qqqqqq dddrrete
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Bien, pero es que en el fichero inicial, esta primera línea se repite, y quiero que solo la copie en el fichero destino una vez.

Copio el código que he usado (en esta versión lo imprime por pantalla porque me es más sencillo comprobar el resultado).

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/local/bin/perl
use warnings;
use strict;
use autodie;
#use List::MoreUtils qw(uniq);
 
my $end = "End of File!\n\n";
my $filename = 'fichero.txt';
open my $filehandle, '<', $filename or die $!;
open my $filehandle2, '<', $filename or die $!;
 
my @array = <$filehandle>;
my @array2 = <$filehandle2>;
my $i=0;
$array[$i] = $.;
print "\n Número de líneas del fichero $filename: $array[$i]\t";
print $end;
 
for (my $j = 0; $j <= $array[$i]; $j+=5) {
    my @unique = ();
    my %seen;
    foreach my $elem (@array2[$j]) {
        #print $array2[$j];
 
        push @unique, $elem if not $seen{$elem}++;
                foreach (@unique){
                        print;
                }
    }
}
 
close $filehandle;
close $filehandle2;
 
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

El resultado que obtengo es: la primera línea de cada bloque pero me salen los repetidos también.

He probado varias opciones del manual del foro y, o pierdo valores o siguen saliendo los repetidos.

¿Alguna sugerencia? ¡Se agradece cualquier ayuda!

¡Muchas gracias!

#!/usr/local/bin/perl
use v5.10.1;
use strict;
use warnings;
use autodie;
#use List::MoreUtils qw(uniq);
 
my $filename = 'code_40683.txt';
my $end      = "End of File!\n\n";
 
open my $FH, '<', $filename;                    # con autodie no es necesario poner die()
my @lineas  = <$FH>;                            # leemos todo el archivo
chomp @lineas;                                  # quitar retornos de carro
close $FH;                                      # cerrar archivo
 
# para todas las líneas, saltando de 5 en 5
my %vista;                              # recuerdo de las líneas vistas
for (my $i = 0; $i < @lineas; $i += 5) {        # suponemos que todos los bloques tienen 5 líneas
 
    my $linea = $lineas[$i];
 
    if (not $vista{ $linea }) {                 # si es la primera vez que la vemos
        say $linea;                             # la sacamos
    }
    
    $vista{ $linea }++;                         # sumamos una aparición más
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

La técnica consiste en meter la línea dentro del hash, como clave. Y con un valor cualquiera (en este caso, vamos sumando 1 cada vez que se ve la misma línea, pero podría ser un valor constante cualquiera, excepto que se evalúe a falso o nulo).

Las líneas 22 a 26 se pueden reducir a

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

    # sacamos la línea si no  la hemos visto antes
    say $linea         if not $vista{ $linea }++;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

que es lo mismo, pero se lee de otra manera.

El problema que hay en tu código es que en la

línea 12: no necesitas leer dos veces el mismo archivo. Una vez almacenado en @array, ya lo tienes en memoria. Y como no lo vas a modificar, puedes acceder a las líneas las veces que quieras
línea 20: estás declarando la variable @unique dentro del bucle principal, por lo que se pone a "0" por cada línea.
línea 21: lo mismo para $seen. De hecho, sobra una de estas variables (si una línea ya está vista, es que es única).
línea 22: el bucle en realidad solo recorre... un único valor: @array2[$j]. Además, está mal escrito. Debería ser $array2[$j]
En la línea 25 almacenas la línea si no la has visto antes. Esto es correcto, pero solo necesitas esta combinación de hash y array si quieres almacenar las líneas únicas antes de sacarlas en pantalla. Si te vale con sacarlas a medida de que te las encuentras, entonces no lo necesitas
líneas 26 a 28: deberían estar al final del programa, cuando ya tengamos toda la lista de líneas únicas.

Quedaría así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/local/bin/perl
use warnings;
use strict;
use autodie;
 
my $filename = 'code_40683.txt';
 
open my $FH, '<', $filename;
my @array = <$FH>;
close $FH;
 
my @unique;
my %seen;
 
for (my $j = 0; $j <= @array; $j += 5) {
    my $elem = $array[$j];
 
    push @unique, $elem if not $seen{$elem}++;
}
 
print "Número de líneas del archivo $filename: ", scalar(@array), "\n";
 
for (@unique) {
        print;
}
 
print "End of File!\n\n";
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Si no vamos a hacer nada más con las líneas, y solo nos interesa sacarlas por pantalla, nos vale con hacerlo todo a la vez. Quitamos toda referencia a @unique... y nos sale la primera solución.

por **Maku79** » 2018-03-29 03:22 @182

¡Muchas gracias por tus explicaciones, explorer! Igual hago fallos muy de principiante pero voy aprendiendo gracias al prueba y error, el foro y tus explicaciones.

De nuevo, ¡muchas gracias!

Cuando puse los dos arrays (@array y @array2) lo hice porque no tenía manera de que me sacará el primer elemento en la primera iteración, de ahí que me "inventara" hacerlo en dos bucles, abriendo dos veces el mismo fichero y era tan fácil como recorrer correctamente la variable en el bucle... :roll:

Además del "scalar(@array)", me inventé de todo para sacar el número de lineas del fichero :lol:

Lo de poner @unique y %seen dentro del bucle ya fue una prueba (entiendo que sin sentido) pero es que hice tantas pruebas que al final copié aquí el código incorrecto.

Ahora con las modificaciones ya no me salen los elementos duplicados

Aquí mi código:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/local/bin/perl
use v5.14;
use warnings;
use strict;
use autodie;
#use Data::Dumper;
 
my $end = "End of File!\n\n";
my $filename = 'prueba2.txt';
open my $filehandle, '<', $filename;
 
my @array = <$filehandle>;
chomp @array;
close $filehandle;
 
my @unique;
my %seen;                                               #Para recordar las lineas vistas
for (my $j = 0; $j < @array; $j+=5) {                   #Sacamos las lineas de 5 en 5
        my $elem = $array[$j];
        push @unique, $elem if not $seen{$elem}++;      #Guardamos en hash sin repeticiones
}
 
print "\n Numero de lineas del fichero $filename: ", scalar(@array), "\n";
 
for (@unique){
        print;                                          #Mostramos por pantalla el listado
}
 
print $end;
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Ahora viene el probar a volcar el hash a un fichero sin que me saque los pares de valores :roll:

¡Iré probando a ver si lo consigo! ¡A tope!

¡¡Muchas gracias de nuevo, explorer!!

por **explorer** » 2018-03-29 10:13 @467

Un problema que te vas a encontrar con los hashes, es que el almacenamiento de los pares clave/valor se hace de forma desordenada.

Mejor dicho: no es desordenada, sí que sigue un orden preciso, pero no debe ser conocido por el programador ni por nadie más (algoritmos de Hashing, claro).

A nivel práctico: obtendrás el listado de líneas únicas, pero... en un orden cuasi-aleatorio.

Si quieres mantener el orden en que aparecen en el archivo original, entonces sí que necesitas seguir usando un array.

por **Maku79** » 2018-04-03 02:39 @152

¡Hola, explorer!

El orden en que los vuelque en el fichero de salida no es importante, lo importante es que no salgan repetidos y entiendo que si quisiera algún orden se podría ordenar con un sort.

No obstante, no lo consigo, siempre salen o el valor completo de $VAR1 o el valor y en la siguiente línea el número de repeticiones.
He probado a recorrer los elementos con keys y con arrays, no sé qué hago mal

Este es el código que me muestra el valor y el número de repeticiones sin el "$VAR1" ni "=>":

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/local/bin/perl
use v5.14;
use warnings;
use strict;
use autodie;
 
my $end = "End of File!\n\n";
my $filename = 'prueba2.txt';
open my $filehandle, '<', $filename;
open my $SALIDA, '>', 'salida.txt';
my $elem;
 
my @array = <$filehandle>;
chomp @array;
close $filehandle;
 
our @unique;
my %seen;                                               #Para recordar las lineas vistas
for (my $j = 0; $j < @array; $j+=5) {                   #Sacamos las lineas de 5 en 5
        $elem = $array[$j];
        push @unique, $elem if not $seen{$elem}++;      #Guardamos en hash sin repeticiones
}
 
print "\n Numero de lineas del fichero $filename: ", scalar(@array), "\n";
 
print {$SALIDA} join "\n", %seen;                       #Volcamos a fichero los valores no repetidos
close $SALIDA;
print $end;
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Este es el código que me vuelca el contenido completo del hash ($VAR1):

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/local/bin/perl
use v5.14;
use warnings;
use strict;
use autodie;
use Data::Dumper;
 
my $end = "End of File!\n\n";
my $filename = 'prueba2.txt';
open my $filehandle, '<', $filename;
my $elem;
 
my @array = <$filehandle>;
chomp @array;
close $filehandle;
 
my @unique;
our %seen;                                              #Para recordar las lineas vistas
for (my $j = 0; $j < @array; $j+=5) {                   #Sacamos las lineas de 5 en 5
        $elem = $array[$j];
        push @unique, $elem if not $seen{$elem}++;      #Guardamos en hash sin repeticiones
}
 
print "\n Numero de lineas del fichero $filename: ", scalar(@array), "\n";
 
 
open my $ofh, '>', "tmp.txt";
print $ofh Data::Dumper->Dump([ \%seen ]);
close $ofh;
 
undef %seen;
do "./tmp.txt";
 
#print Data::Dumper->Dump([ \%seen ],['*seen']);  #Lo muestra por pantalla
print $end;
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Y este último me vuelca el primer valor por pantalla (es que lo pongo así porque me es más sencillo verlo que ir abriendo y cerrando el fichero de salida cada vez) y luego da error:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/local/bin/perl
use v5.14;
use warnings;
use strict;
use autodie;
 
my $end = "End of File!\n\n";
my $filename = 'prueba2.txt';
open my $filehandle, '<', $filename;
open my $SALIDA, '>', 'salida.txt';
my $elem;
 
my @array = <$filehandle>;
chomp @array;
close $filehandle;
 
my @unique;
our %seen;                                              #Para recordar las lineas vistas
for (my $j = 0; $j < @array; $j+=5) {                   #Sacamos las lineas de 5 en 5
        $elem = $array[$j];
        push @unique, $elem if not $seen{$elem}++;      #Guardamos en hash sin repeticiones
}
 
print "\n Numero de lineas del fichero $filename: ", scalar(@array), "\n";
 
for my $data (keys %seen){
        print $data, "\n";
        for my $valor ( @{ $seen{$data} } ) {
                print "\t$valor\n\n";
        }
}
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Está claro que no muestro correctamente el hash, o hay algo que se me escapa...

He estado mirando varios enlaces como por ejemplo https://perldoc.perl.org/perldsc.html#D ... -OF-ARRAYS pero no consigo lo que quiero ¿Alguna sugerencia?

¡Millones de gracias! Siento tanta pregunta pero es que no sé qué hago mal...

por **explorer** » 2018-04-03 06:59 @333

En mi primer ejemplo sí que salen los valores únicos, además de quedar almacenado en el hash.

Si solo quieres sacar los valores únicos almacenados en el hash %seen, entonces te vale con recorrer las claves, que es donde se han guardado los valores únicos:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

for my $clave (keys %seen) {
    say $SALIDA $clave;
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

No sé si era esto lo que preguntabas...

por **Maku79** » 2018-04-04 02:06 @129

Sí, sí, si lo de los valores únicos sí que me sale desde que me lo has explicado, lo que no consigo es volcar el valor del hash en un fichero.

Cuando me refiero a los elementos repetidos es al número que sale:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

$VAR1 = (

          '11113333444455552222,asdjjdssldl sldksld sldksl' => 2,            ### Me dice que esa línea aparece 2 veces pero solo la muestra 1

          '012345678911223344556,fdflstls kktllb qqqqqq dddrrete' => 1,      ### Me dice que esa linea aparece una vez

        );
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

En mi último ejemplo también uso el for que comentas pero por lo visto me he complicado la vida... ¡no sé cómo lo hago! :roll:

Finalmente ya consigo lo que necesitaba

¡Muchas gracias, explorer! ¡y gracias por tu paciencia!

por **Maku79** » 2018-11-30 06:16 @302

¡¡Hola de nuevo!!

Hace tiempo que no vengo por estos lares pero de momento tenía resueltas casi todas mis dudas con las cosillas que necesito de Perl hasta hoy.

Este mismo código que pongo más arriba que me ha estado funcionando a la perfección, he cambiado el fichero fuente por uno muuuuucho más grande y cuál ha sido mi sorpresa al ver que en el resultado me sacaba valores de cualquier línea, no solo de la línea 2 que es la que me interesa, tal como está en el bucle for:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

for (my $j = 1; $j < @array; $j+=5) {                   # Sacamos las líneas de 5 en 5
        $elem = $array[$j];
        #print $array[$j],"\n";
        push @unique, $elem if not $seen{$elem}++;      # Guardamos en hash sin repeticiones
}
my $contador = 0;
for my $clave (keys %seen) {
    say $SALIDA $clave;
    $contador++;
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

No entiendo el porqué. El fichero origen tiene la misma estructura, bloques de 5 líneas.

He creado un nuevo fichero copiando secciones de forma aleatoria (el fichero entonces queda más pequeño) y sí funciona :?:

¿Existe alguna limitación? ¿Por qué cuando el fichero es más pequeño sí funciona pero es grande, no?

¿Hay algo mal en el código?

¡¡Gracias por adelantado!!

por **explorer** » 2018-12-01 14:19 @638

Si cambia el comportamiento al cambiar de archivo, es posible que lo que esté mal sea nuestra interpretación de que el segundo archivo esté como esperamos que esté, al igual que el primer archivo. O sea, que nuestro programa esté bien, pero no la entrada al programa.

Si hay un fallo en la lectura de líneas desde el segundo archivo, ¿seguro que el formato es correcto? Me refiero a si los caracteres invisibles del final de línea son coherentes con tu sistema operativo.

Analiza el formato del archivo, sobre todo en los alrededores de la línea donde empieza a fallar. Mira con un buen editor de textos o con un editor hexadecimal cuáles son los caracteres que están al final de las líneas.

por **Maku79** » 2018-12-03 08:17 @387

¡Gracias, explorer!

Miraré a ver pero el entorno de trabajo es el mismo, no ha cambiado nada, solo el fichero fuente.

Es un txt y lo edito con el Notepad++.

Voy a intentar cambiar la codificación del fichero a ver si consigo algo.

¡Muchas gracias, no obstante!

Foro - Perl en Español

Eliminar repetidos

Eliminar repetidos

Publicidad

Re: Eliminar repetidos

Re: Eliminar repetidos

Re: Eliminar repetidos

Re: Eliminar repetidos

Re: Eliminar repetidos

Re: Eliminar repetidos

Re: Eliminar repetidos

Re: Eliminar repetidos

Re: Eliminar repetidos

¿Quién está conectado?