Foro - Perl en Español

por **dzavallo** » 2014-09-04 13:07 @588

Hola. Una pregunta sencilla: Quiero eliminar duplicados de un archivo, que es un problema muy común, pero en este caso lo que quiero es no solo que me elimine el duplicado sino que cuando existan, me los elimine a los dos. ¿Se entiende?

Si tengo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>1-12312

>2-12222

>3-213

>4-123

>4-123Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

que en la salida me elimine los dos 4, no solo uno y quede únicamente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>1-12312

>2-12222

>3-213Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Perdón, seguramente es muy sencillo pero le sigo dando vueltas y no logro hacerlo.

¡Gracias de antemano!

#!/usr/bin/perl
use v5.14;
use autodie;
use File::Slurp;
 
my @archivo = read_file('code_37612.txt');
 
my @nuevo_archivo;
 
my %ya_vista;
 
for my $linea (@archivo) {                              # para todas las líneas
 
    if ($ya_vista{$linea}++) {                          # vemos si ya hemos visto esa $linea
 
        if ($ya_vista{$linea} == 2) {                   # si es la segunda vez que la vemos
            @nuevo_archivo
                = grep { ! /^$linea$/ } @nuevo_archivo; # extraemos la primera ocurrencia
        }
    }
    else {
        push @nuevo_archivo, $linea;                    # si no la hemos visto, la agregamos
    }
}
 
print @nuevo_archivo;
Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

La idea es que si la $linea no la hemos visto todavía, la agregamos a la salida, en el array @nuevo_archivo. Si sí la hemos visto, no la agregamos. Si es la segunda vez que la vemos, quitamos la primera ocurrencia.

Esta solución es clara, pero quizás podría no ser eficiente, por el tema del grep{}. Lo ideal es que supiéramos qué línea debemos quitar.

por **explorer** » 2014-09-04 17:52 @786

Esta otra solución hace eso: solo busca las posiciones repetidas para luego quitar las líneas correspondientes, pero a la hora de quitar un elemento de un array hay que darse cuenta de que cambian los índices de las líneas que siguen, así que por esa razón lo mejor es ir quitando las líneas de atrás hacia adelante.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use autodie;
 
open my $ARCHIVO, '<', 'code_37612.txt';
my @archivo = <$ARCHIVO>;
close $ARCHIVO;
 
my %posiciones_de_la_linea;
while (my($i, $linea) = each @archivo) {                        # recorremos todas las líneas
 
    push @{$posiciones_de_la_linea{$linea}}, $i;                # guardamos la posición
}
 
my @posiciones_repetidas;                                       # guardamos las posiciones de las líneas repetidas
my %vista;                                                      # control de líneas vistas
for my $linea (@archivo) {                                      # recorremos todas las líneas
 
    next if $vista{$linea}++;                                   # saltamos si la línea ya está vista
    
    my @lineas_donde_aparece = @{ $posiciones_de_la_linea{$linea} };
 
    if (@lineas_donde_aparece > 1) {                            # si esa línea se repite
    
        push @posiciones_repetidas, @lineas_donde_aparece;      # guardamos todas sus posiciones
    }
}
 
@posiciones_repetidas = sort { $b <=> $a } @posiciones_repetidas;       # las ordenamos de mayor a menor
 
for my $pos (@posiciones_repetidas) {                           # para todas las posiciones
 
    splice @archivo, $pos, 1;                                   # quitamos la línea
}
 
print @archivo;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2014-09-05 04:20 @222

Creo que esta es la mejor solución que puedo encontrar: combina las dos anteriores.

Va recordando las posiciones de cada línea y las propias líneas. Si una línea ya ha sido vista, comprueba si es la segunda vez, y en ese caso, quita (delete()) la primera aparición.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use autodie;
 
open my $ARCHIVO, '<', 'code_37612.txt';
my @archivo = <$ARCHIVO>;
close $ARCHIVO;
 
my %primeras_posiciones;                                        # posición donde aparece por primera vez
my %vista;                                                      # control de líneas vistas
 
while (my($i, $linea) = each @archivo) {                        # recorremos todas las líneas
 
    if ($vista{$linea}++) {
 
        if ($vista{$linea} == 2) {                              # si es la segunda vez,
 
            delete $primeras_posiciones{$linea};                # quitamos la primera ocurrencia
        }
    }
    else {
        $primeras_posiciones{$linea} = $i;                      # guardamos la posición
    }
}
 
# para todas las posiciones, ordenadas de menor a mayor, pintamos las líneas
print @archivo[ sort {$a <=> $b} values %primeras_posiciones ];
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2014-09-05 14:36 @650

Pues he encontrado una solución más, y más corta:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use utf8;
use autodie;
 
open my $ARCHIVO, '<', 'code_37612.txt';
 
my %líneas;                                                    # líneas vistas
 
while (my $línea = <$ARCHIVO>) {
    my $contador = 1 + $líneas{$línea}->[0];                  # contamos las veces que aparece, más una
    $líneas{$línea} = [ $contador, $. ];                      # guardamos [ número de veces que aparece, posición ]
}
 
close $ARCHIVO;
 
# salida de las líneas ordenadas por la posición, pero solo si el número de veces que se repite es menor que 2.
for my $línea (sort {$líneas{$a}[1] <=> $líneas{$b}[1]} keys %líneas) {
    print $línea if $líneas{$línea}[0] < 2;
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Esta solución ya es tan buena, que incluso se puede convertir en un programa Perl de una línea. Un poco ofuscado, pero funciona :lol:

Sintáxis: [ Descargar ] [ Ocultar ]

Using bash Syntax Highlighting

$ perl -nE '$l{$_}=[1+$l{$_}[0],$.];END{print for grep{$l{$_}[0]<2}sort{$l{$a}[1]<=>$l{$b}[1]}keys%l}' code_37612.txt
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **dzavallo** » 2014-09-12 08:32 @397

¡Amigo! Gracias por las variadas respuestas. Voy a probarlas todas y veo la velocidad que tienen.
Muchas gracias, nuevamente.

Foro - Perl en Español

Eliminar duplicados (pero sin dejar ninguno de los dos)

Eliminar duplicados (pero sin dejar ninguno de los dos)

Publicidad

Re: Eliminar duplicados (pero sin dejar ninguno de los dos)

Re: Eliminar duplicados (pero sin dejar ninguno de los dos)

Re: Eliminar duplicados (pero sin dejar ninguno de los dos)

Re: Eliminar duplicados (pero sin dejar ninguno de los dos)

Re: Eliminar duplicados (pero sin dejar ninguno de los dos)

¿Quién está conectado?