Foro - Perl en Español

por **bvayap** » 2015-09-30 11:56 @539

Buenas tardes.

Tengo que comparar un par de archivos de texto con la siguiente estructura:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Sexo;Estado;DNI;Nombre;Edad;Alias;Altura;Direccion;Hijos;Observaciones

Hombre;Soltero;11111111;Jose Aja Aja;50;pepe;2.00;calle 1;;Rubio

Mujer;Casada;22222222;Ana Aja Aje;65;anita;1.80;calle 3;2;Rubia

Mujer;Divorciada;33333333;Laura Asi Asa;38;laurita;1.70;calle 4;1;Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

En el archivo nuevo puede haber cambiado la edad o dirección de algún registro, por lo que en el resultado debo guardar tanto la línea del archivo viejo como la del nuevo. Si no ha cambiado nada, no guardo nada en el resultado.

La estrategia que he seguido es la siguiente:

leo el archivo viejo y lo meto en un hash
abro el archivo nuevo y, para cada línea, veo si existe la clave en el hash anterior
1. Si existe la clave, no guardo nada
2. Si no existe, guardo la línea en un archivo intermedio llamado "Diferencias.txt"
una vez tengo el archivo de diferencias completado, lo vuelvo a abrir y, para cada línea, leo un valor que no se repite, que es el "alias"
abro el archivo viejo, busco la línea que contiene ese alias y la guardo en el resultado final "Comparado.txt" con el indicador "Archivo viejo" al inicio de la línea
abro el archivo nuevo, busco la línea que contiene ese alias y la guardo en el resultado final "Comparado.txt" con el indicador "Archivo nuevo" al inicio de la línea.

De esta forma, en el archivo final "Comparado.txt" he guardado un registro del valor que tenía la línea en el archivo viejo y del que tiene ahora en el archivo nuevo.

El problema es que los archivos que estoy comparando tienen sobre 2000 líneas y he visto que hay "alias" que, a pesar de estar en el archivo intermedio "Diferencias.txt" han desaparecido en el archivo de resultados. Y algún "alias" que, a pesar de existir una sola vez en el archivo "Diferencias.txt", aparece duplicado en el resultado.

Como no tengo mucha experiencia con Perl, seguro que he metido la pata en algo. ¿Alguna sugerencia? Os dejo aquí el código empleado, por si a alguien le puede servir. Gracias de antemano.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;                                    # estilo estricto
use warnings;                                  # activar advertencias
use diagnostics;                               # diagnósticos de fallos
use autodie;                                   # «Es mejor morir que regresar con deshonor» --proverbio Klingon
 
system("cls");
print "Buscamos diferencias entre dos ficheros txt.\n";
print "Fichero Antiguo(sin extension): ";
my $f1 = <>;
chomp($f1);
print "Fichero Nuevo(sin extension): ";
my $f2 = <>;
chomp($f2);
my $ruta1 = "C:\\Documents and Settings\\Admin\\My Documents\\Perl\\Pruebas\\$f1\\";
my $ruta2 = "C:\\Documents and Settings\\Admin\\My Documents\\Perl\\Pruebas\\$f2\\";
 
open my $afile, '<', $ruta1 . $f1 . "_limpio.txt"
    or die "Couldn't open $f1.txt: $!";
 
my %a_lineas;
 
while ( my $linea1 = <$afile> ) {
    chomp $linea1;
    $a_lineas{$linea1} = 1;
}
 
open my $SALIDA1, '>', $ruta2 . "Diferencias_" . $f1 . "_" . $f2 . ".txt";    # Escritura del archivo intermedio
open my $bfile,   '<', $ruta2 . $f2 . "_limpio.txt"
    or die "Couldn't open $f2.txt: $!";
 
while ( my $linea2 = <$bfile> ) {
    chomp $linea2;
    if ( exists $a_lineas{$linea2} ) {
        next;
    }
    else {
        print $SALIDA1 $linea2 . "\n";
    }
}
close $SALIDA1;
close $afile;
close $bfile;
 
open my $diffile, '<', $ruta2 . "Diferencias_" . $f1 . "_" . $f2 . ".txt";
open my $SALIDA2, '>', $ruta2 . "Comparado_"   . $f1 . "_" . $f2 . ".txt";
 
while ( my $linea3 = <$diffile> ) {
    chomp $linea3;
    my (@campos) = split ";", $linea3, 8;
    my $alias = $campos[5];
 
    open my $cfile, '<', $ruta1 . $f1 . "_limpio.txt"
        or die "Couldn't open $f1.txt: $!";
    while ( my $linea4 = <$cfile> ) {
        chomp $linea4;
        if ( $linea4 =~ /$alias/ ) {
            print $SALIDA2 "Fichero viejo;" . $linea4 . "\n";    # Escritura del fichero Resultados.
            last;
        }
    }
    close $cfile;
 
    open my $dfile, '<', $ruta2 . $f2 . "_limpio.txt"
        or die "Couldn't open $f2.txt: $!";
    while ( my $linea5 = <$dfile> ) {
        chomp $linea5;
        if ( $linea5 =~ /$alias/ ) {
            print $SALIDA2 "Fichero nuevo;" . $linea5 . "\n";    # Escritura del fichero Resultados.
            last;
        }
    }
    close $dfile;
}
close $diffile;
close $SALIDA2;
 
Coloreado en 0.005 segundos,  usando GeSHi 1.0.8.4

Si entendí bien, ambos ficheros tienen los mismos registros o tuplas, solo que en el segundo fichero el campo 'Dirección' o el campo 'Edad' de algunas de esas tuplas, fueron modificados. Si es así, tu algoritmo es correcto, aunque ineficiente. Si las tuplas están en el mismo orden en ambos ficheros, comparas línea a línea y si estuvieran en orden distinto (teniendo en cuenta que el alias es el identificador), podrías guardar dos hashes: %hash1 y %hash2 en los que la clave sea el alias (ya que es único) y el valor sea la línea correspondiente a ese alias. Luego recorres la lista de aliases y comparas los campos 'Dirección' y 'Edad' de $hash1{$alias} con los de $hash2{$alias} y si son distintos, imprimes.

En cuanto a tu código, probablemente el error esté en cómo determinas que el registro $linea corresponde al alias $alias. Lo haces mediante

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$linea =~ /$alias/
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Imagínate que $alias es "Lau" y una de las líneas es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Mujer;Casada;22222222;Ana Laura Almeida;33;anne;1.65;calle 3;2;RubiaColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Esa línea no se corresponde con una persona de alias 'Lau' (sino que su alias es 'anne') y sin embargo es matcheada por /Lau/. La regexp tendría que ser algo más sofisticada, por ejemplo,

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$linea =~ /^ (?: .* ? ; ){5} $alias ;/x
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

bvayap escribiste:

Sintáxis: [ Descargar ] [ Ocultar ]
Sintáxis: [ Descargar ] [ Mostrar ]
Using perl Syntax Highlighting

my %a_lineas;

while ( my $linea1 = <$afile> ) {

chomp $linea1;

$a_lineas{$linea1} = 1;

}

Coloreado en 0.001 segundos, usando GeSHi 1.0.8.4

Yo escribiría eso mismo de esta manera:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my %a_lineas = map {  chomp; $_=>1  } <$afile>
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2015-10-01 13:32 @606

En efecto, si guardas la información en hashes, no necesitas grabar y volver a leer el archivo de diferencias. Y el proceso será más rápido.

Te basta con hacer un split() usando el delimitador ';', y luego guardar la línea indexada por el alias (que se supone que es el valor que no se repite).

Lo que queda es recorrer las líneas del otro archivo y compararla con los valores almacenados. Si son líneas distintas, entonces es que hay algún cambio.

Al menos, eso entiendo que hay que hacer.

Por ejemplo, si tenemos estos dos archivos:

Sintáxis: (archivo_viejo.txt) [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Sexo;Estado;DNI;Nombre;Edad;Alias;Altura;Direccion;Hijos;Observaciones

Hombre;Soltero;11111111;Jose Aja Aja;50;pepe;2.00;calle 1;;Rubio

Mujer;Casada;22222222;Ana Aja Aje;65;anita;1.80;calle 3;2;Rubia

Mujer;Divorciada;33333333;Laura Asi Asa;38;laurita;1.70;calle 4;1;Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Sintáxis: (archivo_nuevo.txt) [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Sexo;Estado;DNI;Nombre;Edad;Alias;Altura;Direccion;Hijos;Observaciones

Hombre;Soltero;11111111;Jose Aja Aja;51;pepe;2.00;calle 1;;Rubio

Mujer;Casada;22222222;Ana Aja Aje;65;anita;1.80;calle 3;2;Rubia

Mujer;Divorciada;33333333;Laura Asi Asa;39;laurita;1.70;calle 41Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Con este programa:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use v5.14;
use autodie;
 
#### Abrir archivos
open my $VIEJO, '<', 'archivo_viejo.txt';
open my $NUEVO, '<', 'archivo_nuevo.txt';
open my $COMPA, '>', 'comparados.txt';
 
# Leer archivo viejo
my %registros;
 
while (my $registro = <$VIEJO>) {
    my $alias = (split /[;]/, $registro)[5];
 
    $registros{$alias} = $registro;
}
 
# Hacer la comparación con el nuevo
while (my $registro = <$NUEVO>) {
    my $alias = (split /[;]/, $registro)[5];
 
    if (exists $registros{$alias}  and  $registros{$alias} eq $registro) {
        # Los registros son iguales: no se hace nada
    }
    else {
        # El registro no existe en el viejo o los registros son distintos
        print $COMPA "Archivo viejo $registros{$alias}";
        print $COMPA "Archivo nuevo $registro";
    }
}
 
#### Cerrar archivos
close $VIEJO;
close $NUEVO;
close $COMPA;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Sale este resultado:

Sintáxis: (comparados.txt) [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Archivo viejo Hombre;Soltero;11111111;Jose Aja Aja;50;pepe;2.00;calle 1;;Rubio

Archivo nuevo Hombre;Soltero;11111111;Jose Aja Aja;51;pepe;2.00;calle 1;;Rubio

Archivo viejo Mujer;Divorciada;33333333;Laura Asi Asa;38;laurita;1.70;calle 4;1;

Archivo nuevo Mujer;Divorciada;33333333;Laura Asi Asa;39;laurita;1.70;calle 41Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **bvayap** » 2015-10-01 14:33 @648

Gracias a ambos. Mañana intentaré probar vuestras soluciones.

La verdad es que anoche se me encendió la neurona y encontré una solución. No tengo el código delante, pero básicamente es:

1. Meto ambos archivos de texto en un hash cada uno.
2. Recorro el primer hash buscando si las claves existen en el segundo. Sí no existen, guardó la clave en un tercer hash de resultados.
3. Ídem recorriendo ahora el hash del segundo archivo y buscando las claves en el hash del primero.
4. Ordeno el hash de resultados.

Lo dicho, muchas gracias por vuestra aportación.
Saludos

por **pierrot** » 2015-10-01 21:47 @949

¡Qué pulcritud inmaculada la del script de explorer! (válgase el pleonasmo). Lo único que cambiaría sería quizás

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

(split /[;]/, $registro)[5];
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

(split /;/, $registro)[5];
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

dado que ";" no es un metacaracter de las regexps como lo es, por ejemplo, un '.' (si fuera un punto, sí que justificaría poner '[.]' como alternativa a '\.').

Es mejor que lo yo había propuesto, dado que recorre el primer archivo para crear el hash %registros, y luego recorre el segundo archivo ya comparando con los registros antes guardados (yo había sugerido crear otro hash para el segundo archivo y luego hacer una tercer recorrida sobre los aliases comparando los registros de un hash con los del otro; es más eficiente lo que propone explorer).

bvayap escribiste:La verdad es que anoche se me encendió la neurona y encontré una solución. No tengo el código delante, pero básicamente es:

1. Meto ambos archivos de texto en un hash cada uno.
2. Recorro el primer hash buscando si las claves existen en el segundo. Sí no existen, guardó la clave en un tercer hash de resultados.
3. Ídem recorriendo ahora el hash del segundo archivo y buscando las claves en el hash del primero.
4. Ordeno el hash de resultados.

Yo supuse que la cantidad de registros en ambos ficheros era la misma y si hay un registro con alias 'X' en el fichero viejo, hay un registro con alias 'X' en el fichero nuevo. En cambio, explorer va un poco más allá y muestra también en el resultado los registros que están en el fichero nuevo y no están en el viejo (pero NO muestra los que están en el viejo y no están en el nuevo). No obstante, en la parte del if donde comenta "# Los registros son iguales: no se hace nada", se puede borrar del hash ese registro con lo que al final quedarían en él sólo los que están en el viejo y no están en el nuevo (y puedes desplegarlos al final). Tu solución es también correcta, y se puede optimizar teniendo en cuenta lo siguiente: si sabes que ciertas claves del primer hash están entre las claves del segundo hash, puedes excluirlas de la lista cuando te fijas en qué claves del segundo hash están entre las del primero (con lo cual te quedarán las que sabes de antemano que no están).

por **bvayap** » 2015-10-02 05:52 @286

A veces pienso que explorer inventó Perl

Bueno, aquí os dejo mi código para que sea "criticado"

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;                                     # estilo estricto
use warnings;                                   # activar advertencias
use diagnostics;                                # diagnósticos de fallos
use autodie;                                    # Es mejor morir que regresar con deshonor --proverbio Klingon
 
system ("cls");
print "Buscamos diferencias entre dos ficheros txt.\n";
print "Fichero Antiguo(sin extensión): ";
my $f1 = <>;
chomp ($f1);
print "Fichero Nuevo(sin extensión): ";
my $f2 = <>;
chomp ($f2);
 
# Indicamos la ruta para los ficheros viejo y nuevo
my $ruta1 = "C:\\Documents and Settings\\Admin\\My Documents\\Perl\\Pruebas\\$f1\\";
my $ruta2 = "C:\\Documents and Settings\\Admin\\My Documents\\Perl\\Pruebas\\$f2\\";
 
# Abrimos ambos ficheros y los metemos en memoria
open my $a_file, '<', $ruta1.$f1."_limpio.txt"
    or die "Couldn't open $f1.txt: $!";
open my $b_file, '<', $ruta2.$f2."_limpio.txt"
    or die "Couldn't open $f2.txt: $!";
 
# Definimos los Hashes de entrada y salida
my %a_lineas;
my %b_lineas;
my %results;
 
# Metemos cada fichero en su Hash
while (my $linea1 = <$a_file>) {
    chomp $linea1;
    $a_lineas{$linea1} = "Fichero Viejo;";
}
while (my $linea2 = <$b_file>) {
    chomp $linea2;
    $b_lineas{$linea2} = "Fichero Nuevo;";
}
 
# Recorremos el fichero nuevo para ver si la línea existe en el viejo
my $a;
my $b;
foreach $b (keys %b_lineas) {
        if (exists $a_lineas {$b}) {
                next;
                } else {
                $results {$b} = "Fichero nuevo;";
        }
}
 
# Recorremos el fichero viejo para ver si la línea existe en el nuevo
foreach $a (keys %a_lineas) {
        if (exists $b_lineas {$a}) {
                next;
                } else {
                $results {$a} = "Fichero viejo;";
        }
}
 
# Ahora guardamos el Hash con las diferencias en un fichero de texto para la salida.
open my $SALIDA,  '>', $ruta2."Comparado_".$f1."_".$f2.".txt";               # Escritura del archivo resultado
my $r;
foreach $r (sort (keys (%results))) {
        print $SALIDA ($results {$r}).$r."\n";
        }
 
# Cerramos los ficheros
close $a_file;
close $b_file;
close $SALIDA;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **pierrot** » 2015-10-02 07:31 @355

bvayap escribiste:

Sintáxis: [ Descargar ] [ Ocultar ]
Sintáxis: [ Descargar ] [ Mostrar ]
Using perl Syntax Highlighting

# Metemos cada fichero en su Hash

while (my $linea1 = <$a_file>) {

chomp $linea1;

$a_lineas{$linea1} = "Fichero Viejo;";

}

while (my $linea2 = <$b_file>) {

chomp $linea2;

$b_lineas{$linea2} = "Fichero Nuevo;";

}

Coloreado en 0.001 segundos, usando GeSHi 1.0.8.4

¿Por qué en el valor de los hashes guardas "Fichero Viejo;" o "Fichero Nuevo;" si después no usas esa información en ningún momento? Esto es cuestión de gustos, pero lo mismo que escribiste en forma de dos bucles, puede ser reescrito así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my %a_lineas = map {  chomp; $_=>"Fichero Viejo;"  } <$a_file>
my %b_lineas = map {  chomp; $_=>"Fichero Nuevo;"  } <$b_file>
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

bvayap escribiste:

Sintáxis: [ Descargar ] [ Ocultar ]
Sintáxis: [ Descargar ] [ Mostrar ]
Using perl Syntax Highlighting

# Recorremos el fichero nuevo para ver si la línea existe en el viejo

my $a;

my $b;

foreach $b (keys %b_lineas) {

if (exists $a_lineas {$b}) {

next;

} else {

$results {$b} = "Fichero nuevo;";

}

}

# Recorremos el fichero viejo para ver si la línea existe en el nuevo

foreach $a (keys %a_lineas) {

if (exists $b_lineas {$a}) {

next;

} else {

$results {$a} = "Fichero viejo;";

}

}

Coloreado en 0.001 segundos, usando GeSHi 1.0.8.4

Como dije en mi anterior mensaje, la segunda recorrida es innecesaria:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

# Recorremos el fichero nuevo para ver si la línea existe en el viejo
my $a;
my $b;
foreach $b (keys %b_lineas) {
        if (exists $a_lineas {$b}) {
                delete $a_lineas{$b};
        } else {
                $results {$b} = "Fichero nuevo;";
        }
}
 
# Ahora %a_lineas contiene todos los registros que existen en el viejo y 
# no existen en el nuevo. Agrego estos registros directamente a %results
%results = (%results, %a_lineas);
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Otro pequeño detalle es que en tu archivo de resultados quizá en un caso aparece la línea del fichero nuevo y luego la del viejo, y en otro caso al revés (porque despliegas por orden ASCII).

Me parece mejor modificar ligeramente el script de explorer:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use v5.14;
use autodie;
 
#### Abrir archivos
open my $VIEJO, '<', 'archivo_viejo.txt';
open my $NUEVO, '<', 'archivo_nuevo.txt';
open my $COMPA, '>', 'comparados.txt';
 
 
my %registros;
my %diferencias;
 
# Leer archivo viejo
while (my $registro = <$VIEJO>) {
    chomp $registro;
    my $alias = (split /;/, $registro)[5];
 
    $registros{$alias} = $registro;
}
 
# Hacer la comparación con el nuevo
while (my $registro = <$NUEVO>) {
    chomp $registro;
    my $alias = (split /;/, $registro)[5];
 
    if ( exists $registros{$alias} ) {
        # Existe el registro en ambos ficheros    
        if ($registros{$alias} ne $registro) {
            # Si los registros son diferentes, agregar a %diferencias
            $diferencias{$alias} = "Archivo viejo $registros{$alias}\n" . "Archivo nuevo $registro\n";
        }
        # Borrar la entrada en %registros así quedan las que están en el viejo exclusivamente
        delete $registros{$alias};
    } else {
        # El registro no existe en el viejo
        $diferencias{$alias} = "Archivo nuevo $registro\n";
    }
}
 
# Agregar las líneas que están en el viejo y no están en el nuevo
foreach( keys %registros ) {
    $diferencias{$_} = "Archivo viejo $registros{$_}\n";
}
 
# Imprimir resultados ordenados por alias
foreach( sort keys %diferencias ) {
    print $COMPA $diferencias{$_};
}
 
#### Cerrar archivos
close $VIEJO;
close $NUEVO;
close $COMPA;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2015-10-02 16:16 @719

Si yo no hago chomp(), será por algo

El ponerle corchetes al ';' es para que... se note más. Pero... aún se puede hacer más escandaloso (Regla "Separated Data" del PBP, pág. 157). Ver código más abajo.

No es recomendable el uso de las variables $a y $b en cualquier código, ya que son "especiales" para el caso de los miniprogramas de sort{}.

Si se usa un Perl igual o superior a v5.12, el modo 'strict' y 'warnings' están activados por defecto. Por eso con una línea use v5.14;, basta para tener un entorno de desarrollo.

Si se usa 'autodie', no es necesario poner la coletilla 'or die "...";' en los open(), ya que, precisamente, ese es su trabajo.

No se pueden recorrer los registros usándolos como claves, ya que la clave del asunto es el 'alias', por ser el identificador único en los registros. Si no lo hacemos, dos registros serán "distintos" cuando haya un cambio pequeño (edad, por ejemplo).

La barra diagonal inversa '\' se suele usar para escapar, pero no siempre es necesario escapar... (ver código siguiente).

Es mejor usar #!/usr/bin/env perl ya que así podemos usar un perl distinto de el del sistema.

Otra solución, con otra forma de filtrar los registros:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use v5.14;
use diagnostics;                                        # diagnósticos de fallos
use autodie;                                            # Es mejor morir que regresar con deshonor --proverbio Klingon
 
my $FIELD_SEPARATOR = q{;};                             # separador de campos de los registros
 
system ($^O eq 'linux' ? 'clear' : 'cls');              # según el sistema operativo, borramos la pantalla
 
say 'Buscamos diferencias entre dos ficheros txt.';     # un say() es lo mismo que un print "...\n", pero más corto
 
print "Fichero Viejo (sin extensión): ";
chomp(my $viejo = <>);                                  # es mejor usar variables 'con sentido'
 
print "Fichero Nuevo (sin extensión): ";
chomp(my $nuevo = <>);
 
# Ruta a los archivos
my $RUTA          = 'C:\Documents and Settings\Admin\My Documents\Perl\Pruebas';
my $ARCHIVO_VIEJO = $RUTA . '\\' . $viejo . '\\' . $viejo . '_limpio.txt';
my $ARCHIVO_NUEVO = $RUTA . '\\' . $nuevo . '\\' . $nuevo . '_limpio.txt';
my $ARCHIVO_COMPA = $RUTA . '\\' . $nuevo . '\\' . 'Comparado_' . $viejo . '_' . $nuevo . '.txt';
 
# Leemos ambos archivos
open my $VIEJO, '<', $ARCHIVO_VIEJO;
open my $NUEVO, '<', $ARCHIVO_NUEVO;
 
<$VIEJO>;                                               # despreciamos las cabeceras
<$NUEVO>;
 
# Hash: Las claves son los alias; los valores son los registros
my %viejos = map { (split $FIELD_SEPARATOR)[5] => $_ } <$VIEJO>;
my %nuevos = map { (split $FIELD_SEPARATOR)[5] => $_ } <$NUEVO>;
 
close $VIEJO;
close $NUEVO;
 
#use Data::Dumper;
#say Dumper \%viejos;
#say Dumper \%nuevos;
 
# Nos quedamos con los registros realmente nuevos
# Aquellos que no existen en %viejos o que son distintos entre el nuevo y el viejo
%nuevos = map  { $_ => $nuevos{$_} }
          grep { not exists $viejos{$_}  or  $viejos{$_} ne $nuevos{$_} }
          keys %nuevos;
 
#say Dumper \%viejos;
#say Dumper \%nuevos;
 
# Salida de diferencias
open my $SALIDA, '>', $ARCHIVO_COMPA;
 
for my $alias ( sort keys %viejos ) {                   # recorremos los reg. viejos
 
    print $SALIDA "Archivo viejo: $viejos{$alias}";
 
    if ( exists $nuevos{ $alias } ) {                   # si hay un reg. nuevo
 
        print $SALIDA "Archivo nuevo: $nuevos{$alias}";
        delete $nuevos{$alias};                         # lo quitamos porque ya lo hemos publicado
    }
}
 
for my $registro (values %nuevos) {                     # recorremos los reg. nuevos que quedan
 
    print $SALIDA "Archivo nuevo: $registro";
}
 
close $SALIDA;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

La salida es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Archivo viejo: Mujer;Casada;22222222;Ana Aja Aje;65;anita;1.80;calle 3;2;Rubia

Archivo viejo: Mujer;Divorciada;33333333;Laura Asi Asa;38;laurita;1.70;calle 4;1;

Archivo nuevo: Mujer;Divorciada;33333333;Laura Asi Asa;39;laurita;1.70;calle 41

Archivo viejo: Hombre;Soltero;11111111;Jose Aja Aja;50;pepe;2.00;calle 1;;Rubio

Archivo nuevo: Hombre;Soltero;11111111;Jose Aja Aja;51;pepe;2.00;calle 1;;Rubio

Archivo nuevo: Hombre;Casado;8878787878;Antonio Luengo;40;Toni;3.00;calle 12;;CasoColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Foro - Perl en Español

Comparar líneas en archivos de texto

Comparar líneas en archivos de texto

Publicidad

Re: Comparar líneas en archivos de texto

Re: Comparar líneas en archivos de texto

Re: Comparar líneas en archivos de texto

Re: Comparar líneas en archivos de texto

Re: Comparar líneas en archivos de texto

Re: Comparar líneas en archivos de texto

Re: Comparar líneas en archivos de texto

¿Quién está conectado?