Foro - Perl en Español

por **carolina_2** » 2017-09-10 20:26 @893

Hola, soy nueva en Perl y quería saber si me pueden ayudar.

Tengo dos archivos y tengo que buscar coincidencias entre ambos en las columnas correspondientes a año, mes, día y hora, y luego si hay coincidencias entre ellos me imprima en un tercer archivo algunas columnas de esas líneas y si no existen similitudes me imprima los datos en un cuarto archivo.

Mi problema es que si las fechas y horas no están ubicadas en la misma posición de linea en ambos archivos el programa considera como que no hay coincidencias.

Mi programa es el que sigue

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

open( f1, "<dato_1.dat" ) || die "can not open file";
open( f2, "<dato_2.csv" ) || die "can not open file";
my (@datos)   = <f1>;
my (@datos_2) = <f2>;
my ($valores);
my ($valores_2);
open my $OUT_1, '>', 'datos-interes.dat' or die $!;
open my $OUT_2, '>', 'sobran.dat'        or die $!;
while (@datos) {
    $valores   = shift @datos;
    $valores_2 = shift @datos_2;
    chomp $valores;
    @data = split( ",", $valores );
    chomp $valores_2;
    @data_2 = split( ",", $valores_2 );
    if ( @data[0] == @data_2[0] and @data[1] == @data_2[1] and @data[2] == @data_2[2] and @data[3] == @data_2[3] ) {
        print {$OUT_1}
            "$data[0],$data[1],$data[2],@data[3],@data_2[0],$data_2[1],$data_2[2],$data_2[3],$data[4],$data[5],$data[6],$data[7],$data[8],$data_2[4],$data_2[5],$data_2[6],$data_2[7],$data_2[8]\n";
    }
    else {
        print {$OUT_2}
            "$data[0],$data[1],$data[2],@data[3],@data_2[0],$data_2[1],$data_2[2],$data_2[3],$data[4],$data[5],$data[6],$data[7],$data[8],$data_2[4],$data_2[5],$data_2[6],$data_2[7],$data_2[8]\n";
    }
}
close $OUT;
 
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Bienvenida a los foros de Perl en Español, carolina_2.

Lo que deberías hacer es comparar cada entrada del primer archivo con todas las entradas del segundo. Algo así como un doble bucle, anidados. Si coinciden las fechas de uno con el otro, tienes una coincidencia. Y si al final de repasar el segundo archivo no hay coincidencias, no tenemos ninguna coincidencia.

Una solución mejor es usar un par de hashes en Perl, para hacer la búsqueda más rápida y eficiente.

Por estos foros ya hemos comentado problemas parecidos:

Inténtalo, y si te atascas, vuelve por aquí y te damos más pistas.

por **carolina_2** » 2017-09-22 14:55 @663

Hola.

He tratado de realizar el programa en el poco tiempo disponible que he tenido y no me ha dado resultado: me salta un error. Si me pueden indicar lo que hago mal sería genial. Aquí está lo que traté de realizar:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use warnings;
use strict;
 
my @columnas;
my @columnas_b;
my %hash_1;
my %hash_2;
open my $IN, '<', 'archivo1.csv' or die "can not open file";
my @lines = <$IN>;
close $IN;
for my $line (@lines) {
    chomp $line;
    my @columnas = split( ",", $line );
    while ( my ( $i, $v ) = each @columnas ) {
        $columnas[$i] .= $v;
    }
}
my @dia = @columnas[2];
%hash_1{@dia} = ( @columnas[0], @columnas[1], @columnas[3], @columnas[4], @columa[5] );
@keys = keys(%hash_1);
close $IN;
 
open my $IN_2, '<', 'archivo2.csv' or die "can not open file";
while ( my $linea = <$IN_2> ) {
    chomp $linea;
    my @columnas_b = split( ",", $linea );
    while ( my ( $j, $k ) = each @columnas_b ) {
        $columnas_b[$j] .= $k;
    }
}
my @dia_2 = @columnas_b[2];
%hash_2{@dia_2} = ( @columnas_b[0], @columnas_b[1], @columnas_b[3], @columnas_b[4], @columa_b[5] );
@keys_2 = keys(%hash_2);
close $IN_2;
 
open my $OUT,   '>', 'interes.dat' or die $!;
open my $OUT_2, '>', 'sobran.dat'  or die $!;
 
foreach my %keys{ %hash (@dia) }{
    if ( @dia = @dia_2 ) {
        print {$OUT} %hash_1{@dia}, %hash_2{@dia_2};
    }
    } else { print {$OUT} %hash_1{@dia}, %hash_2{@dia_2} }
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2017-09-22 19:03 @836

Con la adición de

use strict;
use warnings;

el propio Perl nos dice qué está mal (al menos, a nivel sintáctico):

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

Global symbol "@columa" requires explicit package name (did you forget to declare "my @columa"?) at ./compara_columnas.pl line 23.

Global symbol "@keys" requires explicit package name (did you forget to declare "my @keys"?) at ./compara_columnas.pl line 24.

Global symbol "@columa_b" requires explicit package name (did you forget to declare "my @columa_b"?) at ./compara_columnas.pl line 36.

Global symbol "@keys_2" requires explicit package name (did you forget to declare "my @keys_2"?) at ./compara_columnas.pl line 37.                  

Missing $ on loop variable at ./compara_columnas.pl line 43.Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Ahí ya te está marcando una serie de líneas con variables que no sabe de dónde salen. Por ejemplo, en la línea 23 se hace referencia a una variable llamada @columa, que no se declara ni se usa en ningún lado.

Aparte de estos errores sintácticos, hay otros más:

En la línea 25 cierras $IN, pero en realidad ya lo habías cerrado en la línea 12.
En las líneas 17 y 31 se hace uso de each() sobre un array... algo que solo está permitido desde Perl v5.12 (deberías poner un 'use v5.12;' al principio del programa.
En la línea 45 estás haciendo una asignación, no una comparación. ¿Es eso lo que realmente quieres hacer?
En la línea 42 abres un archivo asignado a $OUT_2, pero luego no escribes nada en él.
No creo que las líneas 22 y 36 estén bien... extraes UN valor de @columnas y lo guardas en @dia, y luego usas ese mismo valor para crear una entrada en el hash %hash_1, pero en realidad guardas cinco valores, con lo que estás creando dos entradas en el hash... ¡puff, qué lío!
No veo la comparación de año, mes, día y hora, o ver cómo se crea una entrada en un hash para ese momento.
Los datos que guardas son los que tienen el índice 0, 1, 3, 4 y 5, es decir: año, mes, hora, Pedidos y Dato 1. ¿Eso es correcto? ¿Dejar al día fuera? ¿Y dejar el resto de columnas fuera? En la descripción del problema dices que si hay coincidencias de año, mes, día y hora, se deben imprimir "algunas columnas", pero no sabemos cuáles son.

Hay algunas cosas que no sabemos.

Si hay coincidencias de año, mes, día y hora entre los dos archivos, ¿qué es lo que debe salir? ¿las columnas de los dos archivos o solo del segundo? Y lo mismo para el caso de no haber coincidencia: ¿deben salir hacia el cuarto archivo las columnas del primer archivo, los del segundo, o de los dos?

Esta es una posible solución, pero depende de las dudas que tenemos ahora.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use v5.14;
use utf8;
use strict;
use warnings;
use autodie;
 
my $archivo1_nombre = 'datos_1.csv';
my $archivo2_nombre = 'datos_2.csv';
$; = ',';                                                       # separador de dimensiones en hashes
 
my %archivos;
 
## Leemos el primer archivo
open my $IN, '<', $archivo1_nombre;
my $cabecera = <$IN>;                                           # leemos la primera línea
while (<$IN>) {
        chomp;
        my ($año, $mes, $día, $hora, @datos) = split /[,]/;
 
        push @{ $archivos{$año, $mes, $día, $hora} }, join(',', @datos);
}
close $IN;
 
## Leemos el segundo archivo
open my $IN2, '<', $archivo2_nombre;
$cabecera = <$IN2>;                                             # leemos la primera línea
while (<$IN2>) {
        chomp;
        my ($año, $mes, $día, $hora, @datos) = split /[,]/;
 
        push @{ $archivos{$año, $mes, $día, $hora} }, join(',', @datos);
 
}
close $IN2;
 
#use Data::Dumper;
#say Dumper \%archivos;                 # comprobación
 
## Resultado
#
# Recorremos el hash multidimensional, y vemos cuántas coincidencias hay.
# Si solo hay una, lo guardamos en sobran.csv
# Si hay más de una, lo guardamos en interes.csv
open my $INTERES, '>', 'interes.csv';
open my $SOBRAN,  '>', 'sobran.csv';
 
print $INTERES $cabecera;
print $SOBRAN  $cabecera;
 
for my $fecha (keys %archivos) {                                # para todas las fechas
 
        my @registros         = @{ $archivos{$fecha} };         # entradas para esa fecha
 
        my $OUT = @registros > 1 ? $INTERES : $SOBRAN;          # según el número de entradas, escogemos canal de salida
 
        for my $datos ( @registros ) {                          # para todos los @registros
 
                say $OUT "$fecha,$datos";                       # sacamos $fecha y @datos
        }
}
 
close $INTERES;
close $SOBRAN;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **carolina_2** » 2017-09-23 08:57 @414

los datos de ambos archivos tienen que salir juntos, en la misma linea
saludos

por **explorer** » 2017-09-24 07:38 @359

¿Puedes poner un ejemplo? ¿Separados por una columna o por comas?

Sería interesante ver el resultado que debería dar dados los dos archivos que adjuntaste al inicio.

por **carolina_2** » 2017-09-24 10:57 @498

Lo que debería obtener serían los datos correspondientes a las fechas coincidentes de ambos archivos separados por comas en una misma línea. Con los encabezados correspondientes a los datos:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

ano,mes,dia,hora,Pedidos,Dato1,Dato2,Dato3,Dato4,ano,mes,dia,hora,Pedidos (del archivo datos_2),Dato1(del archivo datos_2),Dato2(del archivo datos_2),Dato3(del archivo datos_2),Dato4(del archivo datos_2)

2012,5,6,7,11,75,53,44,18,2012,5,6,7,11,33,53,44,1234

2012,5,7,6,13,87,63,51,8,2012,5,7,6,13,87,63,51,8

2012,5,8,8,14,100,66,47,14,2012,5,8,8,14,100,66,47,14

2012,5,9,7,13,100,86,72,26,2012,5,9,7,13,100,86,72,26

2012,5,10,6,16,100,82,68,19,2012,5,10,6,16,100,82,68,19

2013,5,11,24,16,100,81,52,23,2013,5,11,24,16,100,81,52,23

2013,5,12,24,15,100,72,48,13,2013,5,12,24,15,100,72,48,13

2013,6,13,24,21,100,56,33,3,2013,6,13,24,21,100,56,33,3

2014,7,19,5,19,94,61,37,13,2014,7,19,5,19,94,61,37,13

2014,7,20,11,20,57,43,30,13,2014,7,20,11,20,57,43,30,13

2014,7,21,12,21,57,44,33,5,2014,7,21,12,21,57,44,33,5

2014,7,22,3,20,48,40,33,8,2014,7,22,3,20,48,40,33,8

2014,7,23,5,21,76,54,38,6,2014,7,23,5,21,76,54,38,6

2014,7,24,11,22,81,53,40,3,2014,7,24,11,22,81,53,40,3

2013,7,25,12,20,67,60,52,11,2013,7,25,12,20,67,60,52,11

2015,7,26,3,20,88,75,63,6,2015,7,26,3,20,88,75,63,6

2015,7,27,2,14,93,51,35,10,2015,7,27,2,14,93,51,35,10

2013,6,14,23,26,71,48,36,6,2013,6,14,23,26,71,48,36,6

2013,6,15,23,23,68,57,53,6,2013,6,15,23,23,68,57,53,6

2013,6,16,23,24,100,60,38,3,2013,6,16,23,24,100,60,38,3

2013,6,17,23,27,94,54,36,5,2013,6,17,23,27,94,54,36,5

2014,6,18,5,26,88,53,29,6,2014,6,18,5,26,88,53,29,6Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2017-09-24 12:05 @545

Bueno, en ese caso se puede simplificar bastante.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use v5.14;
use utf8;
use strict;
use warnings;
use autodie;
 
my $archivo1_nombre = 'datos_1.csv';
my $archivo2_nombre = 'datos_2.csv';
$; = ',';                                                       # separador de dimensiones en hashes
 
my %archivo1;
 
 
## Leemos el primer archivo
open my $IN, '<', $archivo1_nombre;
 
my $cabecera1 = <$IN>;                                          # leemos la primera línea
chomp $cabecera1;
 
while (my $línea = <$IN>) {
        chomp $línea;
        my ($año, $mes, $día, $hora, @datos) = split /[,]/, $línea;
 
        $archivo1{$año, $mes, $día, $hora} = $línea;         # guardamos los @datos asociados a la fecha
}
 
close $IN;
 
 
## Leemos el segundo archivo, procesando cada línea
open my $IN2, '<', $archivo2_nombre;
 
my $cabecera2 = <$IN2>;                                         # leemos la primera línea
chomp $cabecera2;
 
## Archivos de salida
open my $INTERES, '>', 'interes.csv';
open my $SOBRAN,  '>', 'sobran.csv';
 
say $INTERES "$cabecera1,$cabecera2";
say $SOBRAN   $cabecera2;
 
 
while (my $línea = <$IN2>) {                                   # para todas las líneas
        chomp $línea;
        my ($año, $mes, $día, $hora, @datos) = split /[,]/, $línea;
 
        if (exists $archivo1{$año, $mes, $día, $hora}) {              # coincidencia de fecha
            say $INTERES "$archivo1{$año, $mes, $día, $hora},$línea";
        }
        else {                                                          # no coincidencia
            say $SOBRAN  $línea;
        }
}
close $IN2;
 
close $INTERES;
close $SOBRAN;
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Foro - Perl en Español

Comparar columnas

Comparar columnas

Publicidad

Re: Comparar columnas

Re: Comparar columnas

Re: Comparar columnas

Re: Comparar columnas

Re: Comparar columnas

Re: Comparar columnas

Re: Comparar columnas

¿Quién está conectado?