Foro - Perl en Español

por **pablgonz** » 2016-11-28 20:33 @897

Hola a todos, estoy tratando de reducir el siguiente código para adaptarlo dentro de otro script que tengo en funcionamiento. La idea es leer dos archivos de registro de extensión .fls creados durante la ejecución del script en el cual deseo adaptar el código.

Las líneas que me interesan siempre comienzan por OUTPUT, en estas están las rutas de algunos archivos que deseo mover (o eliminar). Aquí dejo dos ejemplos de los archivos de registro:

Sintáxis: (mytest-fig-tmp.fls) [ Descargar ] [ Ocultar ]

PWD /home/pablo/my_scripts/foro_perl
INPUT /usr/local/texlive/2016/texmf.cnf
INPUT /usr/local/texlive/2016/texmf-dist/web2c/texmf.cnf
INPUT /usr/local/texlive/2016/texmf-var/web2c/pdftex/latex.fmt
INPUT mytest-fig-tmp.tex
OUTPUT mytest-fig-tmp.log
INPUT /usr/local/texlive/2016/texmf-dist/tex/latex/base/article.cls
INPUT /usr/local/texlive/2016/texmf-dist/tex/latex/base/article.cls
INPUT /usr/local/texlive/2016/texmf-dist/tex/latex/filecontents/filecontents.sty
INPUT /usr/local/texlive/2016/texmf-dist/tex/latex/filecontents/filecontents.sty
OUTPUT mytest-fig-tmp.aux
INPUT /usr/local/texlive/2016/texmf-dist/fonts/map/fontname/texfonts.map
INPUT /usr/local/texlive/2016/texmf-dist/fonts/tfm/public/cm/cmtt10.tfm
INPUT pics/content1.tex
OUTPUT pics/content1.tex
OUTPUT content2.tex
OUTPUT mytest-fig-tmp.dvi
OUTPUT joined2.tex
INPUT mytest-fig-tmp.aux

Otro

Sintáxis: (salida.fls) [ Descargar ] [ Ocultar ]

PWD /home/pablo/my_scripts/foro_perl
INPUT /usr/local/texlive/2016/texmf.cnf
INPUT /usr/local/texlive/2016/texmf-dist/web2c/texmf.cnf
INPUT /usr/local/texlive/2016/texmf-var/web2c/pdftex/latex.fmt
INPUT salida.tex
OUTPUT salida.log
INPUT /usr/local/texlive/2016/texmf-dist/tex/latex/base/article.cls
INPUT /usr/local/texlive/2016/texmf-dist/tex/latex/base/article.cls
INPUT /usr/local/texlive/2016/texmf-dist/tex/latex/base/size10.clo
INPUT /usr/local/texlive/2016/texmf-dist/tex/latex/filecontents/filecontents.sty
OUTPUT salida.aux
INPUT /usr/local/texlive/2016/texmf-dist/fonts/map/fontname/texfonts.map
INPUT /usr/local/texlive/2016/texmf-dist/fonts/tfm/public/cm/cmtt10.tfm
INPUT pics/content1.tex
OUTPUT pics/content1.tex
INPUT content2.tex
OUTPUT content2.tex
OUTPUT salida.dvi
INPUT joined2.tex
OUTPUT joined2.tex
INPUT salida.aux

Con el siguiente script logro lo que busco, usando array, greep y algunas operaciones puedo añadir y quitar elementos para luego moverlos, lo he probado en Linux/Windows y funciona:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use v5.22;
use File::Copy;
use Data::Dumper;
 
my $latex  = 1 ; # modo
my $name   = 'mytest'; # nombre entrada 
my $output = 'salida' ; # nombre salida
my $ext    = '.tex'; # ext por defecto
my $prefix = 'fig'; # prefijo 
my $tmp    ='tmp'; # tmp        
my $tempDir='tmp_out'; # carpeta para guardar
 
### Quitar duplicados
sub uniq {
    my %seen;
    grep !$seen{$_}++, @_;
}
 
### Carpeta para guardar los archivos
-e $tempDir or mkdir($tempDir,0744) or die "No puedo crear $tempDir: $!\n";
 
# Archivos protegidos
my @protected = qw();
push(@protected,"$output$ext","$output.pdf");
 
# Las líneas que deseo comienzan por OUTPUT
my $flsline = "OUTPUT";
 
# Añadimos el nombre del archivo .fls
my @flsfile = "$name-$prefix-$tmp.fls";
 
# Agregamos $output.fls (si es que existe)
push(@flsfile,"$output.fls");
 
# Abrimos los dos archivos y filtramos las líneas que inician con OUTPUT
my @tmpfiles;
for my $filename(@flsfile){
    open my $RECtmp, '<', "$filename";
    push @tmpfiles, grep /\Q$flsline/,<$RECtmp>;
    close $RECtmp;
}
 
# Quitamos lo que rodea a OUTPUT y nos quedamos con /../../file
@tmpfiles = grep { s/$flsline\s+//mg } @tmpfiles;
@tmpfiles = grep { s/^\s*|\s*//mg } @tmpfiles;
 
# Si esta en modo latex
if($latex){
push (@tmpfiles,"$name-$prefix-$tmp.ps");
}
 
push(@tmpfiles,@flsfile,"$name-$prefix-$tmp$ext","$name-$prefix-$tmp.pdf");
 
# Quitamos los protegidos de @tmpfiles y lo guardamos en @delfiles
sub array_minus(\@\@) {
        my %e = map{ $_ => undef } @{$_[1]};
        return grep( ! exists( $e{$_} ), @{$_[0]} );
}
my @delfiles = array_minus(@tmpfiles, @protected);
 
print Dumper(@delfiles);
 
foreach my $tmpfile (@delfiles)
{
   move("$tmpfile", "$tempDir");
}
__END__
 
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Mi consulta es la siguiente, ¿puedo hacer el código un poco más corto? o escribirlo de otra manera, no abusar de grep, como en las líneas:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

@tmpfiles = grep { s/$flsline\s+//mg } @tmpfiles;
@tmpfiles = grep { s/^\s*|\s*//mg } @tmpfiles;
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Creo que tengo algunas líneas de sobra y de seguro se puede hacer más efectivo.

Agradecido de antemano.
Pablo.

Pues sí, se puede abreviar algo.

Pero no solo ahí, sino en otras partes del código. Por ejemplo, hay varios sitios donde tenemos "$variable" que realmente puede dejarse como $variable. O quitar paréntesis que no son necesarios. Todo eso hace aumentar el nivel de pelusa de un programa.

Los grep{}, por otra parte, los estás usando, no para filtrar elementos, que es su labor principal, sino para realizar una operación de limpieza sobre los textos leídos, y eso se puede hacer con un bucle for() y el operador de sustitución.

También... la subrutina uniq() se quita porque no se usa. Y la subrutina array_minus() se podría quitar si estamos seguros que ningún archivo de los que contiene @protected aparecerá dentro de los archivos fls, en las líneas OUTPUT.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/env perl
use v5.22;
use File::Copy;
use Data::Dumper;
 
my $latex   = 1;                # modo
my $name    = 'mytest';         # nombre entrada        
my $output  = 'salida';         # nombre salida
my $ext     = 'tex';            # ext por defecto
my $prefix  = 'fig';            # prefijo 
my $tempDir = 'tmp_out';        # carpeta para guardar
 
### Carpeta para guardar los archivos
-e $tempDir or mkdir($tempDir,0744) or die "No puedo crear $tempDir: $!\n";
 
# Archivos protegidos
my @protected = ("$output.$ext", "$output.pdf");
 
# Las líneas que deseo comienzan por OUTPUT
my $flsline = "OUTPUT";
 
# Añadimos el nombre del archivo .fls
my @flsfile = ("$name-$prefix-tmp.fls", "$output.fls");
 
# Abrimos los dos archivos y filtramos las líneas que inician con OUTPUT
my @tmpfiles;
for my $filename (@flsfile){
    open my $REC, '<', $filename;
    push @tmpfiles, grep /^$flsline/, <$REC>;
    close   $REC;
}
 
# Quitamos lo que rodea a OUTPUT y nos quedamos con /../../file
foreach (@tmpfiles) {
    s/^$flsline\s+|\s+$//g;
}
 
# Si está en modo latex
if ($latex) {
    push @tmpfiles, "$name-$prefix-tmp.ps";
}
 
push @tmpfiles, @flsfile, "$name-$prefix-tmp.$ext", "$name-$prefix-tmp.pdf";
 
# Quitamos los protegidos de @tmpfiles y lo guardamos en @delfiles
sub array_minus(\@\@) {
        my %e = map{ $_ => undef } @{$_[1]};
        return grep( ! exists( $e{$_} ), @{$_[0]} );
}
 
my @delfiles = array_minus(@tmpfiles, @protected);
 
print Dumper(@delfiles);
 
foreach my $tmpfile (@delfiles) {
   move($tmpfile, $tempDir);
}
 
__END__
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **pablgonz** » 2016-12-06 22:40 @986

Muchas gracias por la respuesta explorer, la verdad es que tengo el mal hábito de colocar comillas dobles a casi todo (bash

), con lo de los paréntesis sobrantes siempre me pierdo, en algunas ocasiones son necesarios y en otras no, muchas veces modifico código que es parte o adaptación de soluciones que están en este mismo foro o en la red y no tengo un ojo tan prolijo al minuto de escribir y tratar de "optimizar y depurar", como esa subrutina que no tenía nada que hacer ahí.

Lo de cambiar por greep por foreach era más menos lo que había procesado al ver el uso que le dan (en general), supuse que era como un F16 para matar una mosca

. Con esas líneas que propones, modificaré varias partes del script principal en el cual trabajo.
Agradecido por todo.
Pablo

por **explorer** » 2016-12-07 21:13 @926

No pasa nada por dejar las comillas. Seguro que Perl lo optimizará al compilar el programa. Pero es más fácil de leerlo si quitamos caracteres superfluos.

En el tema de los paréntesis la regla es: se pueden quitar siempre y cuando no afecten a las operaciones que les rodean. Por eso, es mucho más fácil quitar los paréntesis del final de una sentencia. Ejemplo:

my $var = 10 + int rand 100;

En esa línea, tanto int como rand deberían llevar paréntesis, pero como la evaluación comienza en rand(100), y no hay nada más que le siga (la línea acaba en el punto y coma), pues quitamos los paréntesis. Y lo mismo podríamos decir de int(). Cosa muy distinta es si lo ponemos así:

my $var = 10 + int 100 * rand;

¿Estamos ejecutando rand() y luego lo multiplicamos por 100 y luego nos quedamos con el valor entero, o primera calcula el valor entero de 100 y luego lo multiplica por rand()? Solución: es el primera caso, pero no es obvio (habría que consultar la tabla de precedencias). En estos casos, ponemos paréntesis, y listo.

A nivel de operaciones, lo que tenías dentro del grep{} ocupa el mismo número que las que ejecuta el for(). La diferencia es que grep "deja pasar" los valores que son positivos, que es algo que no nos interesa ahora. Solo queremos filtrar contenidos, no escoger unos de otros. Por eso es más apropiado, para esos casos, usar map{}, o un for().

Foro - Perl en Español

Filtrar dos archivos en un array

Filtrar dos archivos en un array

Publicidad

Re: Filtrar dos archivos en un array

Re: Filtrar dos archivos en un array

Re: Filtrar dos archivos en un array

¿Quién está conectado?