Foro - Perl en Español

por **abraham03** » 2017-12-14 20:05 @878

Hola, ¿qué tal?

Tengo este código que tiene dos listas asignadas como array y al comparar una con la otra extrae lo que dé un match.

Lo quiero en subrutina porque estoy haciendo otro script con diferentes variantes (múltiples opciones) pero al final siempre tengo dos listas (dos arrays) que se comparan.

Estoy tratando de hacer la subrutina desde que inicia el "for (@list){ hasta el final }" y usarla algo así como " extract (@lista, @nombres) ", y que imprima lo mismo que genera este código:

Barney Rubble
Wilma Flinstone

Realmente lo quiero para usarlo en análisis bioinformáticos (extracción de asignaciones taxonómicas con QIIME) pero tiene el mismo principio que el código que expongo aquí (se me hace más sencillo explicarlo así).

¡¡¡ Muchas Gracias !!!

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
  use strict;
  use warnings;
  my @array1 = ( "Fred Flinstone", "Wilma Flinstone", "Barney Rubble", "Betty Rubble" );
  my @list = ("Ba", "Wil");
  my (@match, @extract);
    for (@list){
        my $unit = $_;
        chomp $unit; 
          @match = grep (/$unit/, @array1);
            foreach (@match){
            push (@extract, $_);
        }
    }
      foreach (@extract){
    print "$_\n";
  }
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

#!/usr/bin/perl
use v5.14;
use strict;
use warnings;
 
my @array1 = ( "Fred Flinstone", "Wilma Flinstone", "Barney Rubble", "Betty Rubble" );
my @list   = ( "Ba", "Wil" );
 
my $extract_ref = busca(\@array1, \@list);
 
for (@$extract_ref) {
    say;
}
 
sub busca {
    my ($lista1_ref, $lista2_ref) = @_;
    my @extract;
 
    for my $unit (@$lista2_ref) {
        push @extract, grep /$unit/, @$lista1_ref;
    }
 
    return \@extract;
}
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

Como dices que quieres aplicarlo a Bioinformática, damos por supuesto que las cadenas a comparar pueden ser muy grandes. O quizás no. Vamos a suponer que sí. En ese caso, nos interesa que el programa no "mueva" esas cadenas entre la parte principal del programa y la subrutina. Usaremos la misma técnica que en otros lenguajes: en lugar de que los argumentos se pasen por valor, pasaremos una referencia a ese valor. Esto es algo muy rápido. No importa que la cadena de texto ocupe varios gigas. Solo pasamos una referencia, que ocupa muy poco.

En este caso concreto, a la subrutina le pasaremos una referencia a los dos arrays. De esa manera, no importa que los arrays tenga cuatro elementos o cuatro millones.

El paso de referencias como argumentos obliga a que accedamos a los elementos del array, desreferenciando. Por eso ves en el código los caracteres '@$' delante de los nombres de las variables.

El resultado es un array, pero en lugar de devolverlo tal cual, devolvemos una referencia. En la parte principal del programa lo recibimos y accedemos a los elementos de la misma manera que en la subrutina.

Con esto conseguimos una buena velocidad, pero se puede conseguir mucha más velocidad.

Dentro de la subrutina, estamos haciendo un bucle por todos los elementos de lista2. Por cada elemento de estos, lo comparamos con todos los elementos de lista1. Eso puede tardar mucho, si las listas son grandes (o con elementos muy grandes).

Una opción es la de convertir todos los elementos de lista2 en una única expresión regular:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use v5.14;
use strict;
use warnings;
 
my @array1 = ( "Fred Flinstone", "Wilma Flinstone", "Barney Rubble", "Betty Rubble" );
my @list   = ( "Ba", "Wil" );
 
my $extract_ref = busca(\@array1, \@list);
 
say for @$extract_ref;
 
sub busca {
    my ($lista1_ref, $lista2_ref) = @_;
 
    my $patron = join '|', @$lista2_ref;                # creación del patrón como un grupo de opciones: A | B | C
 
    my @extract = grep /$patron/, @$lista1_ref;         # filtramos todos los datos con el patrón
 
    return \@extract;
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

La ventaja, además, es que el resultado contiene los elementos coincidentes en el mismo orden que están en lista1.

Edito: Esta versión usa la nueva sintaxis de desreferencia, y es un pelín más rápida.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use v5.20;
use strict;
use warnings;
 
my @array1 = ( "Fred Flinstone", "Wilma Flinstone", "Barney Rubble", "Betty Rubble" );
my @list   = ( "Ba", "Wil" );
 
my $extract_ref = busca(\@array1, \@list);
 
say for $extract_ref->@*;
 
sub busca {
    my ($lista1_ref, $lista2_ref) = @_;
 
    my $patron = join '|', $lista2_ref->@*;
 
    return [ grep /$patron/, $lista1_ref->@* ];
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **abraham03** » 2017-12-18 21:35 @941

Muchísimas gracias, la verdad es que me ha ayudado mucho el código que hiciste, le hice unas pocas modificaciones y quedó bien adaptado, y gracias por los consejos. La verdad es que sí suelen ser archivos grandes en algunas ocasiones, es para Metagenómica, específicamente para extraer líneas de asignaciones taxonómicas a partir de un listado de referencias, es por ello que quería la sub para dos arrays; había hecho el match con un loop, pero como quiero agregarle más opciones ¡¡ no quería estar reescribiendo el mismo código una y otra vez !!

Muchas gracias.

Abraham.

Foro - Perl en Español

Crear una subrutina con dos arrays

Crear una subrutina con dos arrays

Publicidad

Re: Crear una subrutina con dos arrays

Re: Crear una subrutina con dos arrays

¿Quién está conectado?