Foro - Perl en Español

por **danusol** » 2013-05-22 10:56 @497

Hola, estoy cruzando dos listas de datos, buscando las entradas de la primera (unas mil entradas) en la segunda (una base de datos de ~40 millones de entradas).

He pensado que se puede hacer de dos maneras (seguro que se puede hacer de otras...)

-con un grep
grep (/\b$chr\b/, @file2);

o
-con un regex
m/\b$chr\b/;

Tengo tres dudas,

1- ¿es una de las dos búsquedas, grep o regex, más rápida o eficiente computacionalmente que la otra? Busco agilizar al máximo la búsqueda en la base de datos
2- ¿me siguen buscando, tanto el grep como el regex, a lo largo de toda la base de datos después de la primera coincidencia?
3- ¿cómo puedo parar, si el caso anterior fuese cierto, después de la primera coincidencia?

Gracias por vuestra ayuda.

D.

Depende de cómo sean los datos, pero otra forma de hacerlo es leer todas las entradas de un archivo y meterlas en un hash, y luego recorrer el otro archivo, comprobando la existencia o no de cada valor, como clave del hash construido antes.

¿Puedes poner un ejemplo de búsqueda y de datos de la base de datos?

Respuestas:
1- grep() extrae todos los elementos coincidentes, así que aplica la expresión regular a todo el array. Mientras, la expresión regular solo se aplica a un elemento cada vez, excepto en el caso de usar Coincidencia inteligente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

use v5.10.1;
 
...;
 
my @base = ("red", "blue", "green");
 
if (@base ~~ /$chr/) {             # aplica la expresión regular a todos los elementos de @base
    say "base contiene $chr";      # y devuelve verdadero si al menos uno de ellos coincide
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

(La coincidencia inteligente está presente desde Perl v5.10. Más información en perlsyn y perlop).

2- en el caso de grep(), sí, porque su misión es la de extraer todos los elementos de @file2 que coincidan con el patrón. En el caso de la expr. reg., como se hace dentro de un bucle, puedes parar el bucle si se da esa circunstancia (encontrar una coincidencia)

3- con un last. También puedes usar

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

use List::MoreUtils 'any';
 
my @base = ("red", "blue", "green");
 
if ( any { /\b$chr\b/ } @base ) {
    say "Encontrado $chr en base";
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **danusol** » 2013-05-23 05:02 @251

Gracias, explorer.

Un trozo de la base de datos es este:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

chr1     10583   10583   G       A       0.14    rs58108140

chr1     10611   10611   C       G       0.02    rs189107123

chr1     13302   13302   C       T       0.11    rs180734498

chr1     13327   13327   G       C       0.03    rs144762171

chr1     13958   13958   C       1       0.02    .

chr1     13980   13980   T       C       0.02    rs151276478

chr1     30923   30923   G       T       0.73    rs140337953

chr1     46402   46402   C       0TGT    0.0037  .

chr1     47190   47190   G       0A      0.01    .

chr1     51476   51476   T       C       0.01    rs187298206
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Y un trozo del archivo de entrada es este:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

chr10   82033594        82033594        G       A       het     225     117     37

chr10   82034262        82034262        G       A       het     225     231     37

chr10   82034842        82034842        A       G       hom     222     33      37

chr10   82034854        82034854        T       C       hom     222     36      37
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Para hacer la búsqueda tengo que hacer coincidir las dos primeras columnas, que son las posiciones. ¿Esas podrían ser las claves de un hash?

por **explorer** » 2013-05-23 05:52 @286

Sí, así es.

La idea es leer uno de los archivos, y meter las líneas en un hash. Algo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

while (my $linea = <$ARCHIVO1>) {
    my($c1, $c2) = split " ", $linea, 3;       # partimos la $linea en tres partes, y solo nos quedamos con las dos primeras
 
    $hash{"$c1 $c2"} = 1;                      # recordamos la asociación de las dos primeras columnas
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Luego, abres el segundo archivo y vas comprobando si las dos primeras columnas ya existen:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

while (my $linea = <$ARCHIVO2>) {
    my($c1, $c2) = split " ", $linea, 3;       # partimos la $linea en tres partes, y solo nos quedamos con las dos primeras
 
    if ($hash{"$c1 $c2"}) {                    # ¿existe una clave con esas columnas?
        say "Encontrado";
    }
    else {
        say "No encontrado";
    }
}
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Mira este hilo: Cruzar dos listas

Foro - Perl en Español

función grep() o regex

función grep() o regex

Publicidad

Re: función grep() o regex

Re: función grep() o regex

Re: función grep() o regex

¿Quién está conectado?