Foro - Perl en Español

por **Marielago** » 2011-01-21 09:35 @441

¡Hola! ¡Nuevamente necesito ayuda! Bueno, lo que ocurre es que tengo un archivo de esta manera (mucho más largo, de unas 22200 líneas)

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

gn0058461_int_gn0085512

\ACAAACACAATTCACTCATCGGACCCGCTGGTTCCGGCTAC/

gn0020660_int_gn0260994

\TTAAAAATAAATAAAAATAAAGAAAATATATAAATCTATGAC/

gn0260994_int_gn0046706

\GACAACTTGGAGGAGACACCCGGCGGACCCGGAATCCAAGTC/

_int_gn0031208

\CGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTG/

gn0031208_int_gn0002121

\AAAAACAATGCGAATAGGGACGTATTAATTGCCGAATCTCT/

gn0002121_int_gn0031209

\GTGCCCGTGTATCTCTATCGAAAAAATCATATATTTTTTAGA/

gn0031209_int_gn0051973

\ATCGAGCGCAAGTTTGGAGTTCGATGTGTTTTCAGCTGTGAGC/

gn0051973_int_gn0067779

\GTGCGGACGAGTGTCTTGAGACTCTGGGCAAGCGCAGCCAGCCA/Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Y un archivo similar pero contiene solo nombres, no las secuencias. Hice un código que lee nombres en archivo que contiene los nombres y los busca en el segundo archivo (el que muestro) y si lo encuentra, copia nombre y la secuencia, pero en ese caso lo hice separando en el archivo que contiene nombres y secuencias (nombre y la secuencia separados por un tabulador no por un salto de línea), pero es muy largo el archivo para modificarlo, por lo que quisiera saber si puedo modificar mi código para que busque en un archivo de la forma que muestro más arriba, es decir que si encuentra el nombre copie esa línea del nombre y la línea siguiente que contiene la secuencia.

¿Cómo se podría hacer eso?

¡Ah!, olvidé adjuntar el código que llevaba

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my %nombre;
 
open my $ARCHIVO_1, q[<], 'salidan5.sence';
 
while (my $linea = <$ARCHIVO_1>) {
        chomp $linea;
    $nombre {$linea} = 1;
 
}
 
open my $OUT, q[>], 'salida';
 
open my $ARCHIVO_2, q[<], 'dmel.interg.nuc';
 
while (<$ARCHIVO_2>) {
 
  my $columna_nombre = (split q[ ])[0];
 
  if( $nombre  {$columna_nombre }) {   
 
        print $OUT $_;                   
 
    }
 
}
 
close $ARCHIVO_1;
close $ARCHIVO_2;
 
##################
close $OUT;
Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

#!/usr/bin/perl
use common::sense;
 
# Leemos los nombres de las secuencias a leer
my @nombres_a_buscar = qw(
    gn0260994_int_gn0046706
    _int_gn0031208
    gn0002121_int_gn0031209
    gn0031209_int_gn0051973
);
 
# Leemos el fichero con las secuencias
while (my $nombre = <DATA>) {                   # por cada línea del fichero
    chomp $nombre;
    
    if ($nombre ~~ @nombres_a_buscar) {         # si el $nombre de la secuencia está dentro de las que buscamos
        my $secuencia = <DATA>;                 # leemos la $secuencia (es la línea siguiente)
        print "$nombre => $secuencia";          # y la sacamos fuera
    }
}
 
__DATA__
gn0058461_int_gn0085512
\ACAAACACAATTCACTCATCGGACCCGCTGGTTCCGGCTAC/
gn0020660_int_gn0260994
\TTAAAAATAAATAAAAATAAAGAAAATATATAAATCTATGAC/
gn0260994_int_gn0046706
\GACAACTTGGAGGAGACACCCGGCGGACCCGGAATCCAAGTC/
_int_gn0031208
\CGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTG/
gn0031208_int_gn0002121
\AAAAACAATGCGAATAGGGACGTATTAATTGCCGAATCTCT/
gn0002121_int_gn0031209
\GTGCCCGTGTATCTCTATCGAAAAAATCATATATTTTTTAGA/
gn0031209_int_gn0051973
\ATCGAGCGCAAGTTTGGAGTTCGATGTGTTTTCAGCTGTGAGC/
gn0051973_int_gn0067779
\GTGCGGACGAGTGTCTTGAGACTCTGGGCAAGCGCAGCCAGCCA/
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

Sale:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

gn0260994_int_gn0046706 => \GACAACTTGGAGGAGACACCCGGCGGACCCGGAATCCAAGTC/

_int_gn0031208 => \CGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTG/

gn0002121_int_gn0031209 => \GTGCCCGTGTATCTCTATCGAAAAAATCATATATTTTTTAGA/

gn0031209_int_gn0051973 => \ATCGAGCGCAAGTTTGGAGTTCGATGTGTTTTCAGCTGTGAGC/Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

También lo puedes hacer con hash, que es lo normal, y lo más eficiente y como lo estabas haciendo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
 
# Leemos los nombres de las secuencias a leer
my @nombres = qw(
    gn0260994_int_gn0046706
    _int_gn0031208
    gn0002121_int_gn0031209
    gn0031209_int_gn0051973
);
 
# Lo pasamos a hash, para ser más efectivo
my %nombres_a_buscar;
@nombres_a_buscar{@nombres} = (1) x @nombres;
 
# Leemos el fichero con las secuencias
while (my $nombre = <DATA>) {                   # por cada línea del fichero
    chomp $nombre;
    
    if ($nombres_a_buscar{$nombre}) {           # si el $nombre de la secuencia está dentro de las que buscamos
        my $secuencia = <DATA>;                 # leemos la $secuencia (es la línea siguiente)
        print "$nombre => $secuencia";          # y la sacamos fuera
    }
}
 
__DATA__
gn0058461_int_gn0085512
\ACAAACACAATTCACTCATCGGACCCGCTGGTTCCGGCTAC/
gn0020660_int_gn0260994
\TTAAAAATAAATAAAAATAAAGAAAATATATAAATCTATGAC/
gn0260994_int_gn0046706
\GACAACTTGGAGGAGACACCCGGCGGACCCGGAATCCAAGTC/
_int_gn0031208
\CGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTG/
gn0031208_int_gn0002121
\AAAAACAATGCGAATAGGGACGTATTAATTGCCGAATCTCT/
gn0002121_int_gn0031209
\GTGCCCGTGTATCTCTATCGAAAAAATCATATATTTTTTAGA/
gn0031209_int_gn0051973
\ATCGAGCGCAAGTTTGGAGTTCGATGTGTTTTCAGCTGTGAGC/
gn0051973_int_gn0067779
\GTGCGGACGAGTGTCTTGAGACTCTGGGCAAGCGCAGCCAGCCA/
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **Marielago** » 2011-01-21 10:38 @485

¡Genial! Ahí veré la mejor opción. Aún me cuesta un poco la magia de Perl

por **cibercop666** » 2011-10-11 15:52 @703

¡¡Hola!! ¡¡Tengo algo similar!!

Tengo 2 archivos, en uno viene solo una secuencia de aminoácidos y en el segundo hay muchas secuencias de aminoácidos en formatos FASTA.

Necesito hacer un script que haga lo mismo que un BLAST, pero sin usar módulos de BLAST, solo un script sencillo.

por **explorer** » 2011-10-11 17:33 @773

Bienvenido a los foros de Perl en español, cibercop666.

¿Puedes poner un ejemplo de lo que quieres hacer, como ha hecho Marielago?

por **cibercop666** » 2011-10-11 22:30 @979

Sí, claro... Hummm... ¿cómo lo explico?

En el archivo 1 (proteinX.txt) hay algo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>proteinX

MARNTLPSITAGEAGLNRYLDEIRKFPMLEPQQEYMLAKRYAEHGDRDAAHKLVTSHLRLVAKIAMGYRG

YGLPIGEV...Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

y en archivo 2 (Sigmas_fastaAA.txt) hay algo así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>gi|1045628|gb|AAC45314.1| RpoE [Escherichia coli]

MSEQ......

>gi|77389093|gb|ABA80278.1| sigma24, RpoE [Rhodobacter sphaeroides 2.4.1]

MTDK.....Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

etc, etc, etc.

Y entre alguna de esas secuencias está una que se asimila mucho a la del archivo 1.

Entonces, lo que quiero hacer es buscar en base a la secuencia de la proteinaX
si está presente y todos los datos (%de homología, % de GC, tamaño).

Lo que llevo es esto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

print "Este script encontrará y analizará una secuencia específica\n\n ";
print "¿Cuáles son los nombres de los Archivos a analizar?: \n";
 
 
########----1er Archivo----#####################
 
print "\tNombre del archivo con la secuencia específica:";
 
chomp($nom_archivo_1 = <STDIN>);          # Nombre de proteína por el usuario
 
open(TEXTO_A, $nom_archivo_1);            # Abrir archivo
  unless (open(TEXTO_A, $nom_archivo_1))  {
         print "No puedo abrir el archivo \"$nom_archivo_1\"!\n\n";
         exit;
        }               
 
@datos_1 = <TEXTO_A>;                     # Leer archivo
 close TEXTO_A;                           # Cerrar archivo
$secuencia_1 = &limp_fasta_1(@datos_1);
 
print "Esta es la secuencia de la secuencia a analizar\n";
print "$secuencia_1\n";
 
#################################################
 
########----2do Archivo----######################
 
print "\tNombre del archivo con las secuencias donde buscar:";
 
chomp($nom_archivo_2 = <STDIN>);          # Nombre de proteína por el usuario
 
open(TEXTO_B, $nom_archivo_2);            # Abrir archivo
   unless (open(TEXTO_B, $nom_archivo_2))  {
         print "No puedo abrir el archivo \"$nom_archivo_2\"!\n\n";
         exit;
        } 
              
@datos_2 = <TEXTO_B>;                     # Leer archivo
 close TEXTO_B;                           # Cerrar archivo
 
$secuencias_2 = &limp_fasta_2(@datos_2);
 
 
 
#################################################
#                                               #
#                 Subrutinas                    #               
#                                               #
#################################################
 
#############################################
 
sub limp_fasta_1 {
    (@datos_1) = @_;
    $secuencia_1 = '';
    foreach my $linea (@datos_1) {
    
      if ($linea =~ /^\s*$/) {       # Descartar líneas en blanco
      next;
     } elsif($linea =~ /^\s*#/) {    # Descartar comentarios de línea
      next;
     } elsif($linea =~ /^>/) {       # Descartar manejadores de línea
      next;
     } else {                       # Mantener la línea y añadirla una cadena
      $secuencia_1 .= $linea;
    }
  }
 
   $secuencia_1 =~ s/\s//g;             # Comenzar  a trabajar
   return $secuencia_1;
 }
 
   
#############################################
 
sub limp_fasta_2 {
    (@datos_2) = @_;
    $secuencia_2 = '';
    foreach my $linea (@datos_2) {
    
      if ($linea =~ /^\s*$/) {       # Descartar líneas en blanco
      next;
     } else {                       # Mantener la línea y añadirla una cadena
      $secuencia_2 .= $linea;
    }
  }
   return $secuencia_2;
 }
 
 
################################################
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

¡¡Pero no tengo idea de cómo seguirlo!! Sé que podría ser metiendo todo en hash, pero no sé cómo hacerlo.

Te agradezco tu atención y sé que podrás ayudarme.

por **explorer** » 2011-10-12 16:50 @743

Yo veo un problema en limp_fasta_1()... está despreciando las separaciones de las distintas secuencias, y uniéndolas todas en una sola...

por **cibercop666** » 2011-10-14 09:27 @435

¡je, je, je, je! Intenté resolverlo de otra manera, pero la neta creo que están de más muchas cosas. Por favor ¿podrías ayudarme a corregirlas?

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
$indexa=0;
$indexb=0;
$indexc=0;
 
########----1er Archivo----#####################
 
open(TEXTO_A, $ARGV[0]);                 # Abriri archivo
               
@datos_1 = <TEXTO_A>;                     # Leer archivo
 close TEXTO_A;                           # Cerrar archivo
 
foreach $linea_A (@datos_1){
  ($a_1, $a_2, $a_3, $a_4, $a_5, $a_6, $a_7, $a_8) = split (" ",$linea_A);
 
  @a_11[$indexa]=$a_1;
  $indexa=$indexa+1;
 
                           }
                           
########----2do Archivo----######################
 
open(TEXTO_B, $ARGV[1]);                 # Abrir archivo
   
@datos_2 = <TEXTO_B>;                    # Leer archivo
 close TEXTO_B;                          # Cerrar archivo
 
foreach $linea_B (@datos_2){
 
  ($b_1, $b_2, $b_3, $b_4, $b_5, $b_6, $b_7, $b_8) = split (" ",$linea_B);
 
  @b_11[$indexb]=$b_1;
  
  $indexb=$indexb+1;  
 
                          }
 
##################################################
 
open(TEXTO_C, $ARGV[1]);                 # Abrir archivo
   
@datos_3 = <TEXTO_C>;                    # Leer archivo
 close TEXTO_C;                          # Cerrar archivo
 
foreach $linea_C (@datos_3){
  
  $indexc=$indexc+1;  
 
                          }
                                                                           
############  Comparacion ##########################
 
$iblanco=$indexa-1;
$ifuncion=$indexb-1;
 
for ($i = 0;  $i <= $iblanco; $i++) {
        
        for ($j = 0;  $j <= $ifuncion; $j++) {
 
        print "dentro for2\t";
        print $i."\t".$j;
 
                if (@a_11[$i] =~ @b_11[$j]) {
 
                        print "SOMOS IGUALES!!!\t";
 
                                open (OUTPUT,">>salida.txt")or die "ERROR: Unable to open salida.txt File!";
                                select OUTPUT;  
#                               print @a_11[$i].@b_11[$j]."\n";
                                print @datos_3[$j];
                                close (OUTPUT);
                                select STDOUT;
 
#                       print @a_11[$i].@b_11[$j];
                
                }
 
                else {print "\tno iguales\t".@a_11[$i]."\t".@b_11[$j]."\n"}
 
        }
                                
}
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2011-10-14 10:17 @470

Estos son los errores que he encontrado:

17. Es un error escribir

@a_11[$indexa]=$a_1;

lo correcto es

$a_11[$indexa]=$a_1;
35. Tiene el mismo fallo que en la 17
49. Para saber el número de elementos de un array, no es necesario hacer ese bucle. Puedes sustituir las líneas 49 a 53 por

$indexc = @datos_3;
67. Lo mismo que antes. Lo correcto es

if ($a_11[$i] eq $b_11[$j]) {
74. Ídem:

print $datos_3[$j];

(aquí creo que te falta poner un "\n")
72 y 76. Este jaleo de select() lo puedes obviar. Solo tienes que tener claro qué quieres que se guarde en el fichero y qué quieres que salga por la pantalla.
82. Lo mismo... cambiar '@' por '$'

por **cibercop666** » 2011-10-14 22:25 @976

¡¡¡¡Muchísisisisisimas gracias!!!! ¡¡¡¡Voy a hacer los cambios y te informo!!!!

Pero otra vez: gracias.

Foro - Perl en Español

Buscar secuencias en ficheros

Buscar secuencias en ficheros

Publicidad

Re: Buscar secuencias en ficheros

Re: Buscar secuencias en ficheros

Re: Buscar secuencias en ficheros

Re: Buscar secuencias en ficheros

Re: Buscar secuencias en ficheros

Re: Buscar secuencias en ficheros

Re: Buscar secuencias en ficheros

Re: Buscar secuencias en ficheros

Re: Buscar secuencias en ficheros

¿Quién está conectado?