Foro - Perl en Español

por **Alfumao** » 2009-12-10 11:41 @528

Buenas tardes,

Me llamo Álvaro y estoy intentando aprender a programar en Perl y Bioperl para poder desarrollar programas que me ayuden en el desempeño de mi Tesis doctoral.

No tengo experiencia previa en programación (solo un poco de Basic... :S ) y me ha sido imposible encontrar cursos presenciales de Perl; además los que vi a través de este foro requieren experiencia previa... es un bucle infinito, ¡ja,ja,ja!

Lo que os decía: es que solo puedo aprender leyendo libros, y me está resultando especialmente duro (soy biólogo, no informático).
Escribo aquí por si alguien me puede ayudar con un script que me tiene completamente atascado y no soy capaz de ver la salida del túnel.

Lo que requiere este script es:

* Localizar una lista de nombres de secuencias en un archivo compuesto por secuencias en este formato (formato FASTA por si a alguien le suena) p. ej.:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>Secuencia 1

LISTADELETRASOCADENADEAMINOACIDOS

DSFUIFHOIUOIFJUJPOFDSKJFDLPOKFFDD

JSHIUHFDIJDSPOFIGDPOKJPOAIGPOKJGDColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

* Dicha secuencia se halla en un archivo tipo ".txt", entre miles de secuencias con su mismo formato, p. ej.:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>Secuencia 1

LISTADELETRASOCADENADEAMINOACIDOS

DSFUIFHOIUOIFJUJPOFDSKJFDLPOKFFDD

JSHIUHFDIJDSPOFIGDPOKJPOAIGPOKJGD

>Secuencia 2

LISTADELETRASOCADENADEAMINOACIDOS

DSFUIFHOIUOIFJUJPOFDSKJFDLPOKFFDD

JSHIUHFDIJDSPOFIGDPOKJPOAIGPOKJGD

...

>Secuencia n

LISTADELETRASOCADENADEAMINOACIDOS

DSFUIFHOIUOIFJUJPOFDSKJFDLPOKFFDD

JSHIUHFDIJDSPOFIGDPOKJPOAIGPOKJGDColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Lo que intento hacer es extraer las secuencias de mi lista y escribirlas en un fichero ".txt" aparte.

Un problema que se plantea es el parsing del nombre, yo lo parsee con estas expresiones:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my$id=~/^>[^:]+:(\S+)/
my$id=~/^>(\S+)/Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Pero fui incapaz de llegar mas allá usando unicamente Perl. Decidí usar Bioperl (no sé si en este foro puedo poner scripts de BioPerl también...) y para lograr esto tuve que crear un índice en el cual el programa busca las secuencias, lo hice con este script (pegado debajo), pero sigo sin obtener ningún resultado positivo... ojalá alguien de este foro me pueda echar una mano

Gracias por adelantado

Aquí va mi script:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/C:/perl/bin -w
use strict;
use Bio::Index::Fasta;
use Bio::SeqIO;
use IO::File;
 
#create index
print ("Enter your index name:\n");
my $index_file = 'PC92.fasta';
my $inx = Bio::Index::Fasta->new(-filename => $index_file. ".idx",
    -write_flag => 1);
$inx->make_index(@ARGV);
next;
 
print ("Enter your list name:\n");
my $id_list = <STDIN>;
 
# open the id list
open (INFILE, "$id_list")|| die ("can´t open input file");
my @ids = <INFILE>;
chop @ids;
 
# open index file
my $db = Bio::DB::Fasta->new($index_file) or die;
 
# open FASTA to write
my $out = new Bio::SeqIO (-file =>">index_extracted.fasta",-format => 'fasta');
 
# retrieve a sequence
foreach my $id (my @list) {
    if (my $id eq ''){
        die ("empty list")
    }
    if (my $id =~ /^>[^:]+:(\S+)/ ) {
        my $seqobj = my $inx->fetch($id);
        my $out->write_seq($seqobj);;
    }
    elsif ($id =~ /^>(\S+)/) {
        my $seqobj = my $inx->fetch($id);
        my $out->write_seq($seqobj);;
    }
    else {
        warn("cannot parse ID for $id\n");
    }
}
Coloreado en 0.004 segundos,  usando GeSHi 1.0.8.4

Bienvenido a los foros de Perl en Español, Alfumao.

Por estos foros hemos comentado en algunas ocasiones el trabajo con el formato FASTA. Usa el sistema de búsqueda o Google con la opción site:perlenespanol.com para encontrarlos.

Por ejemplo, del hilo Extraer un extracto de secuencia, podemos extraer la solución que buscas:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

my@nombre_secuencia;
open FICHERO,"<fasta.txt"ordie"ERROR: No puedo abrir: $!\n";
while(my$linea=<FICHERO>){# Leemos el fichero línea a línea
chomp;# Quitar el carácter fin de línea
if($linea=~/^>(.*)/){# Si la línea comienza por '>',
# capturamos lo que le sigue
push@nombre_secuencia,$1;# y lo guardamos
}
}
close FICHERO;

if(@nombre_secuencia){# Si hemos encontrado secuencias
open  SALIDA,">secuencias.txt"ordie"ERROR: No puedo escribir: $!\n";
print SALIDA join("\n",@nombre_secuencia),"\n";# Las sacamos a fichero
close SALIDA;
}Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

La expresión regular $linea =~ /^>(.*)/ quiere decir:
* Busca, desde el principio (^) de la $linea, un carácter '>'

* Captura (con los paréntesis), 0 o más (*) caracteres cualesquiera (.). Vamos, cualquier cosa, hasta el final de la $linea

El resultado de la captura del primer par de paréntesis queda almacenado en la variable especial $1, que usaremos en la línea siguiente, para guardarla en un array.

Naturalmente que puedes poner dudas sobre BioPerl, aunque quizás tardes más tiempo en obtener respuestas que si las dejas en los foros oficiales de bioinformática y/o BioPerl. Bueno, tampoco te cuesta ponerlo en los dos sitios, y así, esperar por la respuesta más rápida

por **Alfumao** » 2009-12-11 04:03 @210

Estimado Perlero,
Muchísimas gracias por tu atención y pronta respuesta

El programa que me diste cumple su cometido a las mil maravillas, pero creo que no me expliqué bien respecto a lo que realmente necesito, os pido disculpas a todos... ;S

* El programa que me has facilitado (muchísimas gracias por todas las líneas de comentario, ¡así sí que se aprende Perl, cuando te explican las cosas con ese nivel de detalle!) lo que hace es extraer los encabezamientos de todas las líneas de mi fichero FASTA, pero lo que yo necesito es extraer también toda la secuencia que viene detrás del encabezamiento. Lo más cercano que se me ocurre para expresarlo en términos informáticos es extraer todos los caracteres que van desde ">" que encabeza la secuencia hasta (sin incluirlo) el siguiente ">" que es principio de la siguiente secuencia.

* Para que se extraigan las secuencias deseadas, hay que facilitarle una lista donde se encuentran los nombres de las secuencias buscadas, que son los que han de coincidir con el nombre escrito en la primera línea de cada FASTA.

Ej.:

Tengo la lista (en un archivo txt) ej:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

100039 

100072 

100151 

100188 

100231 

100288 

100398 

100509 

100514 Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

y quiero extraer esas secuencias de un megaarchivo FASTA, donde aparte de las secuencias con esos nombres hay otras 6000 más (por poner un número representativo...)

Lo que yo creo que habría que hacer (pero soy incapaz de lograr) sería:

* Leer el Fasta (como hace tu programa) y leer también la lista (en un array).

* Hecho esto pensé en hacer un bucle que permita coger cada uno de los $ del array lista (foreach $lista (@lista)) [por ejemplo], y los busque en el archivo FASTA (usando el pattern matching que tu has definido en tu programa, por ejemplo).

* Extraer la secuencia que encaje con la de la lista (en formato FASTA completo) (SOBRE ESTE PASO NO TENGO NI LA MÁS REMOTA IDEA DE CÓMO PLANTEARLO SIQUIERA). Ej.:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>100398

LISTADELETRASOCADENADEAMINOACIDOS

DSFUIFHOIUOIFJUJPOFDSKJFDLPOKFFDD

JSHIUHFDIJDSPOFIGDPOKJPOAIGPOKJGDColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

* Y por último escribir (todas las encontradas) en el archivo de salida en formato txt (como hace tu programa con los nombres).

* PREMISA: Todos los nombres de secuencia de la lista están representados por una secuencia en el megaarchivo FASTA.

Siento mucho dar tanto la lata, pero es que realmente preferiría poder correr esta utilidad en Perl que en BIOPERL.

Un saludo y muchísimas gracias por vuestra atención (en especial a Explorer

)

por **explorer** » 2009-12-11 05:48 @283

Bueno, esta es una forma de hacerlo...

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
# Lectura del fichero de secuencias
my %es_interesante;
open  SEQ, '<seq.txt' or die "ERROR: $!\n";
while (my $linea = <SEQ>) {
    chomp $linea;
    $es_interesante{$linea} = 1;            # la almacenamos en la memoria asociativa
}
close SEQ;
 
# Lectura del fichero FASTA
my $nombre_secuencia;                       # Guarda el nombre de cada secuencia
my $secuencia = '';                         # Contenido de la secuencia interesante
 
open  FASTA, '<fasta.txt' or die "ERROR: $!\n";
while (my $linea = <FASTA>) {
    chomp $linea;
 
    if ($linea =~ /^>(.+)/) {                       # Comienzo de una secuencia nueva
 
        if ($secuencia) {                           # Si tenemos una ya leída...
            procesar_secuencia($nombre_secuencia, $secuencia);  # la procesamos
        }
 
        $nombre_secuencia = $1;                     # Nombre de la secuencia extraída desde la exp. reg.
        $secuencia = '';                            # Reiniciamos nuestra secuencia a capturar
 
        next;                                       # pasamos a la siguiente línea
    }
 
    if ($es_interesante{$nombre_secuencia}) {       # Si estamos en una secuencia interesante
        $secuencia .= $linea;                           # la guardamos
    }
}
close FASTA;
 
if ($secuencia) {                                   # Si aún queda alguna $secuencia por sacar
    procesar_secuencia($nombre_secuencia, $secuencia);  # la procesamos
}
 
sub procesar_secuencia {
    my ($nombre, $secuencia) = @_;
 
    print "$nombre : $secuencia\n";
}
 
__END__
Coloreado en 0.014 segundos,  usando GeSHi 1.0.8.4

Primero leemos la lista de secuencias interesantes, y las metemos en un hash, que nos servirá de memoria.

Luego, vamos procesando línea a línea el fichero FASTA. Si la línea empieza por '>' entonces es una secuencia nueva. Si no, se trata de una línea de secuencia normal, que almacenaremos o no según nos interese. Al principio de cada secuencia nueva o al final del bucle, procesamos la secuencia encontrada.

Naturalmente, hay más formas de hacerlo.

por **Alfumao** » 2009-12-11 06:40 @320

Hola de nuevo Explorer,

he corrido tu programa pero no había un output file en el código (o al menos yo no lo he detectado) por lo que le añadí una línea de apertura del OUTFILE en txt y otra en la subrutina con la que pretendo que cada vez a ésta obtenga un resultado positivo me lo agregue al OUTFILE.

Lo malo es que no me ha funcionado... te pongo aquí tu código con mi modificación en rojo para que me des tu opinión sobre por qué no me da ningún resultado el el archivo OUTFILE.

#!/c:/perl/bin/perl -w
# encabezamiento para correrlo en Windows
use strict;
use warnings;
use diagnostics;

# Lectura del fichero de secuencias
my %es_interesante;
open SEQ, '<Lista.txt' or die "ERROR: $!\n";
while (my $linea = <SEQ>) {
chomp $linea;
$es_interesante{$linea} = 1;
}
# la almacenamos en la memoria asociativa
close SEQ;
my $nombre_secuencia;
# Guarda el nombre de cada secuencia
my $secuencia = '';
# Contenido de la secuencia interesante

# Lectura del fichero FASTA
open FASTA, '<PC92.txt' or die "ERROR: $!\n";
while (my $linea = <FASTA>) {
chomp $linea;

#Abrimos fichero de salida
open (OUTFILE, ">>salida_lista.txt");

if ($linea =~ /^>(.+)/) {
# Comienzo de una secuencia nueva
if ($secuencia) {
# Si tenemos una ya leída...
procesar_secuencia($nombre_secuencia, $secuencia);
# la procesamos
}

$nombre_secuencia = $1;
# Nombre de la secuencia extraída desde la exp. reg.
$secuencia = '';
# Reiniciamos nuestra secuencia a capturar

next;
# pasamos a la siguiente línea
}
# Si estamos en una secuencia interesante
if ($es_interesante{$nombre_secuencia}) {
$secuencia .= $linea;
# la guardamos
}
}
close FASTA;
# Si aún queda alguna secuencia por sacar
if ($secuencia) {
procesar_secuencia($nombre_secuencia, $secuencia); # la procesamos
}

sub procesar_secuencia {
my ($nombre, $secuencia) = @_;
print OUTFILE ("@_\n");
}

__END__

PD. Mil gracias por tu ayuda (eres mejor que ningún libro para explicar los programas) y paciencia con inútiles como yo

por **explorer** » 2009-12-11 07:14 @343

Pues es raro, porque a mí sí que me funciona.

De todas formas, si la salida consiste en la misma forma que en la entrada (secuencias recortadas a un determinado ancho), entonces no te vale el programa que te dí, porque lo que hace es concentrar toda la secuencia en una sola línea.

Esta versión ya está corregida:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
# Lectura del fichero de secuencias
my %es_interesante;
open  SEQ, '<seq.txt' or die "ERROR: $!\n";
while (my $linea = <SEQ>) {
    chomp $linea;
    $es_interesante{$linea} = 1;            # la almacenamos en la memoria asociativa
}
close SEQ;
 
# Lectura del fichero FASTA
my $nombre_secuencia;                       # Guarda el nombre de cada secuencia
my $secuencia = '';                         # Contenido de la secuencia interesante
 
open  SALIDA, '>salida.txt' or die "ERROR: $!\n";
open  FASTA,  '<fasta.txt'  or die "ERROR: $!\n";
 
while (my $linea = <FASTA>) {
 
    if ($linea =~ /^>(.+)/) {                       # Comienzo de una secuencia nueva
 
        if ($secuencia) {                           # Si tenemos una ya leída...
            procesar_secuencia($nombre_secuencia, $secuencia);  # la procesamos
        }
 
        $nombre_secuencia = $1;                     # Nombre de la secuencia extraída desde la exp. reg.
        $secuencia = '';                            # Reiniciamos nuestra secuencia a capturar
 
        next;                                       # pasamos a la siguiente línea
    }
 
    if ($es_interesante{$nombre_secuencia}) {       # Si estamos en una secuencia interesante
        $secuencia .= $linea;                           # la guardamos
    }
}
 
close FASTA;
close SALIDA;
 
if ($secuencia) {                                   # Si aún queda alguna $secuencia por sacar
    procesar_secuencia($nombre_secuencia, $secuencia);  # la procesamos
}
 
sub procesar_secuencia {
    my ($nombre, $secuencia) = @_;
 
    print SALIDA ">$nombre\n$secuencia";
}
 
__END__
Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

El único cambio importante es la eliminación de la función chomp(), para que mantenga la disposición de los finales de línea. Y en la función de procesamiento, sacar el $nombre y la $secuencia, de forma apropiada.

por **Alfumao** » 2009-12-11 12:30 @562

Estimado Explorer,

Perdona la tardanza en responder, pero es que sigue saliéndome un archivo salida, completamente vacío...

Supongo:
- La lista de nombres de secuencias a buscar es el archivo que tu has llamado "seq.txt"
- El megaarchivo FASTA con todas las secuencias de proteínas es el que tu llamas "fasta.txt"

Porque he nombrado mis archivos así y sigo sin obtener nada en el archivo "salida.txt".

¿Es posible que te envíe de alguna manera los 2 archivos para que los puedas comprobar tu mismo y ver si obtienes resultado?

O enviarme tu los que has usado para probar yo con ellos...

Un saludo de nuevo y te pido mil disculpas por mi incapacidad manifiesta para hacer funcionar tu programa...

por **explorer** » 2009-12-11 12:54 @579

Si no te sale nada, es que la secuencia que aparece después del '>' no coincide con ninguno de los indicados en la lista leída.

Fíjate bien que no haya algún carácter en blanco, al final de alguno de ellos.

Yo las pruebas las hice con los ficheros que has publicado aquí, tanto el Fasta como el de la lista de secuencias.

Si, sospechas, de que se trata de caracteres extraños al final de la línea, puedes cambiar la línea 24, de

$linea =~ /^>(.+)/

a

$linea =~ /^>(.+)\s*$/

pero sería interesante ver los ejemplos en concreto.

Sí que puedes adjuntar ficheros a estas respuestas (Subir adjunto, debajo de la ventana Publicar una respuesta, cuando estás respondiendo), pero los ficheros FASTA son fáciles de resumir, así que con unas pocas líneas, vale. Lo mismo para el otro fichero.

por **Alfumao** » 2009-12-11 14:19 @638

Creo que tendré que escribirlo aquí mismo, lo pondré abreviado, es decir, solo unas pocas secuencias del FASTA y 5 identidades de secuencia, para que puedas copiarlos fácilmente a unos txt y los pruebes.

En el seq.txt (lista de identidades a buscar):

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

23766

27952

96101

101523Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

En el FASTA.txt irían:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

>98448|fgenesh3_pg.4971__1

MQGAVNSIDTATPSTPPSKPRKIVRSPYFRKSNGKRRTRQHAENVGHGHSHSDAVSPGIPSCYFKHSSSG

KLTANSTVTEVSARLLPWYDGAEFEDALPLFGVAGGERSANDQVDIALAHFTLLHDAAFSHFCSDFMRAY

RGLYDAKPILIQEYVAHDPWKLLVAVTLLNKTAGTHAVPVFLELMDAWATAHALAQVPQGVLQARIAHLG

LGRSRSERLIALSQAYCADPPVRGVMRTSRCYLDVGDGVKRQRYPPTEASHLPGSGPYALDSYRIFCAGE

DEWKAVMPRDKELVRYL

>23766|gw1.611.1.1

KWRGKLVKRKYAFGEKDVPKGESQWFKVVYGFDEPQLPSNISSPNISRVFGTNTTAFELLVLKRKIMGPC

WLQVKEPKLEHKGVSWCKVEATVSNPKDINPFAETDQQAPRGTPPLTVVSLSLRTIVNHKENNREIVCAT

ARICNAVDLDDPTPPEALPCMVRTFVRPLDRFPSNFEVRAAKNGKGVISPQKNERMLLNNLLVTIHKADP

DAIVGHEVLGVSLDVLLHRMRDLKADHWSRIGRFRRSKWPNIGRQGTNLKFMNGRLLCDLASDSAKGMIS

STTWSLTEMCKTHLKSDRQDIDPDDTASYFDSSVSSPDRLLTFVRHCELDAHYQMALAAKVQILPLTRQL

TNLAGNSWNKTLNGGRAERNEYILLHEFHRLKYICPDKLWGKKAATAEKEAHDDDAEGGKVTKSKKDKYK

GGLVFEPKRGLWDKYILVMDFNSLYPSIIQEYNIDFTTVDRAEDEVRADGEEAIPEPPSPGVGQGVLPRL

IATLVNRRRQVKSLMKDRKATQAQLLQWDIKQMALKLTANSMYGCLGFEYSRFYARPLAALTTFKGREI

>28683|gw1.3814.2.1

ISTPITELFKIKHPILLAGMNVAAGPELAAAVTNAGGLGVIGGHGYTPKFLRQQIRAVKADLKDKNAPFG

VDLLIPQVGGNARKTNKDYQNGKLPELIDIIIEEKAALFVCAVGIPPKWAVEKMHAAGIPVMNMVGHPKH

VPRALDAGVDLICAQGGEGGGHTGDVPCSLLIPACVDAVRGHTSPLTGRPVYVVGAGAVYDGRGLAANLM

WGAQGVWVGTRFVASVEAGAPKAHKDAVVRSGIDDTARTVIFTGRPLRVVRNEYVDDWNKNRQKEIDELT

ARGIIPHEEEVRKHPEKHAKAITFLTGQVAGLIHD

>28107|gw1.435.1.1

VQVALSLLDGDARAWATPYFAQLISVQIGVQGATTPFANEAAFAATFKAHFGNLDDEAAAQVELAKLCAD

KSVREKRTAAEFSALFKGPADRSGYGDLELRDKYLSGIPSRVYRKIELETFTTWRAAEKRATEVEQILDI

>38764|gw1.4610.1.1

PRYINPHYEEVKAESDAWLKGLKPFTKQSQLAFDKCDLEHLRTGCDLMNVIVVIDEYTDVESASAVREIV

DIVNDAINNPHKPRPDGESILGEMTRQFWERAIKTATPSSQKHFIEAFTDYLHSVVEQAADRDNNHIRTV

GSYLKTRRENIGARPSYVPAELGLNLPDEAFYHPVVTELSYNIAELIILDNASTISSSNHEDIVSYNKEQ

ATGDDRHNILTIVMHQFNIDLEAAMAWVASYHREVENKFLDGMKKLPSFGPAVDKELEEYVLALA

>27952|gw1.3.99.1

LNTFHYAGVSSKNVTLGVPRLKEIINVATNIKTPSLSVYLEPEIAKDKILANSVQQELAYTSLRTVTAAV

EIWYDPEPTSTIIEEDSIFVESFFAIPDDEVEQKLHLQSPWLLRLELDRAKMIDRKLTMSYVAGRIAESF

KTDLFVIWSEDNSEKLIIRCRVLGGADKDEDGMETVEEDIFLRQLENTMLNSISLRGVPGIQRVFLLEHD

KVVVTEEGSIKAHQEKEWVLETDGVNLKTVMCVEGVNFKRTYSNSCVEIFNV

>27568|gw1.1228.1.1

MLNTPQQYVLPDLLPLIPFKGSFNPHYLEAATASAAWAESYKVVPERKRTAFLQSGSELLCAHAYPYASL

EQLRTCCDFVHILFAVDEISDEQTGKDAYATGRVFLDALRYAEWNDGSAIAKMTKEFRERIMKVDVPACH

NRLFKHCESYVNAFSVEAELRERDEILDIDSYIRLRRENSAVRCCFGLFGYVLGIDLPDSIFEHP

>94555|fgenesh3_pg.1874__1

MAEIHAAATFILHGTSSTPTTAANQATASTSNTSTTVPPGMIKTEDISMIIESLSRTIATLIQPTTHATH

NHAPAPRQQAAVHIHENSGAEQTCHYCGNRGCRVGTCEFAEIDIRDGKCKRNTEGKIVLPNGSFCPRTIP

GLTIRDRIYEWHRRNPTAPAAPTMLFEIDDRSTMQTFTLNTSSRIEALERELLQLRKRREVFDGVEILQR

KKPTIPVVTRSAEASGSGTSKGVAAPSSTSTSTAPPPTIPAALPAPPSPPTQSTSQPIATSAPPAPPVHP

FANARDATYAPPNVRNFATPPKPSNDKGKEPAYKTIVPVIQPKLAEESSSVR*

>24772|gw1.722.1.1

QPDPKLRTIEGVLFNALVKVGAVSQDNADDPIKVNLGRAARTDAGVHAAGNVVSMKLITAIPGVGDLISR

VNEELPPEIRLWNVLRVQNSFNARTRKYTYFFPSYLMIPPKPGSGLFQIAQQNDGNELKHIFWNSPAPEA

TWQDDLRRKRQYRMPPEQVEALRAASRKFEGSHNFHNFTVGRDFGDRSCMRHIKSVEIADPVVYGGTEWV

SVLFHGQSFMLHQRKMMSALVLACRTGSPPQTIEEMYGPRTVFIPKMPALGLLLEYPIFDTYTRRIASVN

ENLQPSDPEYRQPIDFEVHRGAIDQFKQEHIYSRMRSIEDTEGVFDAWVRFIDSYSGNDLLYLNPKGVIP

AAAVIKKGERRDNPFREKRRFDATSFSHNAPDEVRLDEDDLDEVDEVDKSKLVDMEG

>38314|gw1.1902.1.1

VQVALSLLDGDARAWATPIFAQLAAVQIRTQGATTPFADETAFLTAFKARFGNLDDAAAAQVELNKLCAD

KTVREKHTAAEFSVLFKGPADRSRYGDLELRDKYLSGIPSRVYRKIELETFATWQAADKRATEVEQILDV

SRARRPELNSFFSAQGRGRGGARGGAP

>96101|fgenesh3_pg.187__1

MADEGPLAPNQFTFAALFRGLSWRRATSGGPEAQAAMCARNASDVKLLWRQMLKIAEKNPQFEFDSHLIT

PAISALASGSPSDQLFAFDIVRDYLGLTKPGETPQPPRVQLSTHLLGEVLYLCNSSQKYRLGVHFFRQVV

DHPDNRAIITHRHVETVIKLFAGMSMMGSDEASAQALETLEWLLQEEASARNAGDLRPTITTFSLVLNVC

WRNGDWASATRTFELMTGYNPDDFADGSRVKEPEMQKRSPGRNIKLDTPAMAHIAHTALASQELANMRQC

LRIIDHIGAERLLHRPKALVDQSRSSQFMNDLEYYLAKLAKDLMEIVDEVVAKEPEMCSEEERERWKKIK

SQAKECRRYARPTRTPHTEESPLGSQRGLDATASAVDQEFSVRRTLRPSRLCMVHAYLVRRFHVTVKYPS

NLQSSTLGTHATDIGRSCISDTGRSPEMGLENAGDGGTNASSETAIDTGWYAPPGESPLIRPTVDMVFIG

IGATRPGALRARVLPRALRRKKYTAPATTSRISTSALNAMSASTAGIKLLTRSRDVMTSLESATVVEPEP

EVVVLAALGLVGIDQGEEFDVWVAHLARRVVVAKVIDGVNGTQDVVADQPVTIRMFCDHTFCKARSTYNS

PPPTETDWGINVPTQVDESLTKASDNDGIPKLQGDVDFGITGHNPLP*

>92226|fgenesh3_pg.2543__1

MRFVQRAASVSRTWRTTALNTSALWGTVVITRPRAPPLTVLTTLLERSRGAQLDIFLDLYHTGPRRQNVQ

RQDGPTYIKDAMQLLRQHIQRWRSLDLTWGMAFQWSDELDYMYGPFLTGTADALKSLHLSCVCRFIHQDD

VQRCDFTKGLSAPNLRSLDLDVPSATDLNSSKVTARFPSIQELRWRENCKPRWFHNSMDFMRMLGPLRDL

RHLTLDNVEVEDVKNEPLDDDEALVCLPALETLTFCDTNFATIRDMLSIVTAPQLRDLTILNLIHEDETA

SFHAFWQQPRRFPLLRTLNLEYNVDGLTIEELIDLWHHFQFFRSARIIHTFARDSNDFSMEDVLEVLSNA

QEDGRWLFPSLTSVAIYSKSNLATDGLRQLVGNRQETETEVPDIGVTGLQTLKIYAPAMVHSTDSDYFVQ

NLRHFDWIQGKPPPGCDKQHLSMASWAMQLTVYLRLMR*

>101523|fgenesh3_pg.260__1

MVRLLSNFIIPRCLHVPDEAEQPDWDMNVLVIPSERMNGYMRITAQPGEVVFDINLGKLMDGLPQLDAIL

SAPTFDGLTDVDVDVRILDGPDAERDEELAHELRLCLPRLDARVNLAIGFNGILYAARRARRPPFSRRRL

SRIGLDWDEDAGKLRCHRIERVSAQDAVVANEETSAEDDRCTNNATTGRILHEAAAYVDAERPSSSNPMD

ARVPSQPVCDDEPVPPHATAGLGMSVDISAPDNHDDELSALPGSVA*Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Ojalá con estos datos se pueda solucionar el problema...

Mil gracias de nuevo por tu atención

por **explorer** » 2009-12-11 18:31 @813

Claro... lo que sigue a '>' NO coincide con la lista que se lee...

98448|fgenesh3_pg.4971__1

El número (98448) está acompañado de algo más: |fgenesh3_pg.4971__1

Si, suponemos, la secuencia está compuesto de un número, seguido de algo más, se puede cambiar la expresión regular por

$linea =~ /^>(\d+)/

De esa manera estamos buscando uno o más dígitos (\d+).

Foro - Perl en Español

Problema sobre utilidades de Perl y BioPerl

Problema sobre utilidades de Perl y BioPerl

Publicidad

Re: Problema sobre utilidades de Perl y BioPerl

Re: Problema sobre utilidades de Perl y BioPerl

Re: Problema sobre utilidades de Perl y BioPerl

Re: Problema sobre utilidades de Perl y BioPerl

Re: Problema sobre utilidades de Perl y BioPerl

Re: Problema sobre utilidades de Perl y BioPerl

Re: Problema sobre utilidades de Perl y BioPerl

Re: Problema sobre utilidades de Perl y BioPerl

Re: Problema sobre utilidades de Perl y BioPerl

¿Quién está conectado?