Foro - Perl en Español

por **Biokari** » 2009-03-30 14:14 @634

Soy nueva por acá y he entrado justamente porque necesito ayuda en cuanto a Perl y un programa que estoy creando.

Debo decir que estoy empezando en esto y estoy un poco perdida, espero no hacer preguntas muy tontas (aunque creo que así será de todas formas).

Estoy empezando a hacer un script que tiene como finalidad tomar un archivo de nucleótidos en formato fasta y ordenarlos en una matriz. En realidad la idea es abrir el archivo, seleccionar los nucleótidos cambiar los nucleótidos por números (o caracteres como quieran llamarlo) que dé la ubicación de estos nucleótidos, de esta manera:

(el archivo en formato fasta tiene esta cara):

Código: Seleccionar todo: >sequence1 ggg---gaag >sequence2 ggg---gaag >sequence3 gggcaggaag >sequence4 ggg------g >sequence5 ggggaacagg

Y yo transformo estas secuencias en esto (su ubicación):

Código: Seleccionar todo: A1 A2 A3 A{3-4} A{3-4} A{3-4} A4 A5 A6 A7 B1 B2 B3 B{3-4} B{3-4} B{3-4} B4 B5 B6 B7 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 D1 D2 D3 D{3-4} D{3-4} D{3-4} D{3-4}D{3-4} D{3-4} D4 E1 E2 E3 E4 E5 E6 E7 E8 E9 E10

Por ejemplo: A1 en la primera línea corresponde a g de la primera secuencia, y A2 a la segunda g y así sucesivamente, y cuando hay un “-“ la idea es decir que esta ausencia de nucleótido está en A entre 3-4 por eso se marca “A{3-4}“ y se repite hasta que nos encontramos con otro nuevo nucleótido y se continua el conteo.

Bueno esto es para que entiendan un poquito lo que quiero hacer.

Tengo un script que hace lo que acabo de decirles; quizás no es lo más óptimo pero me resulta por lo menos jejejeje, si alguien tiene una idea de algo mejor. El script es el siguiente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl -w

use strict;

#declaración de variables
my($file,$data,$fastaHeader,$nameSeq,$Seq,$cpt,$substitute,$resultat,$fileName,@data,@substitute,$col,$numCols,@rowMatrix,@matrix,$numRows,$row,@resultat,$rowMatrix);
#función para borrar el fichero con los datos viejos
sub deleteResults {
$file="Results.txt";
unlink($file);
}

#función para abrir el fichero
sub openFile {
open FD,"$fileName"ordie"File not found\n";
@data=<FD>;
close FD;
}

#función para escribir en mi fichero de texto el nombre de la secuencia
sub changeData {
foreach$data(@data){#para cada valor de @data lo guarda en $data
if($data=~/(>.*)/){#si comienzo por '>', toma el carácter y todo lo que le sigue
$fastaHeader=$1;#guardar en la misma variable $fastaHeader
print$fastaHeader;#imprimir en la consola
open(FH,">>Results.txt");#crear el fichero resultado, si no existe (esto depende de la función deleteResult)
print FH $fastaHeader;#imprime en el fichero
close FH;
}
if($data=~/>(.*)/){# aquí tomo el título sin el '>' para guardar en mi fichero de texto la posición de las secuencias
$nameSeq=$1;
}
if($data=~/([atgc-]*)/){#busco las secuencias
$Seq=$1;
print"$Seq\t";#imprime en el fichero
open(FH,">>Results.txt");#escribo en el fichero de resultados
print FH "$Seq\t";#imprimo las secuencias en el fichero y bajo el título
close FH;
}

$cpt=0;# contador para las secuencias inicializado a cero
@substitute=split(//,$Seq);#tomo $seq y le divido en mi arreglo $substitute, las // sirven para tomar las secuencias y no los otros caracteres
foreach$substitute(@substitute){#para cada element0 $substitute del arreglo @substitute...
if($substitute=~/([atgc])/){#si este elemento corresponde a un atgc...
$cpt+=1;#comienzo mi contador a partir de 1 y siguientes 1+1=2+1=3+1...
$resultat=$nameSeq."-".$cpt."; ";#mi resultado = nombre de la secuencia+un guión+le contador+";" como esto: "sequence1-1;"
}
else{
if($substitute=~/([-])/){#pero si encuentro un gap
$resultat=$nameSeq."-{".$cpt."-".($cpt+1)."}; ";#mi resultado = nombre secuencia+un guión+(contador+guión+contador+1)+";".
}
}

print$resultat;
open(FH,">>Results.txt");# escribir en el fichero resultado los $resultat 
print FH "$resultat\t";#apuntar en el fichero de texto
close FH;
}
print"\n";#esto es para apuntar la segunda secuencia en la segunda línea para el segundo bucle
open(FH,">>Results.txt");
print FH "\n";
close FH;
}

}


&deleteResults();

$fileName="Alignement1.txt";
&openFile();
&changeData();Coloreado en 0.006 segundos,  usando GeSHi 1.0.8.4

Bueno, este script me da lo que les mostré, pero lo que quiero es poner esto en una matriz de 2 dimensiones para poner tener líneas y columnas, porque en este ejemplo les mostré 5 secuencias alineadas (5 secuencias 1 alineamiento) y lo que debo hacer es trabajar con varios alineamientos, ¡¡¡¡¡¡¡y compararlos!!!!!!!!.

Yo había pensado poner, después de obtener mi variable $resultat lo siguiente:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

for($col=0;$col<$numCols;$col++){
push@rowMatrix,"0";
}
for($row=0;$row<$numRows;$row++){
push@resultat,[@rowMatrix];
print@rowMatrix;
}
print"\n";
}Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Pero claro. que no me resulta y por eso mi presencia acá. A lo mejor ni siquiera es una buena idea, pero es que no sé qué hacer ¡¡¡¡y ya estoy volviéndome loca!!!! Seguramente es algo simple, pero yo solo conozco Perl desde hace poco.

Perdón lo largo de mi post pero quería ser lo mas clara posible.

Espero que alguien me pueda ayudar.

¡¡¡¡¡Muchas gracias de antemano!!!!!

P.D.: Ah. lo olvidaba perdón por poner los comentarios, pero están en francés; es que estudio acá en Francia.

Bienvenida a los foros de Perl en Español, Biokari.

Esta es una posible solución.

Como parece que lo que interesa es generar una estructura bidimensional, he quitado la parte de guardar el resultado intermedio a fichero. Y a los elementos les he quitado el "; " final.

Con este programa, entonces,

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;

## Constantes
my$fichero_fasta='kk.txt';

## Variables;
my@fichero_fasta;
my@matriz;

#### Procedimiento general

abrimos_fichero();

generamos_matriz();

use Data::Dumper::Names;
print Dumper \@matriz;


#### Subrutinas
## Abrimos el fichero
sub abrimos_fichero {
open FASTA,'<',$fichero_fastaordie"No pude leer el fichero $fichero_fasta: $!\n";
chomp(@fichero_fasta=<FASTA>);
close FASTA;
}

## Generamos la matriz
sub generamos_matriz {

## Bucle por las líneas
my$nombre_seq;
formy$linea(@fichero_fasta){

if($linea=~/^>(\w+)/){
$nombre_seq=$1;
next;
}

if($linea=~/^([atcg-]+)/){
## Bucle por las columnas
my$contador;
my@columnas;
formy$columna(split//,$1){

if($columna=~/[atcg]/){

$contador++;

push@columnas,"$nombre_seq-$contador";
}
else{
push@columnas,"$nombre_seq-{$contador-@{[$contador+1]}}";
}
}

push@matriz,\@columnas;
#print "@columnas\n";
}
}
}

__END__Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

con el fichero de ejemplo anterior, sale:

Código: Seleccionar todo: @matriz = ( [ 'sequence1-1', 'sequence1-2', 'sequence1-3', 'sequence1-{3-4}', 'sequence1-{3-4}', 'sequence1-{3-4}', 'sequence1-4', 'sequence1-5', 'sequence1-6', 'sequence1-7' ], [ 'sequence2-1', 'sequence2-2', 'sequence2-3', 'sequence2-{3-4}', 'sequence2-{3-4}', 'sequence2-{3-4}', 'sequence2-4', 'sequence2-5', 'sequence2-6', 'sequence2-7' ], [ 'sequence3-1', 'sequence3-2', 'sequence3-3', 'sequence3-4', 'sequence3-5', 'sequence3-6', 'sequence3-7', 'sequence3-8', 'sequence3-9', 'sequence3-10' ], [ 'sequence4-1', 'sequence4-2', 'sequence4-3', 'sequence4-{3-4}', 'sequence4-{3-4}', 'sequence4-{3-4}', 'sequence4-{3-4}', 'sequence4-{3-4}', 'sequence4-{3-4}', 'sequence4-4' ], [ 'sequence5-1', 'sequence5-2', 'sequence5-3', 'sequence5-4', 'sequence5-5', 'sequence5-6', 'sequence5-7', 'sequence5-8', 'sequence5-9', 'sequence5-10' ] );

que como ves es un arreglo que contiene arreglos (bueno, referencias a arreglos anónimos, pero podemos pensar en arreglos de arreglos).

La forma de crear la matriz es generando espacio para guardar las columnas de cada línea, en una nueva variable @columnas, en cada bucle: en la @matriz vamos guardando una referencia a esa variable (con el push()). Al finalizar el contexto del if() donde se declaró @columnas, ésta debería desaparecer, pero no lo hace porque está siendo usada por @matriz. En el siguiente bucle, se genera una nueva @columnas para guardar los nuevos valores de la siguiente línea.

Vamos, es lo mismo que hacíamos en lenguaje C y en cualquier otro en que necesitábamos reservar memoria cada vez que necesitábamos guardar algo nuevo.

Otra opción es como la que comentabas: en vez de

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

push@matriz,\@columnas;Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

lo puedes cambiar por

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

push@matriz,[@columnas];Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

El resultado es el mismo, pero en este segundo caso estamos creando un arreglo anónimo y metiendo en él todos los valores de @columnas (una copia de ellos). Y luego el arreglo se "mete" dentro de @matriz. Es un poco más de trabajo para la máquina, pero inapreciable por nosotros.

por **Biokari** » 2009-03-31 07:29 @353

¡¡¡¡Muchas gracias, explorer, por responder a mi post!!!!

Bueno, lo leí y mi problema es que no sé para qué sirve use Data::Dumper::Names;.

Y en la terminal me anuncia un error por lo que no puedo ejecutar el programa. El error dice:

Código: Seleccionar todo: Can't locate Data/Dumper/Names.pm in @ INC <@INC contains: C:/Perl/lib C:/Perl/site/lib .> at xxxx.pl line 17

La linea 17 es justamente

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

use Data::Dumper::Names;Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

por **explorer** » 2009-03-31 07:36 @358

Es un módulo para presentar la salida que te pongo en mi mensaje.

El error dice que no lo tienes instalado, lo cual es normal.

Si quieres ver el contenido de @matriz, cambia ese módulo por el Data::Dumper, que sí que lo tienes.

por **Biokari** » 2009-03-31 08:03 @377

Estaba leyendo lo que hace ese módulo y entendí un poco lo que hace; además que también entendí que no lo tengo; mi pregunta es... ¿¿¿debo instalarlo??? y el problema es que no sé cómo hacerlo, prrrrr, perdón por ser tan básica. Durante el tiempo en que he tratado de trabajar con Perl me he encontrado con varios de estos "módulos" y no sé cómo trabajar con ellos. Sé que se declaran de la manera que tu lo haces en el script, pero no se nada más.

Para ver el contenido le puse en comentarios:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#use Data::Dumper::Names;
#print Dumper \@matriz;Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

y lo copie a un archivo texto para verlo mejor, y sí lo vi, jejeje, es que no entendí eso de "Si quieres ver el contenido de @matriz, cambia ese módulo por el Data::Dumper, que sí que lo tienes". O sea, ¿el Data::Dumper lo tengo o no al final? Como dices que es normal que el error diga que no lo tenga...

Otra pregunta: ¿por qué pusiste al final del script el $print "@columnas\n"; en comentario?

¡Eh! Eso, vas a tener que tener paciencia conmigo

espero no colmártela muy rápido.

¡¡¡¡¡¡¡Y muchas gracias!!!!!!

por **explorer** » 2009-03-31 10:57 @498

El módulo Data::Dumper suele venir instalado con el Perl de tu sistema, por eso dije que ya lo tenías.

El módulo Data::Dumper::Names funciona igual que el Data::Dumper, pero ofrece salidas más bonitas.

Cuando te dije que lo cambiaras me refería a que editaras la línea que pone

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

use Data::Dumper::Names;Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

y la cambiaras a

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

use Data::Dumper;Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Solo eso.

Data::Dumper sirve muy para cuando tienes que "ver" una estructura de datos compleja.

Para instalar un módulo, depende de tu sistema operativo. Mira este otro mensaje que lo explica.

por **Biokari** » 2009-03-31 12:05 @545

Para que no creas que soy floja (jajaja) mientras esperaba una respuesta, me hice un lindo curso de instalación de módulos, jejeje. Bueno, logro instalar cualquier módulo menos el de Data::Dumper. Me dice que no retorna resultado, pero por tu respuesta veo porqué: ya estaba instalado :oops:

Bueno, cambié Data::Dumper::Names por Data::Dumper y claro, ahora sí logro ver la matriz, pero aún no sé por qué no puedo usarlo con Data::Dumper::Names.

¡¡¡¡Gracias!!!!

por **explorer** » 2009-03-31 17:45 @781

Tampoco pasa nada porque no lo instales. ¿Qué error te sale?

por **Biokari** » 2009-04-01 03:47 @199

El error que me sale en mi consola de comandos cuando utilizo Data::Dumper::Names es:

Código: Seleccionar todo: BEGIN failed—compilation aborted at xxx.pl line 17 (#1) (F) You said to do (or require, or use) a file that couldn’t be found. Perl looks for the file in all the locations mentioned in @INC, unless the file name included the full path to the file. Perhaps you need to set the PERL5LIB or PERL5OPT environment variable to say where the extra library is, o maybe the script needs to add the library name to @INC. Or maybe you just misspelled the name of this file. See perlfunc/require and lib. Uncaught exception from user code:

Por eso pensé que necesitaba instalar Data::Dumper::Names, pero como te dije antes me sale un error de "don't return results" como si ese módulo no existiera. Pero si pido "install Data::Dumper" me da como 4 opciones y una de esas es el módulo "Data-Dumper" escrito de esa manera. Y se supone que está instalado. Luego pensé, por tu respuesta, que quizás me salia error porque decías que ya venía en Perl.

Ahora, como decía anteriormente, si solo pongo Data::Dumper me sale la matriz sin problemas.

por **explorer** » 2009-04-01 04:01 @209

Como me parece que todavía estás en Windows (¡qué locura!) supongo también que estarás usando el ActivePerl.

Repasa este manual para agregar el repositorio trouchelle.com al PPM, que sí que existe ahí ese módulo.

Además, te servirá para tener acceso a miles de módulos más.

Foro - Perl en Español

Ayuda con matrices de 2 dimensiones

Ayuda con matrices de 2 dimensiones

Publicidad

¿Quién está conectado?