Obtener el número de veces que aparecen las secuencias
Publicado: 2014-12-20 19:18 @846
Buen día tengan todos en el foro.
Solicito de su amable ayuda. Estoy iniciando en esto del lenguaje de programación Perl con el objetivo de realizar tareas automatizadas y es por ese hecho que me cuesta trabajo entender algunos algoritmos.
En mi tiempo libre leo y complemento la lectura con algoritmos básicos. Aun así me falta mucho para llegar a donde quiero.
Dejando a un lado eso describo mi "problema": Necesito buscar secuencias cortas (alrededor de 20 caracteres) en un archivo plano (txt, fasta o fastq) el cual puede o no contener las secuencias que busco. Ya he realizado este trabajo usando textpad para lo cual en búsqueda pongo la secuencia que deseo buscar y selecciono el archivo donde la va a buscar. Cabe mencionar que son alrededor de 2000 secuencias que debo buscar. Aun así he avanzado en el trabajo en un 30 % o 40 %.
Me ayudaría mucho tener orientación en algoritmos o temas que me ayuden a lo siguiente: quiero que a partir de un archivo secuencias.txt (contiene las secuencias que deseo buscar separadas por saltos de línea) busque en el archivo bibliotecas.txt o .fast o .fastq (contiene información de la secuenciación) las veces que aparece cada una de las secuencias del archivo secuencias.txt y que el resultado lo almacene en un archivo resultado.txt con la misma información del archivo secuencias.txt solo que con el número de veces que aparece separada por espacio o tabulación.
Sé muy bien que es mucho lo que estoy pidiendo pero ya no quiero seguir con el método del textpad pero confío en su ayuda para orientarme a los temas que me ayudarán a resolver mi problema.
Espero haberme explicado bien lo que deseo. De antemano, gracias.
Este es parte del contenido del archivo secuencias.txt
Este es parte del contenido del archivo bibliotecas.txt
Este sería parte del contenido del archivo resultado.txt
Solicito de su amable ayuda. Estoy iniciando en esto del lenguaje de programación Perl con el objetivo de realizar tareas automatizadas y es por ese hecho que me cuesta trabajo entender algunos algoritmos.
En mi tiempo libre leo y complemento la lectura con algoritmos básicos. Aun así me falta mucho para llegar a donde quiero.
Dejando a un lado eso describo mi "problema": Necesito buscar secuencias cortas (alrededor de 20 caracteres) en un archivo plano (txt, fasta o fastq) el cual puede o no contener las secuencias que busco. Ya he realizado este trabajo usando textpad para lo cual en búsqueda pongo la secuencia que deseo buscar y selecciono el archivo donde la va a buscar. Cabe mencionar que son alrededor de 2000 secuencias que debo buscar. Aun así he avanzado en el trabajo en un 30 % o 40 %.
Me ayudaría mucho tener orientación en algoritmos o temas que me ayuden a lo siguiente: quiero que a partir de un archivo secuencias.txt (contiene las secuencias que deseo buscar separadas por saltos de línea) busque en el archivo bibliotecas.txt o .fast o .fastq (contiene información de la secuenciación) las veces que aparece cada una de las secuencias del archivo secuencias.txt y que el resultado lo almacene en un archivo resultado.txt con la misma información del archivo secuencias.txt solo que con el número de veces que aparece separada por espacio o tabulación.
Sé muy bien que es mucho lo que estoy pidiendo pero ya no quiero seguir con el método del textpad pero confío en su ayuda para orientarme a los temas que me ayudarán a resolver mi problema.
Espero haberme explicado bien lo que deseo. De antemano, gracias.
Este es parte del contenido del archivo secuencias.txt
Using text Syntax Highlighting
TTGGACTGAAGGGAGCTCCCT
AGGCAGCTCTCCTCTGGCAGG
TGAAGTGTTTGGGGGAACTC
TGCAGTTGCTGCCTCAAGCTT
TTTGGAGTGAAGGGAGCTCTG
AATGGAGGCTGATCCAAGATC
GTGAAGTGTTTGGGGGAACTC
AGGCAGCTCTCCTCTGGCAGG
TGAAGTGTTTGGGGGAACTC
TGCAGTTGCTGCCTCAAGCTT
TTTGGAGTGAAGGGAGCTCTG
AATGGAGGCTGATCCAAGATC
GTGAAGTGTTTGGGGGAACTC
Coloreado en 0.000 segundos, usando GeSHi 1.0.8.4
Este es parte del contenido del archivo bibliotecas.txt
Using text Syntax Highlighting
3:1:1619:956 CGGGGGCGCCCCCGCCCCCCCCCCCCCCCCCCCCCC 40 40 40 40 40 40 18 4 40 34 7 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 N
3:1:1333:1700 GTTGTAGTATAGTGGTAAGTATTCCCGCTGTAGGCA 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 Y
3:1:1745:1406 ACCCCCCCCCCCCCCCCCCCACCCCAACAACCAACA 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 10 40 3 40 40 40 40 33 40 40 40 40 40 40 40 40 N
3:1:1181:2030 GTCTTGAATCAAAATAATTTCTGTAGGCACCCTCCC 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 10 18 Y
3:1:900:1829 GTGTTTTATCTTACCGTAGAAATTCTGTAGGCACCA 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 Y
3:1:1333:1700 GTTGTAGTATAGTGGTAAGTATTCCCGCTGTAGGCA 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 Y
3:1:1745:1406 ACCCCCCCCCCCCCCCCCCCACCCCAACAACCAACA 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 10 40 3 40 40 40 40 33 40 40 40 40 40 40 40 40 N
3:1:1181:2030 GTCTTGAATCAAAATAATTTCTGTAGGCACCCTCCC 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 10 18 Y
3:1:900:1829 GTGTTTTATCTTACCGTAGAAATTCTGTAGGCACCA 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 Y
Coloreado en 0.000 segundos, usando GeSHi 1.0.8.4
Este sería parte del contenido del archivo resultado.txt