Página 1 de 1

Identificar regiones del genoma por coordenadas

NotaPublicado: 2015-12-16 01:02 @084
por Peich69
Hola

Tengo un archivo con coordenadas de ciertos cromosomas:
Sintáxis: [ Descargar ] [ Ocultar ]
Using text Syntax Highlighting
chr1    11845753        11845846       
chr1    11845856        11846102       
chr1    11846102        11846209       
chr1    11846209        11846508       
chr1    11846522        11846718
Coloreado en 0.000 segundos, usando GeSHi 1.0.8.4

Estas coordenadas se corresponden con exones de diferentes genes. Necesito relacionar cada posición con el exón y el gen correspondiente, para imprimir algo como:
Sintáxis: [ Descargar ] [ Ocultar ]
Using text Syntax Highlighting
chr1    11845753        11845846        Exon1_GenX
chr1    11845856        11846102        Exon2_GenX
chr1    11846102        11846209        Exon3_Genx
chr1    11846209        11846508        Exon1_GenY
chr1    11846522        11846718        Exon2_GenY
Coloreado en 0.000 segundos, usando GeSHi 1.0.8.4

Manualmente lo haría yendo al NCBI o al UCSC Genome Browser, pegando las coordenadas en el buscador y anotando el exón correspondiente.

Mi intención era buscar una forma de hacer esta consulta usando una URL que devuelva un archivo que contenga la información que busco y luego capturarla vía regex, pero no consigo encontrar la forma de crear esta URL.

¿Alguien sabe cómo puedo hacerlo?

Gracias

Re: Identificar regiones del genoma por coordenadas

NotaPublicado: 2015-12-16 04:12 @216
por explorer
Faltan datos... ¿puedes poner un ejemplo para una entrada concreta?

Re: Identificar regiones del genoma por coordenadas

NotaPublicado: 2015-12-16 11:46 @532
por Peich69
No sé a qué te refieres, explorer.

Re: Identificar regiones del genoma por coordenadas

NotaPublicado: 2015-12-16 15:52 @702
por explorer
Pues que me faltan muchos detalles para siquiera escribir la primera línea del programa :D

¿Qué URL quieres formar y cómo? Nos dices que hay que "pegar" las coordenadas, pero ¿cómo, exactamente?

¿Ejemplo de la respuesta de la petición? ¿Qué información nos interesa de todo lo que nos devuelve?

Re: Identificar regiones del genoma por coordenadas

NotaPublicado: 2015-12-17 14:05 @628
por Peich69
Ahora he entendido un poco más lo que estoy haciendo y me he dado cuenta de que me he explicado mal, muy mal.

El tema es que estoy trabajando secuenciando ciertos genes del genoma humano con Illumina y toda mi experiencia previa con la bioinformática ha sido con temas estructurales de proteínas procariotas con lo que estoy un poco perdido.

Según he entendido, miseq genera un archivo bed que te viene a decir lo fiable que es la secuencia en función del número de reads:
Sintáxis: [ Descargar ] [ Ocultar ]
Using text Syntax Highlighting
chr1    11845753        11845846        LOW_COVERAGE
chr1    11845856        11846102        CALLABLE
chr1    11846102        11846209        LOW_COVERAGE
chr1    11846209        11846508        CALLABLE
chr1    11846522        11846718        LOW_COVERAGE
 
Coloreado en 0.000 segundos, usando GeSHi 1.0.8.4


Estos fragmentos se corresponden con los amplicones de la pcr, pero no son siempre exones. A veces un exón lo amplifican en un solo amplicón, pero hay exones que son tan grandes que necesitan dos amplicones.

En el curro ellos miran estos datos cargando el bed en el clc bio y con el ratón recorren todo el gen buscando qué exones están en zona LOW_COVERAGE o NO_CALLABLE para resecuenciar estos exones por Sanger.

Había pensado en hacer un escriptillo que me escupiera qué exones de qué genes hay que repetir.

Y he aquí mi problema: no tengo ni idea de cómo obtener de forma automática las posiciones de cada exón, para luego poder compararlas con mi archivo bed y sacar un resultado tipo:

Exon1_VWF
Exon35_VWF
Exon3F8
...

He googleado y he visto que te puedes bajar del USCGB una tabla con los exones del genoma humano, pero no están nombrados del tipo exon1, exon2, etc. Podría hacerlo yo, numerándolos en función de sus coordenadas y de si están en la cadena, + o -. Pero en el clc bio sí que están numerados así, y de algún sitio lo tiene que sacar.

Mi duda no es con el código realmente, porque para empezar necesito saber cómo obtener los datos donde se indique que, por ejemplo, para el gen XXX el exon1 va de la posición 11845753 a la 11845846.

Puse el mensaje en el foro con la esperanza de que algún perlero que haya trabajado con esto supiese qué hacer, pero con lo mal que me he explicado, dudo que nadie haya entendido nada.

De todos modos con la tabla del USCGB y con un script bastante más largo y tedioso de lo que tenía pensado, puedo hacerlo.

Gracias y perdonar por el rollazo.

Re: Identificar regiones del genoma por coordenadas

NotaPublicado: 2015-12-19 04:23 @224
por explorer
Para el primer problema, yo lo que haría sería leer el archivo, línea a línea, sacar con split los datos de cada columna, confeccionar la URL, pedirle (por ejemplo, con el get() del LWP::Simple), y luego, según la complejidad de la página, usaría alguna expresión regular o el módulo Mojo::DOM.

En este subforo hay algún hilo donde se ve código para extraer información de archivos con datos en columnas.

Es lo que puedo responderte con lo que nos has contado. Si nos dieses un ejemplo concreto, estaría un poco más claro (quizás porque yo no soy bioinformático ;) )