Ahora he entendido un poco más lo que estoy haciendo y me he dado cuenta de que me he explicado mal, muy mal.
El tema es que estoy trabajando secuenciando ciertos genes del genoma humano con
Illumina y toda mi experiencia previa con la bioinformática ha sido con temas estructurales de proteínas procariotas con lo que estoy un poco perdido.
Según he entendido,
miseq genera un archivo bed que te viene a decir lo fiable que es la secuencia en función del número de
reads:
Using text Syntax Highlighting
chr1 11845753 11845846 LOW_COVERAGE
chr1 11845856 11846102 CALLABLE
chr1 11846102 11846209 LOW_COVERAGE
chr1 11846209 11846508 CALLABLE
chr1 11846522 11846718 LOW_COVERAGE
Coloreado en 0.000 segundos, usando
GeSHi 1.0.8.4
Estos fragmentos se corresponden con los amplicones de la pcr, pero no son siempre exones. A veces un exón lo amplifican en un solo amplicón, pero hay exones que son tan grandes que necesitan dos amplicones.
En el curro ellos miran estos datos cargando el bed en el clc bio y con el ratón recorren todo el gen buscando qué exones están en zona LOW_COVERAGE o NO_CALLABLE para resecuenciar estos exones por Sanger.
Había pensado en hacer un escriptillo que me escupiera qué exones de qué genes hay que repetir.
Y he aquí mi problema: no tengo ni idea de cómo obtener de forma automática las posiciones de cada exón, para luego poder compararlas con mi archivo bed y sacar un resultado tipo:
Exon1_VWF
Exon35_VWF
Exon3F8
...
He
googleado y he visto que te puedes bajar del USCGB una tabla con los exones del genoma humano, pero no están nombrados del tipo exon1, exon2, etc. Podría hacerlo yo, numerándolos en función de sus coordenadas y de si están en la cadena, + o -. Pero en el clc bio sí que están numerados así, y de algún sitio lo tiene que sacar.
Mi duda no es con el código realmente, porque para empezar necesito saber cómo obtener los datos donde se indique que, por ejemplo, para el gen XXX el exon1 va de la posición 11845753 a la 11845846.
Puse el mensaje en el foro con la esperanza de que algún perlero que haya trabajado con esto supiese qué hacer, pero con lo mal que me he explicado, dudo que nadie haya entendido nada.
De todos modos con la tabla del USCGB y con un
script bastante más largo y tedioso de lo que tenía pensado, puedo hacerlo.
Gracias y perdonar por el rollazo.