Foro - Perl en Español

por **igarrom** » 2014-05-21 09:16 @428

Hola, explorer.

Muchísimas gracias por todo el esfuerzo que has dedicado a resolver el problema y disculpa la demora en contestar pero no he podido probarlo hasta hace unos días. He visto algo raro a lo que no soy capaz de encontrar explicación. En mi archivo real, el organismo A tiene unos 4000 genes y las asociaciones se imprimen bien hasta llegar al gen "Gene_153", el cual empieza a imprimirse de forma infinita tal que así:

Gene_153
Gene_153
Gene_153
Gene_153
Gene_153
Gene_153
Gene_153
Gene_153
Gene_153
Gene_153
Gene_153
...

No sé a qué puede deberse eso, por más que veo el código no se me ocurre qué puede estar provocando este error.

Un saludo y gracias de nuevo,

Inma

Pues no lo sé. Las pruebas las hice con los archivos que mandaste.

Si el programa entra en un bucle infinito es porque está mal hecho, desde luego.
O la entrada de datos no es conforme a lo que se indicó.
O quizás con 4000 genes, se agota la memoria reservada (hay una subrutina que se ejecuta de forma recursiva, y eso consume memoria).

Ya que vemos salida en pantalla, el error podría estar en el bucle for de la línea 104, si no se eliminan los ortólogos analizados (el delete de la línea 116), por lo que el while de la línea 120 siempre se ejecuta.

por **Alfumao** » 2014-07-16 07:37 @359

igarrom escribiste:Hola, explorer.

En la mayoría de los casos si A está relacionado con B, B está relacionado con C, y C está relacionado con D, A estará relacionado con C y con D y B con D. Pero cabe la posibilidad de que no sea así.

Hemos considerado ortólogas dos proteínas cuando en el "Reciprocal Best-Hits BLAST" o blast cruzado, el alineamiento ha tenido una identidad mayor del 30% y un porcentaje de cobertura de las proteínas (de ambas) mayor del 70 %. Por este motivo, si A está relacionado con B porque entre ambas la identidad es del 31 % y la cobertura del 71 % y B está relacionada con C porque entre ambas la identidad es del 31 % y la cobertura del 71 %, puede ocurrir que entre A y C también haya una cobertura del 71 % pero la identidad sea del 29 %, en cuyo caso no se considerarán ortólogos.

Sé que puede ser un poco enrevesada la explicación, espero que se entienda.

Millones de gracias por la ayuda.

Querida Inma,

Por definición, si un gen A es ortólogo de B, y B lo es de C, A es ortólogo de C.

Respecto a la norma que usas para discriminar ortologías, yo usaría la norma del 50/50 (si comparo secuencias de proteínas, quizá con nucleótidos se pueda relajar hasta el nivel que planteas...), es decir, mínimo 50 % de identidad y mínimo 50 % de coverage y un e-value mínimo de 1e-05, que es la que más se ha usado en la literatura de genómica comparada (a no ser que estés buscando ortologías con secuencias "cortas" (me refiero a que no esté todo el gen incluido en la secuencia), como por ejemplo las derivadas de secuenciación de metagenomas, entonces la cosa se complica y hay que tener en cuenta el parámetro score y ajustar el punto de corte en conjunción con los dos parámetros que mencionas).

Si tienes en cuenta estas premisas, harás el análisis más rápido y con mayor precisión.

(Ojalá sirva de ayuda la parrafada que te he soltado, ¡ja,ja,ja,ja!)

Foro - Perl en Español

Organizar información de ortólogos

Re: Organizar información de ortólogos

Publicidad

Re: Organizar información de ortólogos

Re: Organizar información de ortólogos

¿Quién está conectado?