Foro - Perl en Español

por **explorer** » 2007-07-26 08:19 @388

Además del epic, prueba a instalarte el AnyEdit, de Andrei Loskutov, y tendrás un montón de añadidos muy interesantes.

Por ejemplo, con epic sale el autocompletado de variables cuando escribes el sigil ($%@), pero con AnyEdit te puede completar todo tipo de palabras. El único problema que me he encontrado es que para conjugar los dos he tenido que entrar en la configuración del teclado y asignarle una combinación a cada una:
* Para epic (completado de variables y de plantillas): Control+Mayúsculas+Espacio
* Para AnyEdit (completado de todo lo demás): Control+Espacio

También tiene la opción curiosa de pasar de nombres con MayusculasJorobadas a Palabras_separadas_con_guion_bajo.

En cuanto al Tab, tienes razón, y es algo que hecho de menos, pero de mucho antes. Quizás lo compense el hecho de que puedes (des)tabular bloques enteros de líneas, y también moverlas por el código, mientras pulsas la tecla Alternate.

Lo que más ha gustado en el trabajo, es que si pulsas en una variable, te marca a la derecha en qué partes del programa se hace referencia a esa variable, lo cual es genial cuando el programa supera las 1000 líneas

Bueno, después de estudiarme el código aportado por kidd y explorer y ejecutarlo con corpus de texto muy amplios, más de 500 mil líneas.

Aportan resultados muy pero muy buenos, pero, nunca falta un pero, jajaja. Se hace casi imposible para un usuario decidir con cual variante quedarse ya que se compara con el resto del corpus. Creo que la solución es que se compare con todas las que le preceden y no como ahora de la primera con todas, por eso en el primer comentario añadí el número de veces que se repite la dirección en el corpus, creo que se puede hacer un bucle que diga si a la que me parezco en x% tiene más frecuencias que yo me sumo a esa. ¿Que les parece?

Para tratar de hacerlo visualmente más manejable me puse a ordenarlo por el % de aproximación y no dí con ello. No se ordena, jajaja.

Posteriormente me puse a poner pequeñas variaciones a las palabras y los resultados fueron aun más dispersos de los que esperaba, por ejemplo si se quita una letra o se le añade un espacio más bajan los %.

Nuevamente gracias.

por **explorer** » 2007-07-27 21:04 @919

Nosotros teníamos un problema parecido con una base de datos de 1,5 millones de personas contra otra de 800 mil. Después de filtrar a la gran mayoría, que estaba bien escrita en las dos bases de datos, había unos cuantos miles que no concordaban por culpa del orden de los apellidos, abreviatura de los apellidos y/o del nombre, los acentos estaban desaparecidos en una de la base de datos -y la ñ-, por lo que miramos otros campos (documento nacional de identidad, fechas de nacimiento, fechas de afiliación, etc.)

Después de todo esto, quedaban unos 3000 sin identificar. Usando el algoritmo Soundex (en el módulo comentado anteriormente), los indecisos quedaron reducidos a unos 400, que ya no hubo manera de buscarles coincidencia más que a mano. Pero bueno, 400 frente a 1,5 millones fue un gran salto.

Si se pudiera saber que reduciendo las frases a sonidos Soundex, te permitiría almacenar las sentencias parecidas según una clave hash. Y luego, hacer comparaciones como hasta ahora de aquellas sentencias con el mismo 'sonido' soundex. Bueno, es una idea.

Foro - Perl en Español

Saber la similaridad en cadenas de textos

Publicidad

¿Quién está conectado?