• Publicidad

Saber la similaridad en cadenas de textos

¿Apenas comienzas con Perl? En este foro podrás encontrar y hacer preguntas básicas de Perl con respuestas aptas a tu nivel.

Notapor explorer » 2007-07-26 08:19 @388

Además del epic, prueba a instalarte el AnyEdit, de Andrei Loskutov, y tendrás un montón de añadidos muy interesantes.

Por ejemplo, con epic sale el autocompletado de variables cuando escribes el sigil ($%@), pero con AnyEdit te puede completar todo tipo de palabras. El único problema que me he encontrado es que para conjugar los dos he tenido que entrar en la configuración del teclado y asignarle una combinación a cada una:
* Para epic (completado de variables y de plantillas): Control+Mayúsculas+Espacio
* Para AnyEdit (completado de todo lo demás): Control+Espacio

También tiene la opción curiosa de pasar de nombres con MayusculasJorobadas a Palabras_separadas_con_guion_bajo.

En cuanto al Tab, tienes razón, y es algo que hecho de menos, pero de mucho antes. Quizás lo compense el hecho de que puedes (des)tabular bloques enteros de líneas, y también moverlas por el código, mientras pulsas la tecla Alternate.

Lo que más ha gustado en el trabajo, es que si pulsas en una variable, te marca a la derecha en qué partes del programa se hace referencia a esa variable, lo cual es genial cuando el programa supera las 1000 líneas :)
Última edición por explorer el 2007-07-27 07:57 @372, editado 1 vez en total
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14476
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Publicidad

Notapor preiddy » 2007-07-26 09:01 @417

Un amigo que se lo acabo de enseñar me pregunta que si se comporta igual con programas Bash. Lo probé y vi que lo muestra como texto plano, sin colores ni tabulaciones. ¿Conoces alguna forma de poder trabajar con él para ficheros Bash? y que no sea ponerle la extensión pl, Jajaja.
preiddy
Perlero nuevo
Perlero nuevo
 
Mensajes: 70
Registrado: 2006-03-29 05:43 @280
Ubicación: Madrid, España

Notapor explorer » 2007-07-26 09:24 @433

No, no lo conozco, pero es fácil encontrarlos:
Vas a http://www.eclipseplugincentral.com/modules.php y buscas por 'shell'. Entre los que salen, tienes el Emacsish (algunos comandos del Emacs en el Eclipse) y el ShellEd (edición).
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14476
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Notapor preiddy » 2007-07-27 07:57 @373

Muy buenos plugin's. Pero como la gente nunca esta satisfecha del todo, me preguntan si trabaja contra servidores remotos. Él usa homesite y aunque tiene pie y medio en eclipse no deja de preguntarme cosas, Jajaja. Muchas gracias por todo.
preiddy
Perlero nuevo
Perlero nuevo
 
Mensajes: 70
Registrado: 2006-03-29 05:43 @280
Ubicación: Madrid, España

Notapor explorer » 2007-07-27 08:02 @376

FTP, CSV, Subversion, Source Safe, Tomcat, Apache, ZK, etc. etc. etc. etc. ¡Hala!, ¡a buscar!.
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14476
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Notapor preiddy » 2007-07-27 08:20 @389

Bueno, después de estudiarme el código aportado por kidd y explorer y ejecutarlo con corpus de texto muy amplios, más de 500 mil líneas.

Aportan resultados muy pero muy buenos, pero, nunca falta un pero, jajaja. Se hace casi imposible para un usuario decidir con cual variante quedarse ya que se compara con el resto del corpus. Creo que la solución es que se compare con todas las que le preceden y no como ahora de la primera con todas, por eso en el primer comentario añadí el número de veces que se repite la dirección en el corpus, creo que se puede hacer un bucle que diga si a la que me parezco en x% tiene más frecuencias que yo me sumo a esa. ¿Que les parece?

Para tratar de hacerlo visualmente más manejable me puse a ordenarlo por el % de aproximación y no dí con ello. No se ordena, jajaja.

Posteriormente me puse a poner pequeñas variaciones a las palabras y los resultados fueron aun más dispersos de los que esperaba, por ejemplo si se quita una letra o se le añade un espacio más bajan los %.

Nuevamente gracias.
preiddy
Perlero nuevo
Perlero nuevo
 
Mensajes: 70
Registrado: 2006-03-29 05:43 @280
Ubicación: Madrid, España

Notapor explorer » 2007-07-27 21:04 @919

Nosotros teníamos un problema parecido con una base de datos de 1,5 millones de personas contra otra de 800 mil. Después de filtrar a la gran mayoría, que estaba bien escrita en las dos bases de datos, había unos cuantos miles que no concordaban por culpa del orden de los apellidos, abreviatura de los apellidos y/o del nombre, los acentos estaban desaparecidos en una de la base de datos -y la ñ-, por lo que miramos otros campos (documento nacional de identidad, fechas de nacimiento, fechas de afiliación, etc.)

Después de todo esto, quedaban unos 3000 sin identificar. Usando el algoritmo Soundex (en el módulo comentado anteriormente), los indecisos quedaron reducidos a unos 400, que ya no hubo manera de buscarles coincidencia más que a mano. Pero bueno, 400 frente a 1,5 millones fue un gran salto.

Si se pudiera saber que reduciendo las frases a sonidos Soundex, te permitiría almacenar las sentencias parecidas según una clave hash. Y luego, hacer comparaciones como hasta ahora de aquellas sentencias con el mismo 'sonido' soundex. Bueno, es una idea.
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14476
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Anterior

Volver a Básico

¿Quién está conectado?

Usuarios navegando por este Foro: No hay usuarios registrados visitando el Foro y 0 invitados