• Publicidad

Indexación y búsqueda sobre documentos XML

Todo lo relacionado con el desarrollo Web con Perl: desde CGI hasta Mojolicious

Indexación y búsqueda sobre documentos XML

Notapor _snake_ » 2011-06-28 11:36 @525

Buenas,

No sé si este post encaja dentro de este apartado.

Me gustaría saber si alguien ha realizado una indexación de documentos XML para posteriormente realizar búsquedas sobre el índice y los documentos empleando Perl.

He estado mirando varios motores de indexación y búsqueda (Apache Lucene, Apache Lucy, etc) y me gustaría saber cuál es más fácil de emplear con Perl, enlaces a webs con tutoriales, libros, etc.

Muchas gracias.

Saludos.
_snake_
Perlero nuevo
Perlero nuevo
 
Mensajes: 15
Registrado: 2011-05-04 05:17 @261

Publicidad

Re: Indexación y búsqueda sobre documentos XML

Notapor explorer » 2011-06-28 11:47 @532

Yo he tenido alguna ocasión en la que manejábamos muchos ficheros XML, pero como les dimos un nombre predecible (zona más sensor más fecha), el acceso a uno determinado era directo.

En CPAN he visto que hay soporte para Lucy. Seguro que hay soporte para otros motores de búsqueda.
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14480
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Re: Indexación y búsqueda sobre documentos XML

Notapor _snake_ » 2011-06-29 04:20 @222

Gracias, explorer,

Estoy intentando instalar Apache Lucy desde CPAN empleando el comando "install Lucy", pero me da el siguiente error: "Make had returned bad status...".

Así que he intentado con make, pero: "Could not make: Unknown error".

Entonces he escrito "look Lucy" y he intentado con "perl Makefile.PL", pero no hay ningún fichero Makefile, así que tuve que emplear "perl Build.pl", y luego: "Build", pero me da los siguientes errores:

core\Lucy\Store\FSDirHandle.c: In function `lucy_FSDH_do_open': core\Lucy\Store\FSDirHandle.c:198: error: invalid operands to binary > +> core\Lucy\Store\FSDirHandle.c:198: error: invalid operands to binary & core\Lucy\Store\FSDirHandle.c:212: error: invalid operands to binary > +> core\Lucy\Store\FSDirHandle.c:212: error: invalid operands to binary & core\Lucy\Store\FSDirHandle.c: In function `lucy_FSDH_close': core\Lucy\Store\FSDirHandle.c:269: error: invalid operands to binary & core\Lucy\Store\FSDirHandle.c:269: error: invalid operands to binary & error building dll file from 'core/Lucy/Store/FSDirHandle.c' at C:/str +awberl/lib/ExtUtils/CBuilder/Platform/Windows.pm line 130.

Tengo WinXP, con Perl 5.10.1. ¿Alguna sugerencia?

Muchas gracias.

EDICIÓN: He posteado esto en perl Monks y aquí.

A ver si consigo solucionarlo.

Muchas gracias de nuevo
_snake_
Perlero nuevo
Perlero nuevo
 
Mensajes: 15
Registrado: 2011-05-04 05:17 @261

Re: Indexación y búsqueda sobre documentos XML

Notapor explorer » 2011-06-29 05:38 @276

_snake_ escribiste:Estoy intentando instalar Apache Lucy desde CPAN empleando el comando "install Lucy", pero me da el siguiente error: "Make had returned bad status...".

Así que he intentado con make, pero: "Could not make: Unknown error".

Entonces he escrito "look Lucy" y he intentado con "perl Makefile.PL", pero no hay ningún fichero Makefile, así que tuve que emplear "perl Build.pl", y luego: "Build", pero me da los siguientes errores:
Los pasos correctos están descritos en el fichero INSTALL.

_snake_ escribiste:Tengo WinXP, con Perl 5.10.1. ¿Alguna sugerencia?
Según trouchelle.com, hay un error en la compilación. Quizás sea posible saltarlo o arreglarlo de alguna manera, pero no será de forma automática.

Viendo la matriz de compatibilidad, tendrás mucho más éxito si lo instalas en Linux.

Humm.... Quizás sea mejor buscar otro motor de indexación y búsqueda...

Senna, Lucene, Plucene (versión Perl del anterior. Complejo, pero completo), Search::Indexer, KinoSearch... en CPAN hay más distribuciones.

Lo ideal es usar un indexador que nos permite poner nuestro propio filtro, para que indexe solamente el texto que está entre las marcas XML. Search::Indexer y Plucene permiten hacer eso, y me parece que los demás tienen alguna opción para extraer información de tipos de documentos conocidos.

Indexador específico para XML puede ser usando la librería Swish-e, como por ejemplo SWISH::3. El propio autor tiene también SWISH::Prog::Lucy.

Lo ideal es que encuentres alguna de estas soluciones dentro de la lista de paquetes disponibles, con el PPM o en trouchelle.com, y así tienes la seguridad de que te van a funcionar en Windows.
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14480
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España

Re: Indexación y búsqueda sobre documentos XML

Notapor _snake_ » 2011-06-29 07:40 @361

¡Gracias, explorer por tu ayuda!

He hecho unos cambios de constantes en el fichero...
Ahora me da el siguiente error:

Parsing Clownfish files...
Can't locate loadable object for module Clownfish in @INC (@INC contai
+ns: clownf
ish/blib/lib clownfish/blib/arch ../clownfish/blib/lib ../clownfish/bl
+ib/arch cl
ownfish\blib\lib clownfish\blib\arch ..\clownfish\blib\lib ..\clownfis
+h\blib\arc
h buildlib clownfish/blib/lib clownfish/blib/arch ../clownfish/blib/li
+b ../clown
fish/blib/arch buildlib C:/strawberry/perl/lib C:/strawberry/perl/site
+/lib C:\st
rawberry\perl\vendor\lib .) at clownfish/blib/lib/Clownfish.pm line 33
BEGIN failed--compilation aborted at clownfish/blib/lib/Clownfish.pm l
+ine 33.
Compilation failed in require at clownfish/blib/lib/Clownfish/Util.pm
+line 20.
BEGIN failed--compilation aborted at clownfish/blib/lib/Clownfish/Util
+.pm line 2
0.
Compilation failed in require at clownfish/blib/lib/Clownfish/Hierarch
+y.pm line
22.
BEGIN failed--compilation aborted at clownfish/blib/lib/Clownfish/Hier
+archy.pm l
ine 22.
Compilation failed in require at buildlib/Lucy/Build.pm line 237.

Echaré un vistazo a las frameworks que me facilitaste. A ver si no me dan tanto la lata, ¡je,je!

Saludos
_snake_
Perlero nuevo
Perlero nuevo
 
Mensajes: 15
Registrado: 2011-05-04 05:17 @261

Re: Indexación y búsqueda sobre documentos XML

Notapor _snake_ » 2011-06-30 11:25 @517

Al final me fue más fácil instalar Apache Solr para ejecutar las consultas sobre Lucene.

El problema es que Apache Solr funciona sobre Tomcat, y mi aplicación sobre Apache.

El siguiente paso es recoger una consulta en el cgi (Apache), enviarla a la página en jsp (Tomcat), desde esta página enviarla a Solr y recoger su respuesta, y devolverla al cgi.

Ya os contaré.

Saludos
_snake_
Perlero nuevo
Perlero nuevo
 
Mensajes: 15
Registrado: 2011-05-04 05:17 @261

Re: Indexación y búsqueda sobre documentos XML

Notapor explorer » 2011-06-30 12:37 @568

:shock:

Por cosas así, hay personas que matan gatitos...

La verdad, yo me hubiera hecho mi propio motor de indexación antes que dejar instalar cualquier cosa de Java.

En fin, tu verás... :roll:
JF^D Perl programming & Raku programming. Grupo en Telegram: https://t.me/Perl_ES
Avatar de Usuario
explorer
Administrador
Administrador
 
Mensajes: 14480
Registrado: 2005-07-24 18:12 @800
Ubicación: Valladolid, España


Volver a Web

¿Quién está conectado?

Usuarios navegando por este Foro: No hay usuarios registrados visitando el Foro y 2 invitados