Foro - Perl en Español

por **ana gonzález ledesma** » 2008-03-17 16:53 @745

Hola, tengo un texto en XML donde están etiquetados algunos tipos de palabras con dos atributos, supongamos que son género=masculino/femenino y categoría=nombre/adjetivo

por ejemplo

Sintáxis: [ Descargar ] [ Ocultar ]

Using xml Syntax Highlighting

la <P genero="femenino" categoria="nombre">casa</P> tiene ...Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

A mí me gustaría extraer de este texto frecuencias en virtud de los atributos.

Así, si tengo una lista de palabras (casa, tomate, ciruelas), me gustaría saber cuántas veces aparecen en el texto estas palabras de la lista, y lo que es más importante, qué palabras están etiquetadas con género femenino (por ejemplo), o qué palabras están etiquetadas con género femenino y categoría nombres y cuántas veces aparece en el texto.

Sobre todo tengo dudas con respecto a cómo estructurar el programa, no sé si primero abrir la lista y luego abrir el archivo de texto y buscar línea por línea cada palabra de la lista y ponerle un contador, o abrir primero el texto... además, luego tengo que asociar con un hash los valores de los atributos a la frecuencia de la palabra buscada, y esto no sé cómo se haría, allí ya me pierdo. Además en una línea la palabra puede aparecer más de una vez; para solucionar esto pongo 'g' en la expresión regular, pero no me sale.

En fin, si alguien tiene tiempo y ganas, gracias.

Es que no es lo mismo tratar un texto con marcas a tratar un fichero XML.

Para el segundo caso, hay cantidad de módulos, como por ejemplo el XML::Simple, que sirve para tratar esos ficheros. Una vez leído, se pueden sacar estadísticas.

En cuanto a tu pregunta de cómo estructurar el programa, si suponemos que la lista de palabras es pequeña, siempre es mejor leerla antes que el texto. Y si el texto es también de un tamaño manejable, leerlo también en memoria (con el XMLin() del XML::Simple, por ejemplo).

En cuanto a la expresión regular, si pones el código que te falla, podríamos ayudarte más.

Foro - Perl en Español

XML y contar palabras asociadas a etiquetas

XML y contar palabras asociadas a etiquetas

Publicidad

XML y contar palabras asociadas a etiquetas

¿Quién está conectado?