explorer escribiste:En cambio, viendo la salida que publicaste unos mensajes más arriba, veo que los acentos quedan convertidos en una cosa rara: '&65533;'. Y además, todos los acentos quedan convertidos en el mismo código, con lo que indica que algo raro pasa.
Ya encontré la explicación:
* Las páginas están en iso-8859-1, aunque hay algunas entidades html (á) por la página.
* wget no hace nada mas que bajarse las páginas
* HTML::TableExtract deja los acentos iso como están y convierte las entidades a acentos iso.
* PERO, como tu terminal está en utf8, la terminal no sabe cómo representar los acentos. Por eso, en tus anteriores mensajes (revísalos ahora), aparecen todos ellos como un carácter extraño. Me he dado cuenta al editar tus mensajes.
Puedes hacer la siguiente experiencia:
1. Abre el editor joe y cambia la codificación de trabajo a iso-8859-1 (esto se puede hacer en las últimas versiones del joe.
2. Copia y pega mi script dentro del joe y grábalo como miscript.pl
3. Ejecuta miscript.pl y desvía la salida hacia un fichero. Por ejemplo:
perl miscript.pl > datos.xml. Se supone que en datos.xml estará todo el xml generado.
4. Abre el datos.xml con el joe. Deberán aparecer los acentos. Si no lo hacen y en su lugar hay una 'X', cambia la codificación del joe a iso-8859-1. Si aparecen los acentos, todo va bien. Quiero decir que aunque tu no los veas, están.
Todo esto es un ejemplo de los problemas que vamos a tener estos años futuros con el tema del utf8... yo aún sigo con mi terminal en iso para quitarme estos problemas, pero alguna vez tendré que dar el 'salto'.