Te entendí, pero no sé cómo definirlo correctamente.
Te cuento un poco la situación:
Tengo el texto A (formato ANSI (tildes y etc, en formato
ó (HTML)).
A partir de aquí, voy leyendo y creo un fichero en UTF8 (texto plano) y otro fichero con los índices de inicio y fin de palabra.
El fichero A lo abro tal cual:
open($fitxerVert, $parametro); sin indicarle
encoding ni nada.
Para cada línea leída del fichero A hago:
$linea = HTML::Entities::decode($linea); para descodificar los "patrones" como
óLuego abro los ficheros resultantes con:
open(my $fitxerSeg1, ">:encoding(UTF-8)", "segmentado.xml");
open(my $fitxerOUT, ">:encoding(UTF-8)", "texto.txt");Esto para la creación de los índices
Para la lectura,
open(my $fitxerOut, "<texto.txt");
binmode( $fitxerOut, ':encoding(UTF-8)');
#resultado
open(my $fitxertmp, ">prueba_elemento.txt");
binmode( $fitxertmp, ':encoding(UTF-8)');y escribo el valor según los índices del fichero segmentado.
Entonces, mi pregunta es:
¿Cómo usar el
pragma de bytes? ¿He de introducir más encode/decode?
he llegado a un punto que me sale el error:
utf8 "\xB3" does not map to Unicode
pero no sé más

Gracias.