Foro - Perl en Español

por **explorer** » 2012-02-27 17:06 @754

Ya te dije que manejar XML::Simple, puede ser muy complicado.

Una forma de atacar el problema es:

Poner en un archivo XML el código que queremos manejar
Leerlo con XMLin, y volcar la estructura que ha generado con Data::Dumper
Volver a generar el xml con XMLout, buscando las opciones correctas

Así, creamos el xml así:

Sintáxis: [ Descargar ] [ Ocultar ]

Using xml Syntax Highlighting

<?xml version="1.0" encoding="UTF-8" ?>
<root>
    <AddInfo>
        <Line id="1">Otra Información opcional</Line>
        <Line id="2"></Line>
        <Line id="3"></Line>
        <Line id="4"></Line>
        <Line id="5"></Line>
        <Line id="6"></Line>
        <Line id="7"></Line>
        <Line id="8"></Line>
    </AddInfo>
    <Items>
        <Item Id="1" Price="10.00" Qty="1" Desc="Producto generico" Tax="1" Code="01234567" Comments="xxxxxx" />
        <Item Id="2" Price="10.00" Qty="1" Desc="Producto generico 2" Tax="0" Code="01234577" Comments="xxxxxx" />
    </Items>
</root>
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

y ahora creamos un programa mínimo:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use 5.010;
use utf8::all;                  # Turn on UTF-8. All of it.
 
use XML::Simple;
use Data::Dumper::Simple;
 
my $xml = XMLin('kk.xml', KeyAttr => []);
 
say Dumper $xml;
 
say XMLout($xml);
__END__
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

La salida es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

$xml = {

         'Items' => {

                    'Item' => [

                              {

                                'Comments' => 'xxxxxx',

                                'Code' => '01234567',

                                'Qty' => '1',

                                'Id' => '1',

                                'Tax' => '1',

                                'Price' => '10.00',

                                'Desc' => 'Producto generico'

                              },

                              {

                                'Comments' => 'xxxxxx',

                                'Code' => '01234577',

                                'Qty' => '1',

                                'Id' => '2',

                                'Tax' => '0',

                                'Price' => '10.00',

                                'Desc' => 'Producto generico 2'

                              }

                            ]

                  },

         'AddInfo' => {

                      'Line' => [

                                {

                                  'content' => "Otra Informaci\x{f3}n opcional",

                                  'id' => '1'

                                },

                                {

                                  'id' => '2'

                                },

                                {

                                  'id' => '3'

                                },

                                {

                                  'id' => '4'

                                },

                                {

                                  'id' => '5'

                                },

                                {

                                  'id' => '6'

                                },

                                {

                                  'id' => '7'

                                },

                                {

                                  'id' => '8'

                                }

                              ]

                    }

       };

<opt>

  <AddInfo>

    <Line id="1">Otra Información opcional</Line>

    <Line id="2" />

    <Line id="3" />

    <Line id="4" />

    <Line id="5" />

    <Line id="6" />

    <Line id="7" />

    <Line id="8" />

  </AddInfo>

  <Items>

    <Item Code="01234567" Comments="xxxxxx" Desc="Producto generico" Id="1" Price="10.00" Qty="1" Tax="1" />

    <Item Code="01234577" Comments="xxxxxx" Desc="Producto generico 2" Id="2" Price="10.00" Qty="1" Tax="0" />

  </Items>

</opt>Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Tuve que poner KeyAttr => [], porque uno de los atributos es 'Id', que para XML::Simple es importante.

Con la salida de Data::Dumper vemos la estructura que tienes que crear, para que XMLout() genere la salida correcta.

Los caracteres especiales, en realidad, quiere decir que están codificados en utf-8, lo cual es acorde a lo que dice la norma.

Si necesitas hacer cambios en la codificación del archivo, debes usar alguna capa de E/S, con binmode(), por ejemplo. O usar las funciones de cambio de codificación que te da el módulo Encode.

Para el segundo caso, el único problema que veo es en el último atributo, que sí tiene unas dobles comillas como valor de ese atributo.

Una forma de solucionarlo sería "escapando" las comillas dobles convirtiéndolas a una entidad XML. En el caso de las comillas dobles, sería " .

XML::Simple hace esto de forma automática, y activado por defecto (ver opción NoEscape).

por **calcifer1990** » 2012-03-05 14:28 @644

Gracias, explorer, pero tengo el siguiente error al utilizar encode():

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

encode("utf8",$variable)
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Sintáxis: [ Descargar ] [ Ocultar ]

Using xml Syntax Highlighting

<CustomerName>DISEÃƒÂ‘OS</CustomerName>
 
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

o con decode():

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

decode("utf8",$variable)
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Sintáxis: [ Descargar ] [ Ocultar ]

Using xml Syntax Highlighting

<CustomerName>DISEï¿½OS</CustomerName>
 
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

¿Qué puede ser?

Gracias

por **explorer** » 2012-03-05 18:22 @806

A ver... no es tan simple...

¿Cuál es el proceso que realizas? ¿Lees de un fichero y escribes a otro? Entonces... ¿en qué está codificado el archivo de entrada? ¿en qué codificación debe estar la salida?

Si usas XML, ya sabes que la codificación por defecto de este tipo de archivos es UTF-8, así que hay que suponer que esa es la codificación de entrada, y suponemos también que esa es la codificación de salida.

En el caso que comentas, parece que el carácter que no se ve es una 'Ñ', codificada en UTF-8. ¿Qué es lo que quieres hacer con ese texto? Guardarlo en otro sitio, pero, ¿en qué codificación?

Lo que tienes es esto:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use 5.010;
use Encode;
 
my $string = "<Tag>DISE\xC3\x91OS</Tag>";  # Una ristra de *bytes*
 
my $octets = decode_utf8($string);         # De esa ristra, la decodificamos como si estuviera en UTF-8, y
                                           # la almacenamos como una ristra de *caracteres*,
                                           # en el _formato interno de Perl_
 
binmode STDOUT, ':encoding(utf-8)';        # solicitamos que la salida por STDOUT debe ir codificado en UTF-8
 
say $octets;                               # Perl toma la ristra de *caracteres* (en formato Perl),
                                           # y lo saca en codificación UTF-8
 
__END__
<Tag>DISEÑOS</Tag>
Coloreado en 0.007 segundos,  usando GeSHi 1.0.8.4

Observa: no es lo mismo hablar de una ristra de bytes, que una ristra de caracteres. Con Encode podemos pasar de una codificación a otra o, como en este caso, pasamos de un formato conocido por nosotros (y no por Perl), al formato interno que usa Perl para almacenar caracteres. Una vez que lo tenemos, podemos hacer las cosas normales que hacemos con las operaciones de caracteres. Finalmente, en el momento de la salida de datos, tenemos que indicar en qué codificación debe ser la salida, ya que por defecto, Perl lo hace en codificación ISO-8859-1. Si la salida debe ser en UTF-8 (bien sea porque nuestra terminal de línea de comandos o el archivo donde estamos escribiendo están en esa codificación), entonces lo cambiamos con un binmode(), indicando la capa de E/S que Perl debe usar para hacer la conversión entre el formato interno.

Ahora bien... supongamos que tanto la entrada y la salida están en formato UTF-8, y que esa entrada y salida son (por simplificar también), las correspondientes a las estándares. Entonces, el programa queda muy simple:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use 5.010;
use open qw(:utf8 :std);                               # Entradas y salidas estándar, en modo utf8
use File::Slurp;                                       # Leer y escribir archivos
 
my $cadena = read_file('kk.txt', binmode => ':utf8');  # Leemos el archivo, codificado en utf8
 
# ...  aquí jugamos con la $cadena
 
say $cadena;                                           # La salida ya sabemos que va en UTF-8
 
__END__
<Tag>DISEÑOS</Tag>
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Así que primero tenemos que saber en qué codificaciones tienes que trabajar... :)

A partir de Perl v5.12, y sobretodo a partir de Perl v5.14, todas las operaciones de cadenas usan semántica de caracteres (dentro del ámbito de la feature 'unicode_strings', que facilita mucho el trabajo con varias codificaciones, pero centrándose siempre en UTF-8).

por **calcifer1990** » 2012-03-06 07:56 @372

Hola, explorer. De nuevo muchas gracias por tu pronta respuesta.

Te explico: en el script no leo ningún archivo; utilicé XMLin() únicamente para mirar cómo crear el hash, ya que este se carga de una consulta a una base de datos, de la siguiente manera:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

    while ( $sth->fetchrow_arrayref() ) {
 
        $hashXml->{'CustomerName'} = [$variable];
        $hashXml->{'CustomerRuc'}  = [
            $variable;
                $hashXml->{'CustomerAddress'} = [$variable];
 
                $hashXml->{'AddInfo'}->{Line}->[0] = {
                'content' => $variable,
                'id'      => '1',
                },
            {   'content' => $variable,
                'id'      => '2'
            },
            $hashXml->{'AddInfo'}->{Line}->[1] = {
                'content' => $variable,
                'id'      => '2'
            },
 
            $hashXml->{'Items'}->{Item}->[$cont] = {
                'Id'    => $variabl,
                'Price' => $variable,
                'Qty'   => $variable,
                'Desc'  => $variable,
                'dperc' => $variable . '%',
                'Tax'   => variable,
                'Code'  => $variable,
            },
            ;
        }
 
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

La codificación del archivo de salida debe ser ISO-8859-1, esto lo hago utilizando XMLDecl:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$xs = XML::Simple->new(
    ForceArray => 1,
    KeepRoot   => 1,
    RootName   => 'FiscalDoc',
    XMLDecl    => '<?xml version="1.0" encoding="ISO-8859-1" ?>',
    OutputFile => 'xxx.xml'
);
 
$xml = $xs->XMLout($hashXml);
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

El dato que contiene los caracteres UTF-8 lo trae la consulta a la base de datos. Si cambio el XMLDecl de la siguiente forma, funciona sin problemas:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

 XMLDecl => '<?xml version="1.0" encoding="UTF-8" ?>'
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Pero por requerimiento del usuario, debe ser ISO-8859-1.

De nuevo muchas gracias.

por **explorer** » 2012-03-06 12:49 @575

Te faltan algunas llaves y corchetes, pero la idea se ve.

El caso es que esas asignaciones a $hashXml se pueden reducir bastante, si las agruparas.

Sobre el tema de la codificación, esto es lo que tienes que hacer: los datos que llegan de la base de datos, si están en UTF-8, les debes decodificar, con decode_utf8(). Así, las cadenas de texto se transforman de ristras de bytes a caracteres lógicos en formato Perl.

Luego, a la hora de guardar en disco, ejecutas un binmode() sobre el gestor de archivo abierto, y con el ':encoding("UTF-8")', y así se guardarán en esa codificación.

por **calcifer1990** » 2012-03-15 09:11 @424

Gracias explorer, perdón por la demora.

Entiendo tu idea pero no estoy seguro de la sintaxis.
Sería algo así pero no obtengo ningún resultado.

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

decode_utf8($hashXml);
binmode STDOUT, ':encoding(UTF-8)';
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Foro - Perl en Español

Generar XML

Re: Generar XML

Publicidad

Re: Generar XML

Re: Generar XML

Re: Generar XML

Re: Generar XML

Re: Generar XML

Re: Generar XML

Re: Generar XML

Re: Generar XML

Re: Generar XML

¿Quién está conectado?