Foro - Perl en Español

por **Pablo3728** » 2010-03-28 14:38 @651

Buenas, tengo un problema al contar palabras de un texto y luego ordenarlas alfabéticamente. Utilizando el siguiente código:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

while(<>){
$linea=$linea.$_
}
while($linea=~/([a-zA-Z]*)/g){
$algo=$1;
$algo=~tr/A-Z/a-z/;
exists($hash{$algo})?($hash{$algo}+=1):($hash{$algo}=1);
}
foreachmy$llave(sortkeys%hash){
print"$llave: $hash{$llave}\n";
}Coloreado en 0.003 segundos,  usando GeSHi 1.0.8.4

El problema es que no incluye en mi solución las palabras que tienen la letra "ñ", he probado varias opciones pero sigue fallando, si alguien supiera alguna idea sería genial. Gracias

Pablo

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
use open ':locale';
 
open my $fichero, q[<], 'donquijoteparrafo1.txt';
 
my %hash;
 
while (my $linea = <$fichero>) {
    while ($linea =~ /(\w+)/g){
        $hash{lc $1}++;
    }
}
 
foreach my $llave (sort keys %hash){
    print "$llave: $hash{$llave}\n";
}
 
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

El tema principal está en el pragma open, para indicar que vamos a usar la localización de nuestro ordenador (no la de por defecto de Perl). Y \w será capaz de capturar los caracteres acentuados, eñe incluida.

por **erv-Z** » 2010-03-28 19:12 @842

'ñ' no pertenece a la tabla de caracteres alfanuméricos, por lo tanto no lo tomará como un carácter alfanumérico...
info.

Lo que podrías hacer es usar la agrupación de carácter incluyendo a ñ...

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

$a='ñ';
if($a=~m/[a-zñ]/){
print"Sí";
exit;
}
print"No";
Coloreado en 0.001 segundos,  usando GeSHi 1.0.8.4

Resultado:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

SíColoreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Saludos.

por **explorer** » 2010-03-29 06:50 @326

erv-Z, estás confundido en varias cosas...

Primero, el sistema alfanumérico que has enlazado de la Wikipedia es un sistema numérico, como bien dice en la primera frase. NO tiene nada que ver con lo que se entiende como Alfanumérico: «Un término informático que hace referencia al conjunto de caracteres numéricos y alfabéticos de los cuales dispone una computadora. Tiene una correspondencia casi exacta con los caracteres que aparecen en un teclado de ordenador». Eso quiere decir que una letra, incluso la 'ñ', es un carácter alfanumérico. Y da igual que no esté en los alfabetos anglosajones: sí está en nuestro alfabeto latino occidental.

Lo que ocurre es que Perl, por defecto, aunque trabaja con iso-8859-1, y la 'ñ' está en la posición 241 y 209 (minúscula y mayúscula), es un carácter que solo es propio de las localizaciones latinas. Por eso hay que indicar a Perl la localización en la que estamos trabajando, y así saber cuáles son letras normales y cuáles no.

Segundo, en las expresiones regulares, con solo '[a-z]', estamos indicando solo ese rango, pero nada más. En cambio, tal como lo indica en perlre, cuando ponemos '\w' o '[:alnum:]' sí que estamos buscando por caracteres alfanuméricos según la localización que tengamos activa en ese momento.

He preparado un programa para que veas que la 'ñ' sí que es una letra alfanumérica:

Sintáxis: [ Descargar ] [ Ocultar ]

Using perl Syntax Highlighting

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
 
no locale;                      # Trabajar sin localización -configuración por defecto-
print +(                        # Listado de los primeros 256 caracteres
    sort grep /\w/,             # Nos quedaremos solo con los alfanuméricos
    map { chr } 0..255
), "\n";
 
 
use POSIX qw(locale_h);         # Vamos a indicar una localización
setlocale(
    LC_ALL,                     # Todas las opciones de localización serán cambiadas a
    "es_ES.ISO-8859-1"          # Español, en alfabeto iso-8859-1
)
or die "Perdón";
 
use locale;                     # Indicamos que queremos usar nuestra localización
                                # en las próximas expresiones regulares
print +(
    sort grep /\w/,             # Nos quedaremos solo con los alfanuméricos
    map { chr } 0..255
), "\n";
 
my $letra = chr 0xf1;           # Solo la 'ñ' en codificación iso-8859-1, la de por defecto de Perl
es_alfanumerico( $letra );
 
 
use utf8;                       # La 'ñ' que viene a continuación está escrita en un editor
                                # de textos con codificación utf-8, así que debemos indicar
                                # a Perl que lo que sigue no son dos bytes, sino un solo carácter
 
use open 'locale';              # A la hora de pintarlo, también queremos que salga como utf-8,
                                # ya que así también está la terminal en la que estamos trabajando
 
es_alfanumerico( 'ñ' );         # 'ñ' codificada dentro del programa (literal)
 
 
es_alfanumerico( "\x{00F1}" );  # Codificación unicode de la 'ñ'
es_alfanumerico( "\N{U+00F1}" );# Otra codificación unicode
 
use charnames ':full';          # Codificación de caracteres especiales mediante 'escapes'
 
es_alfanumerico( "\N{LATIN SMALL LETTER N WITH TILDE}" );  # Otra 'ñ'
es_alfanumerico( "\N{VICTORY HAND}" );                     # ¡Victoria!
es_alfanumerico( "\N{WHITE SMILING FACE}" );               # :)
 
 
sub es_alfanumerico {
    my $letra = shift;
 
    print "[$letra] ";
 
    if ($letra =~ m/\w/) {      # También valdría m/[[:alnum:]]/
        print 'Sí';
    }
    else {
        print 'No';
    }
    print "\n";
}
 
Coloreado en 0.002 segundos,  usando GeSHi 1.0.8.4

La salida es:

Sintáxis: [ Descargar ] [ Ocultar ]

Using text Syntax Highlighting

0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ_abcdefghijklmnopqrstuvwxyz

_µÐð0123456789aAªáÁàÀâÂåÅäÄãÃæÆbBcCçÇdDeEéÉèÈêÊëËfFgGhHiIíÍìÌîÎïÏjJkKlLmMnNñÑoOºóÓòÒôÔöÖõÕøØpPqQrRsSßtTþÞuUúÚùÙûÛüÜvVwWxXyYýÝÿzZ

[ñ] Sí

[ñ] Sí

[ñ] Sí

[ñ] Sí

[ñ] Sí

[✌] No

[☺] No
Coloreado en 0.000 segundos,  usando GeSHi 1.0.8.4

Observaciones:

En las líneas 6 a 10 es la configuración por defecto de Perl, y como puedes ver, el alfabeto de lo que él entiende como alfanumérico es justo [0-9A-Z_a-z], todo muy inglés...
.
De las líneas 13 a 25 indicamos que vamos a trabajar con el alfabeto ISO-8859-1 -el de por defecto de Perl-, PERO con la localización española ('es_ES'). El resultado es la segunda línea de la salida: un montón de caracteres más se han sumado a la familia de los alfanuméricos. Incluso están las abreviaturas primero (º) y primera (ª).
.
En la línea 28 probamos exclusivamente con una cadena de caracteres que contenga solo un byte 0xf1 (la codificación de 'ñ' en iso-8859-1. Como es la que estamos usando en este momento, pues nos indica que sí, que es alfanumérico.
.
Las líneas 31 a 38 pueden ser algo complicadas de entender para quien no sepa lo que es trabajar con distintas codificaciones. Resulta que yo, desde hace ya unos pocos años, trabajo en mis máquinas con codificación utf-8, tanto en terminales como en editores de texto y los ficheros que generan. El programa anterior lo estoy escribiendo en un editor con codificación utf-8. Si, dentro del programa, escribo, literalmente, una 'ñ', estaré escribiendo una cadena de texto con dos bytes (0xc3 y 0xb1) que codifican a la eñe en la codificación utf-8, pero Perl NO LO SABE. Para Perl, son dos bytes que codifican a dos caracteres, ya que sigue trabajando por defecto en la ISO-8859-1. Debo advertir a Perl que lo que va a ver a continuación no son dos bytes, sino solo un carácter, codificado en utf-8. La línea 31 indica eso: que los bytes que va a encontrar en las cadenas de texto estarán en utf-8. Y la línea 35 indica que, a la hora de imprimir esos caracteres, lo haga en la localización que indique el sistema (el sistema está puesto a es_ES.UTF-8), por lo que Perl no emitirá caracteres en ISO-8859-1, sino en utf-8.
.
Las líneas 41 a 48 es para mostrar otra forma de indicar caracteres especiales, también en Unicode.

Resumen: Nuestra eñe será alfanumérica si Perl sabe en qué parte del planeta estamos trabajando.

por **erv-Z** » 2010-03-29 09:00 @416

Sí, tienes razón xD.

Foro - Perl en Español

Problemas con la letra Ñ

Problemas con la letra Ñ

Publicidad

Re: Problemas con la letra Ñ

Re: Problemas con la letra Ñ

Re: Problemas con la letra Ñ

Re: Problemas con la letra Ñ

¿Quién está conectado?