domingo, 15 de julio de 2012

Charsets y Entidades HTML



Los charsets son codificaciones que podemos incluir en nuestras paginas web para visualizar correctamente algunos caracteres como por ejemplo a ñ-Ñ del alfabeto español o símbolos acentuados o especiales de una región, ideogramas o fonemas. Para caracteres especiales del español se utilizan UTF-8 ó ISO-8859-1 que los podemos incluir el código html de declarándolo en los metatypes de la siguiente manera:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
o bien
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" />

Existen diversos charsets para diferentes idiomas por ejemplo para el chino:

<META HTTP-EQUIV= "Content-Type"CONTENT="text/html;charset= chinese">

Estándar ISO 8859
El estándar ISO 8859 fue formado por diferentes paquetes de caracteres para las lenguas más comunes. Este estándar fué definido por la ECMA (Asociación de Fabricantes Europeos de Computadoras) en 1980, y aprobado posteriormente por la ISO (Organización Internacional de Normas), y es el que se debe usar en el lenguaje HTML.
Las principales familias de caracteres pertenecientes al ISO 8859 son:

ISO-8859-1 (Latin1): cubre las lenguas de Europa del Oeste, incluyendo francés, español, catalán, vasco, portugués, italiano, albanés, holandés, alemán, inglés, sueco, noruego y otras más.

ISO-8859-2 (Latin2): Lenguas de Europa Central y Occidental, como checo, polaco, rumano, croáta y esloveno.

ISO-8859-3 (Latin3): esperanto y maltés.

ISO-8859-4 (Latin4): estonio, el letón, lituano y lapón.

ISO-8859-5 (alfabeto cirílico): Búlgaro, bielorruso, macedonio, ruso, servio y ucraniano.

ISO-8859-6 (alfabeto árabe): comprende las letras básicas de la lengua árabe.

ISO-8859-7 (griego): cubre todas las letras de la lengua griega.

ISO-8859-8 (hebreo): abarca los caracteres necesarios para escribir en hebreo y yídish.

ISO-8859-9 (Latin5) y ISO-8859-10 (Latin6): amplía los conjuntos de caracteres latinos anteriores, añadiendo las letras que faltaban para poder escribir completamente en turco y en islandés, letón, el esquimal, el lapón y las demás lenguas nórdicas.

Juegos de caracteres UCS y UNICODE
Estos estándares son mas recientes, más completos y unificados: el UCS (Juego Universal de Caracteres), que es en realidad el ISO-10646, evolución del estándar ISO-8859, y el UNICODE, que contienen en un solo charset todos los caracteres mundiales. Ambos estándares se basan en asignar un número hexadecimal único a cada carácter.

Entidades HTML
Las entidades html es código con los que el interprete html reconoce de forma directa ciertos caracteres.
Podemos utilizar entidades HTML en los casos en que el charset que usamos no reconozca cierto carácter o en el caso de usar caracteres reservados para el interprete de código html como <,>.
Los mas conocidos son los de acentuación y la ñ del español entre otras:

Caracteres html mas comunes
símbolo código símbolo código
á &aacute; Á &Aacute;
é &eacute; É &Eacute;
í &iacute; Í &Aacute;
ó &oacute; Ó &Oacute;
ú &uacute; Ú &Uacute;
ñ &ntilde; Ñ &Ntilde;


algunos símbolos html
símbolo código símbolo código
< &lt; > &gt;
& &amp; " &quot;
¡ &iexcl; ¢ &cent;
¬ &not; ° &deg;
µ &micro; &para;
© &copy; ® &reg;

Ver ejemplo de html entities


No hay comentarios:

Publicar un comentario

Seguidores