Los últimos tutoriales de desarrollo web
 

Juegos de caracteres HTML


Para visualizar una página HTML correctamente, el navegador debe saber qué conjunto de caracteres (character encoding) para su uso.


Juegos de caracteres HTML

¿Cuál es la codificación de caracteres correcta a utilizar en HTML?

Para HTML5, la codificación de caracteres por defecto es UTF-8.

Esto no siempre ha sido el caso. La codificación de caracteres para la web temprano era ASCII.

Más tarde, a partir de HTML 2.0 a HTML 4.01, ISO-8859-1 fue considerado como el estándar.

Con XML y HTML 5, UTF-8, finalmente llegó, y resuelto muchos problemas de codificación de caracteres.

A continuación se muestra una breve descripción de los estándares de codificación de caracteres.


En el Principio: ASCII

Información del equipo (numbers, texts, and pictures) se almacena como unos y ceros binarios (01000101) en la electrónica.

Para estandarizar el almacenamiento de caracteres alfanuméricos, el Código Estándar Americano para el Intercambio de Información (ASCII) fue creado. Se define un número de 7 bits binarios único para cada personaje almacenable para apoyar a los números del 0-9, el mayúsculas / minúsculas del alfabeto Inglés (az, AZ) , y algunos caracteres especiales como! $ + - ( ) @ <>.

Desde ASCII utiliza un byte (7 bits para el personaje, y uno de los bits de paridad para el control de la transmisión), que sólo podría representar 128 caracteres diferentes. Además de estos 32 personajes estaban reservados para otros fines de control.

La mayor debilidad con ASCII fue que excluye las letras no ingleses.

ASCII se encuentra todavía en uso generalizado hoy en día, sobre todo en los sistemas de computadora central de gran tamaño.

Para una mirada más cercana, por favor estudiar nuestra Referencia completa de ASCII .


En Windows: ANSI

ANSI (also called Windows-1252) fue el juego de caracteres predeterminado en Windows, hasta Windows 95.

ANSI es una extensión a ASCII, con caracteres internacionales añadidas. Se utiliza un byte completo (8-bits) para representar 256 caracteres diferentes.

Desde ANSI ha sido el juego de caracteres predeterminado en Windows, que es compatible con todos los navegadores.

Para una mirada más cercana, por favor estudiar nuestra completa ANSI referencia .


En HTML 4: ISO-8859-1

Como la mayoría de los países utilizan caracteres ASCII fuera, la codificación de caracteres por defecto en el estándar HTML 2.0 fue cambiado a ISO-8859-1.

ISO-8859-1 es una extensión a ASCII, con caracteres internacionales añadidas. Como ANSI, que utiliza un byte completo para representar el doble de caracteres que ASCII.

Cuando los navegadores detectan ISO-8859-1 en una página web, normalmente por defecto a ANSI, ANSI, porque es idéntica a la norma ISO-8859-1, excepto que ANSI tiene 32 caracteres adicionales.

Si una página web HTML 4 utiliza un juego de caracteres de la norma ISO-8859-1 diferente, se debe especificar en el <meta> etiqueta como:

Ejemplo

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

El juego de caracteres predeterminado para HTML5 es UTF-8.
Todos HTML 4 procesadores son compatibles con UTF-8, y todos los procesadores de HTML5 y XML soportan tanto UTF-8 y UTF-16.

Para una mirada más cercana, por favor estudiar nuestra Referencia completa de la norma ISO-8859-1 .


En HTML5: Unicode UTF-8

Debido a que los juegos de caracteres mencionados anteriormente son limitados, y no es compatible en entornos multilingües, el Consorcio Unicode desarrolló el estándar Unicode.

Las cubiertas estándar Unicode (almost) todos los caracteres, signos de puntuación y símbolos que existen.

Unicode permite el procesamiento, el almacenamiento y el transporte de texto, independiente de la plataforma y lenguaje.

La codificación de caracteres por defecto en HTML5 es UTF-8.

Para una mirada más cercana, por favor estudiar nuestra completa Unicode de referencia .