Los últimos tutoriales de desarrollo web
 

HTML Unicode (UTF-8) Referencia


El Consorcio Unicode

El Consorcio Unicode desarrolla el estándar Unicode. Su objetivo es reemplazar los conjuntos de caracteres existentes con su formato de transformación Unicode estándar (UTF) .

El estándar Unicode se ha convertido en un éxito y está implementado en HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. El estándar Unicode también es compatible con muchos sistemas operativos y todos los navegadores modernos.

El Consorcio Unicode coopera con las organizaciones de desarrollo de estándares principales, como la ISO, el W3C, y ECMA.


Los juegos de caracteres Unicode

Unicode puede ser implementado por diferentes juegos de caracteres. Las codificaciones más comúnmente utilizados son UTF-8 y UTF-16:

Conjunto de caracteres Descripción
UTF-8 Un personaje en UTF8 puede ser de 1 a 4 bytes de longitud. UTF-8 puede representar cualquier carácter en el estándar Unicode. UTF-8 es compatible con ASCII. UTF-8 es la codificación preferido para el correo electrónico y páginas Web
UTF-16 16-bit formato de transformación Unicode es una codificación de caracteres de longitud variable para Unicode, capaz de codificar todo el repertorio Unicode. UTF-16 se utiliza en sistemas y entornos operativos, como Microsoft Windows, Java y .NET.

Tip: Los primeros 128 caracteres de Unicode (which correspond one-to-one with ASCII) se codifican utilizando un solo octeto con el mismo valor binario como ASCII, lo que hace de texto ASCII válidos válido UTF-8-codificado Unicode también.

HTML 4 soporta UTF-8. HTML 5 es compatible con UTF-8 y UTF-16!


El HTML5 estándar: Unicode UTF-8

Debido a que los juegos de caracteres en la norma ISO-8859 fue limitado en tamaño, y no es compatible en entornos multilingües, el Consorcio Unicode desarrolló el estándar Unicode.

Las cubiertas estándar Unicode (almost) todos los caracteres, signos de puntuación y símbolos que existen.

Unicode permite el procesamiento, el almacenamiento y el transporte de texto independiente de la plataforma y lenguaje.

La codificación de caracteres por defecto en HTML-5 es UTF-8.

Si una página web HTML 5 usa una codificación diferente a UTF-8, se debe especificar en el <meta> etiqueta como:

Ejemplo

<meta charset="ISO-8859-1">

La diferencia entre Unicode y UTF-8

Unicode es un conjunto de caracteres. UTF-8 está codificando.

Unicode es una lista de caracteres con números decimales únicas (code points) . A = 41, B = 42, C = 43, ....

Esta lista de números decimales representan la serie de "hello" : 104 101 108 108 111

La codificación es la forma en que estos números se traducen en números binarios para ser almacenados en un ordenador:

Codificación UTF-8 almacenará "Hola" como este (binary) : 01101000 01100101 01101100 01101100 01101111

Codificación se traduce en un número binario. Juegos de caracteres se traduce caracteres a números.


UTF-8 Códigos de caracteres HTML5

A continuación se muestra una lista de algunos de los caracteres UTF-8 códigos de caracteres soportados por HTML 5:

Los códigos de caracteres Decimal hexadecimal
Controles C0 y Latín básico 0-1270000-007F
Controles C1 y Latin-1 Suplemento 128-2550080-00FF
América Extended-A 256-3830100-017F
América extendido-B 384-5910180-024F
Los modificadores de espaciado 688-76702B0-02FF
marcas diacríticas 768-8790300-036F
Griego y copto 880-10230370-03FF
cirílico básico 1024-12790400-04FF
Suplemento cirílico 1280-13270500-052F
Puntuacion general 8192-83032000-206F
Símbolos de moneda 8352-839920A0-20CF
Símbolos a letras 8448-85272100-214F
Las flechas 8592-87032190-21FF
Operadores matemáticos 8704-89592200-22FF
Box Dibujos 9472-95992500-257F
elementos de bloque 9600-96312580-259F
Formas geométricas 9632-972725A0-25FF
Símbolos misceláneos 9728-99832600-26FF
dingbats 9984-101752700-27BF