tutoriais mais recente desenvolvimento web
 

HTML Unicode (UTF-8) Referência


O Consórcio Unicode

O Consórcio Unicode desenvolve o padrão Unicode. Seu objetivo é substituir os conjuntos de caracteres existentes com o seu formato Unicode Transformation padrão (UTF) .

O Padrão Unicode tornou-se um sucesso e é implementado em HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. O padrão Unicode também é suportado em muitos sistemas operacionais e todos os navegadores modernos.

O Consórcio Unicode coopera com as organizações de desenvolvimento de padrões de liderança, como ISO, W3C e ECMA.


Os conjuntos de caracteres Unicode

Unicode pode ser implementado por diferentes conjuntos de caracteres. As codificações mais utilizados são UTF-8 e UTF-16:

Conjunto de caracteres Descrição
UTF-8 Um personagem em UTF8 pode ser de 1 a 4 bytes de comprimento. UTF-8 pode representar qualquer caractere no padrão Unicode. UTF-8 é compatível com ASCII. UTF-8 é a codificação preferida para e-mail e páginas da web
UTF-16 16 bits formato de transformação Unicode é uma codificação de caracteres de comprimento variável para Unicode, capaz de codificar para o repertório inteiro de Unicode. UTF-16 é usado nos principais sistemas operacionais e ambientes, como Microsoft Windows, Java e .NET.

Tip: Os primeiros 128 caracteres de Unicode (which correspond one-to-one with ASCII) são codificados usando um único octeto com o mesmo valor binário como ASCII, tornando texto ASCII válido válido UTF-8-codificado Unicode bem.

HTML 4 suporta UTF-8. HTML 5 suporta UTF-8 e UTF-16!


O HTML5 padrão: Unicode UTF-8

Porque os conjuntos de caracteres em ISO-8859 foi limitado em tamanho, e não compatíveis em ambientes multilingues, o Consórcio Unicode desenvolveu o padrão Unicode.

As tampas Unicode padrão (almost) todos os personagens, pontuações e símbolos do mundo.

Unicode permite o processamento, armazenamento e transporte de texto independente de plataforma e linguagem.

A codificação de caracteres padrão no HTML-5 é UTF-8.

Se uma página web HTML5 usa um conjunto de caracteres diferente de UTF-8, que deve ser especificado no <meta> tag como:

Exemplo

<meta charset="ISO-8859-1">

A diferença entre Unicode e UTF-8

Unicode é um conjunto de caracteres. UTF-8 é a codificação.

Unicode é uma lista de caracteres com números decimais únicas (code points) . A = 41, B = 42, C = 43, ....

Esta lista de números decimais representam a string "hello" : 104 101 108 108 111

A codificação é como esses números são traduzidos em números binários sejam armazenados em um computador:

UTF-8 irá armazenar "Olá" como esta (binary) : 01101000 01100101 01101100 01101100 01101111

Encoding traduz números em binário. Conjuntos de caracteres converte caracteres para números.


UTF-8 Códigos de caracteres HTML5

Abaixo está uma lista de alguns dos UTF-8 códigos de caracteres suportados pelo HTML5:

códigos de caracteres Decimal hexadecimal
Controles C0 e Latim básico 0-1270000-007F
Controlos C1 e Latina-1 Suplemento 128-2550080-00FF
Latim estendido-A 256-3830100-017F
Latim estendido-B 384-5910180-024F
Os modificadores de espaçamento 688-76702B0-02FF
Os sinais diacríticos 768-8790300-036F
Grega e copta 880-10230370-03FF
cirílico Básico 1024-12790400-04FF
Suplemento cirílico 1280-13270500-052F
Pontuação geral 8192-83032000-206F
Símbolos de moeda 8352-839920A0-20CF
Símbolos 8448-85272100-214F
Setas; flechas 8592-87032190-21FF
Operadores matemáticos 8704-89592200-22FF
caixa de Desenhos 9472-95992500-257F
Elementos bloco 9600-96312580-259F
Formas geométricas 9632-972725A0-25FF
Miscellaneous Symbols 9728-99832600-26FF
Símbolos 9984-101752700-27BF