Gli ultimi tutorial di sviluppo web
 

HTML Unicode (UTF-8) di riferimento


Il Consorzio Unicode

Il Consorzio Unicode sviluppa lo standard Unicode. Il loro obiettivo è quello di sostituire i set di caratteri esistenti con il suo formato Unicode standard di trasformazione (UTF) .

Lo standard Unicode è diventato un successo e viene implementato in HTML, XML, Java, JavaScript, e-mail, ASP, PHP, ecc Lo standard Unicode è supportato anche in molti sistemi operativi e tutti i browser moderni.

Il Consorzio Unicode collabora con le principali organizzazioni di sviluppo standard, come ISO, W3C e ECMA.


Il set di caratteri Unicode

Unicode può essere implementata da diversi set di caratteri. Le codifiche più comunemente usati sono UTF-8 e UTF-16:

Set di caratteri Descrizione
UTF-8 Un personaggio in UTF8 può essere da 1 a 4 byte. UTF-8 può rappresentare qualsiasi carattere nello standard Unicode. UTF-8 è compatibile con ASCII. UTF-8 è la codifica preferito per e-mail e pagine web
UTF-16 16 bit Unicode Transformation Format è una codifica a lunghezza variabile per Unicode, capace di codificare l'intero repertorio Unicode. UTF-16 è utilizzato nei principali sistemi operativi e ambienti, come Microsoft Windows, Java e .NET.

Tip: I primi 128 caratteri di Unicode (which correspond one-to-one with ASCII) sono codificati utilizzando un singolo ottetto con lo stesso valore binario come ASCII, rendendo testo ASCII valido valido UTF-8-codificato Unicode pure.

HTML 4 supporta UTF-8. HTML 5 supporta sia UTF-8 e UTF-16!


L'HTML5 standard: Unicode UTF-8

Poiché i set di caratteri a ISO-8859 è stato limitato in termini di dimensioni, e non è compatibile in ambienti multilingue, Unicode Consortium ha sviluppato lo standard Unicode.

Le copertine Unicode standard (almost) tutti i personaggi, punteggiatura e simboli del mondo.

Unicode permette lavorazione, lo stoccaggio e il trasporto di testo indipendente dalla piattaforma e del linguaggio.

La codifica dei caratteri di default in HTML-5 è UTF-8.

Se una pagina web HTML5 utilizza un set di caratteri diverso da UTF-8, dovrebbe essere specificato nel <meta> tag come:

Esempio

<meta charset="ISO-8859-1">

La differenza tra Unicode e UTF-8

Unicode è un set di caratteri. UTF-8 è la codifica.

Unicode è un elenco di caratteri con i numeri decimali unici (code points) . A = 41, B = 42, C = 43, ....

Questo elenco di numeri decimali rappresentano la stringa "hello" : 104 101 108 108 111

La codifica è come questi numeri si traducono in numeri binari per essere memorizzati in un computer:

UTF-8 codifica memorizza "ciao" come questo (binary) : 01101000 01100101 01101100 01101100 01.101.111

Codifica traduce i numeri in binario. Set di caratteri per tradurre i caratteri in numeri.


HTML5 UTF-8 codici di carattere

Di seguito è riportato un elenco di alcuni dei caratteri UTF-8 codici di caratteri supportati da HTML5:

codici di carattere Decimale esadecimale
Controlli C0 e Latino di base 0-1270000-007F
Controlli C1 e Latin-1 Supplement 128-2550080-00FF
Latino esteso-A 256-3830100-017F
Latino esteso-B 384-5910180-024F
modificatori di spaziatura 688-76702B0-02FF
segni diacritici 768-8790300-036F
Greci e copti 880-10230370-03FF
cirillico di base 1024-12790400-04FF
Supplemento cirillico 1280-13270500-052F
Punteggiatura generale 8192-83032000-206F
Simboli di valuta 8352-839920A0-20CF
lettere Simboli 8448-85272100-214F
frecce 8592-87032190-21FF
Operatori matematici 8704-89592200-22FF
Simbolo grafico 9472-95992500-257F
Block Elementi 9600-96312580-259F
Forme geometriche 9632-972725A0-25FF
Simboli vari 9728-99832600-26FF
Dingbats 9984-101752700-27BF