HTML Unicode (UTF-8) di riferimento

Il Consorzio Unicode

Il Consorzio Unicode sviluppa lo standard Unicode. Il loro obiettivo è quello di sostituire i set di caratteri esistenti con il suo formato Unicode standard di trasformazione (UTF) .

Lo standard Unicode è diventato un successo e viene implementato in HTML, XML, Java, JavaScript, e-mail, ASP, PHP, ecc Lo standard Unicode è supportato anche in molti sistemi operativi e tutti i browser moderni.

Il Consorzio Unicode collabora con le principali organizzazioni di sviluppo standard, come ISO, W3C e ECMA.

Il set di caratteri Unicode

Unicode può essere implementata da diversi set di caratteri. Le codifiche più comunemente usati sono UTF-8 e UTF-16:

Set di caratteri	Descrizione
UTF-8	Un personaggio in UTF8 può essere da 1 a 4 byte. UTF-8 può rappresentare qualsiasi carattere nello standard Unicode. UTF-8 è compatibile con ASCII. UTF-8 è la codifica preferito per e-mail e pagine web
UTF-16	16 bit Unicode Transformation Format è una codifica a lunghezza variabile per Unicode, capace di codificare l'intero repertorio Unicode. UTF-16 è utilizzato nei principali sistemi operativi e ambienti, come Microsoft Windows, Java e .NET.

Tip: I primi 128 caratteri di Unicode (which correspond one-to-one with ASCII) sono codificati utilizzando un singolo ottetto con lo stesso valore binario come ASCII, rendendo testo ASCII valido valido UTF-8-codificato Unicode pure.

HTML 4 supporta UTF-8. HTML 5 supporta sia UTF-8 e UTF-16!

L'HTML5 standard: Unicode UTF-8

Poiché i set di caratteri a ISO-8859 è stato limitato in termini di dimensioni, e non è compatibile in ambienti multilingue, Unicode Consortium ha sviluppato lo standard Unicode.

Le copertine Unicode standard (almost) tutti i personaggi, punteggiatura e simboli del mondo.

Unicode permette lavorazione, lo stoccaggio e il trasporto di testo indipendente dalla piattaforma e del linguaggio.

La codifica dei caratteri di default in HTML-5 è UTF-8.

Se una pagina web HTML5 utilizza un set di caratteri diverso da UTF-8, dovrebbe essere specificato nel <meta> tag come:

Esempio

La differenza tra Unicode e UTF-8

Unicode è un set di caratteri. UTF-8 è la codifica.

Unicode è un elenco di caratteri con i numeri decimali unici (code points) . A = 41, B = 42, C = 43, ....

Questo elenco di numeri decimali rappresentano la stringa "hello" : 104 101 108 108 111

La codifica è come questi numeri si traducono in numeri binari per essere memorizzati in un computer:

UTF-8 codifica memorizza "ciao" come questo (binary) : 01101000 01100101 01101100 01101100 01.101.111

Codifica traduce i numeri in binario. Set di caratteri per tradurre i caratteri in numeri.

HTML5 UTF-8 codici di carattere

Di seguito è riportato un elenco di alcuni dei caratteri UTF-8 codici di caratteri supportati da HTML5:

codici di carattere	Decimale	esadecimale
Controlli C0 e Latino di base	0-127	0000-007F
Controlli C1 e Latin-1 Supplement	128-255	0080-00FF
Latino esteso-A	256-383	0100-017F
Latino esteso-B	384-591	0180-024F
modificatori di spaziatura	688-767	02B0-02FF
segni diacritici	768-879	0300-036F
Greci e copti	880-1023	0370-03FF
cirillico di base	1024-1279	0400-04FF
Supplemento cirillico	1280-1327	0500-052F
Punteggiatura generale	8192-8303	2000-206F
Simboli di valuta	8352-8399	20A0-20CF
lettere Simboli	8448-8527	2100-214F
frecce	8592-8703	2190-21FF
Operatori matematici	8704-8959	2200-22FF
Simbolo grafico	9472-9599	2500-257F
Block Elementi	9600-9631	2580-259F
Forme geometriche	9632-9727	25A0-25FF
Simboli vari	9728-9983	2600-26FF
Dingbats	9984-10175	2700-27BF

❮ Precedente Successivo riferimento ❯

HTML Set di caratteri

HTML UTF-8

HTML Simboli