Ultimele tutoriale de dezvoltare web
 

HTML Unicode (UTF-8) Referință


Unicode Consortium

Unicode Consortium dezvolta standardul Unicode. Scopul lor este de a înlocui seturile de caractere existente cu formatul standard de Unicode Transformare (UTF) .

Standardul Unicode a devenit un succes și este implementat în HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. Standardul Unicode este, de asemenea, susținută în multe sisteme de operare și toate browserele moderne.

Unicode Consortium cooperează cu principalele organizații de dezvoltare de standarde, cum ar fi ISO, W3C, și ECMA.


Seturi de caractere Unicode

Unicode pot fi puse în aplicare prin diferite seturi de caractere. Cele mai frecvent utilizate sunt codificări UTF-8 și UTF-16:

Set de caractere Descriere
UTF-8 Un personaj din UTF8 poate fi de la 1 la 4 octeți lungime. UTF-8 poate reprezenta orice caracter în standardul Unicode. UTF-8 este compatibil cu ASCII. UTF-8 este codificarea preferată pentru paginile de e-mail și web
UTF-16 16-bit Unicode Transformation Format este o codare de caractere de lungime variabilă pentru Unicode, capabil codifica intregul repertoriu Unicode. UTF-16 este utilizat în sisteme și medii de operare majore, cum ar fi Microsoft Windows, Java și .NET.

Tip: Primele 128 de caractere Unicode (which correspond one-to-one with ASCII) sunt codificate utilizând un singur octet cu aceeași valoare binară ca și ASCII, care face ca textul ASCII valid valid UTF-8-codificate Unicode, de asemenea.

HTML 4 suportă UTF-8. HTML 5 suportă atât UTF-8 și UTF-16!


HTML5 Standard: Unicode UTF-8

Deoarece seturile de caractere în ISO-8859 a fost limitat, și nu sunt compatibile în medii multilingve, Unicode Consortium a dezvoltat standardul Unicode.

Capacele Unicode standard (almost) toate caracterele, semnele de punctuație și simbolurile din lume.

Unicode permite prelucrarea, stocarea și transportul independent de text a platformei și de limbă.

Codificarea de caractere implicit în HTML-5 este UTF-8.

Dacă o pagină web HTML5 utilizează un set diferit de caractere decât UTF-8, ar trebui să fie specificat în <meta> tag - ul cum ar fi:

Exemplu

<meta charset="ISO-8859-1">

Diferența între Unicode și UTF-8

Unicode este un set de caractere. UTF-8 este de codificare.

Unicode este o listă de caractere cu numere unice zecimale (code points) de (code points) . A = 41, B = 42, C = 43, ....

Această listă de numere zecimale reprezintă șirul de caractere "hello" : 104 101 108 108 111

Codificarea este modul în care aceste numere sunt traduse în numere binare care urmează să fie stocate într-un calculator:

Codificarea UTF-8 va stoca "hello" ca aceasta (binary) : 01101000 01100101 01101100 01101100 01101111

Codificarea se traduce numere în binar. Seturi de caractere se traduce de caractere la numere.


HTML5 UTF-8 coduri de caractere

Mai jos este o listă a unora dintre UTF-8-coduri de caractere acceptate de HTML5:

codurile de caractere Zecimal hexazecimal
Controale C0 și de bază Latină 0-1270000-007F
Controale C1 și Latin-1 Supliment 128-2550080-00FF
Latină Extended-A 256-3830100-017F
Latină Extended-B 384-5910180-024F
Modificatorii spaţiere 688-76702B0-02FF
diacriticele 768-8790300-036F
Greacă și coptă 880-10230370-03FF
chirilic de bază 1024-12790400-04FF
Supliment chirilic 1280-13270500-052F
General Punctuația 8192-83032000-206F
simboluri monetare 8352-839920A0-20CF
Letterlike Simboluri 8448-85272100-214F
Săgeți 8592-87032190-21FF
Operatorii matematice 8704-89592200-22FF
Caseta Desene 9472-95992500-257F
Bloc Elemente 9600-96312580-259F
Forme geometrice 9632-972725A0-25FF
Simboluri Diverse 9728-99832600-26FF
dingbats 9984-101752700-27BF