En son web geliştirme öğreticiler
 

HTML Unicode (UTF-8) Referans


Unicode Consortium

Unicode Consortium Unicode Standard geliştirir. Onların amacı standart Unicode Transformation Format ile mevcut karakter kümelerini değiştirmektir (UTF) .

Unicode Standardı başarılı olmuştur ve aynı zamanda birçok işletim sistemleri ve tüm modern tarayıcılarda desteklenir vb Unicode standardı HTML, XML, Java, JavaScript, e-posta, ASP, PHP, içinde uygulanmaktadır.

Unicode Consortium ISO, W3C ve ECMA gibi lider standart geliştirme kuruluşlarla işbirliği yapmaktadır.


Unicode karakter kümesi

Unicode farklı karakter kümeleri tarafından uygulanabilir. En sık kullanılan kodlamaları UTF-8 ve UTF-16 şunlardır:

Karakter takımı Açıklama
UTF-8 UTF8 bir karakter uzunluğunda 1 ila 4 byte arasında olabilir. UTF-8 Unicode standardında herhangi bir karakter temsil edebilir. UTF-8 ASCII ile geriye dönük uyumludur. UTF-8, e-posta ve web sayfaları için tercih edilen kodlama
UTF-16 16 bitlik bir Unicode Dönüşüm Biçim tüm Unicode repertuarı kodlama yeteneğine sahip Unicode bir değişken uzunlukta bir karakter kodlama vardır. UTF-16, Microsoft Windows, Java ve .NET gibi büyük işletim sistemleri ve ortamlar, kullanılır.

Tip: Unicode ilk 128 karakter (which correspond one-to-one with ASCII) geçerli ASCII metin geçerli yanı Unicode UTF-8 kodlu hale ASCII aynı ikili değeri olan tek bir sekizli kullanarak kodlanmıştır.

HTML 4 UTF-8 destekler. HTML 5 UTF-8 ve UTF-16 hem destekliyor!


HTML5 Standart: Unicode UTF-8

ISO-8859 karakter setleri boyutu sınırlıdır ve çok dilli ortamlarda uyumlu değildi çünkü Unicode Consortium Unicode Standard geliştirdi.

Unicode Standardı kapakları (almost) dünyadaki tüm karakterler, noktalama işaretleri ve semboller.

Unicode işleme, depolama ve platform ve dilin metin bağımsız olarak taşınmasını sağlar.

HTML 5 varsayılan karakter kodlama UTF-8'dir.

Bir HTML5 web sayfası UTF-8 dışında farklı bir karakter seti kullanıyorsa, belirtilmelidir <meta> etiketi gibi:

Örnek

<meta charset="ISO-8859-1">

Unicode ve UTF-8 Arasındaki Fark

Unicode karakter kümesidir. UTF-8 kodlar.

Unicode eşsiz ondalık sayılarla karakterlerin bir listesidir (code points) . A = 41, B = 42, C 43 = ....

Ondalık sayılar Bu liste dizesini temsil "hello" 104 101 108 108 111:

Kodlama bu rakamlar bilgisayarda saklanmasına ikili sayı çevrilir nasıl:

Bu gibi "Merhaba" depolayacak UTF-8 kodlaması (binary) : 01101000 01100101 01101100 01101100 01101111

Kodlama ikili içine numaralarını çevirir. Karakter setleri sayılara karakterleri çevirir.


HTML5 UTF-8 Karakter Kodları

Aşağıda HTML5 tarafından desteklenen UTF-8 karakter kodlarının bazılarının bir listesi:

Karakter kodları Ondalık onaltılık
C0 Kontroller ve Temel Latince 0-1270000-007F
C1-Kontroller ve Latince-1 Ek 128-2550080-00FF
Latince Genişletilmiş-A 256-3830100-017F
Latince Genişletilmiş-B 384-5910180-024F
Boşluk Düzenleyiciler 688-76702B0-02FF
aksan Marks 768-8790300-036F
Yunan ve Kıpti 880-10230370-03FF
Kiril Temel 1024-12790400-04FF
Kiril Ek 1280-13270500-052F
Genel Noktalama 8192-83032000-206F
Döviz Sembolleri 8352-839920A0-20CF
Harfsel Simgeler 8448-85272100-214F
Oklar 8592-87032190-21FF
Matematiksel Operatörler 8704-89592200-22FF
kutu Çizimleri 9472-95992500-257F
Blok Elemanları 9600-96312580-259F
Geometrik şekiller 9632-972725A0-25FF
Çeşitli Simgeler 9728-99832600-26FF
Dingbat'ler 9984-101752700-27BF