Najnowsze tutoriale tworzenie stron internetowych
 

HTML Unicode (UTF-8) Referencje


Konsorcjum Unicode

Konsorcjum Unicode opracowuje standard Unicode. Ich celem jest zastąpienie istniejących zestawów znaków z jej standardowym formacie Transformacji Unicode (UTF) .

Standard Unicode stał się sukcesem i jest zaimplementowany w HTML, XML, Java, JavaScript, e-mail, ASP, PHP itp standard Unicode jest również wspierany w wielu systemach operacyjnych i wszystkich nowoczesnych przeglądarkach.

Konsorcjum Unicode współpracuje z czołowymi organizacjami rozwoju norm, takich jak ISO, W3C i ECMA.


Zestawy znaków Unicode

Unicode mogą być realizowane przez różnych zestawów znaków. Najbardziej powszechnie wykorzystywane są kodowania UTF-8 i UTF-16:

Zestaw znaków Opis
UTF-8 Postać w UTF-8 może wynosić od 1 do 4 bajtów. UTF-8 może oznaczać dowolny znak w standardzie Unicode. UTF-8 jest wstecznie kompatybilny z ASCII. UTF-8 jest korzystna dla kodowania e-mail i stron
UTF-16 16-bit Unicode Transformation Format jest kodowanie znaków o zmiennej długości dla Unicode, zdolne do kodowania cały repertuar Unicode. UTF-16 jest stosowany w dużych systemach operacyjnych i środowiskach, takich jak Microsoft Windows, Java i .NET.

Tip: Pierwsze 128 znaków Unicode (which correspond one-to-one with ASCII) są zakodowane przy użyciu jednego oktetu o tej samej wartości binarne ASCII, co ważne ASCII ważne UTF-8 kodowane Unicode również.

HTML 4 obsługuje UTF-8. HTML 5 obsługuje UTF-8 i UTF-16!


HTML5 standardowa: unicode UTF-8

Ponieważ zestawy znaków w ISO-8859 został ograniczony rozmiar, a nie jest kompatybilny w środowiskach wielojęzycznych Konsorcjum Unicode opracowany standard Unicode.

Pokrywy Standardowe Unicode (almost) wszystkie znaki, znaki przestankowe i symbole świata.

Unicode umożliwia przetwarzanie, przechowywanie i transport Niepodległych tekstu platformy i języka.

Domyślne kodowanie znaków w HTML-5 jest UTF-8.

Jeśli strona internetowa HTML5 używa innego zestawu znaków niż UTF-8, powinien być określony w <meta> tag jak:

Przykład

<meta charset="ISO-8859-1">

Różnica między Unicode i UTF-8

Unicode jest zestaw znaków. UTF-8 kodowania.

Unicode jest lista postaci z unikalnymi liczb dziesiętnych (code points) . A = 41 B = 42, C = 43, ....

Ta lista liczb po przecinku stanowią ciąg "hello" : 104 101 108 108 111

Kodowanie jest to, jak te liczby są przeliczane na liczb binarnych być przechowywane w komputerze:

UTF-8 kodowania zapamiętuje "Dzień dobry", jak to (binary) : 01101000 01100101 01101100 01101100 01101111

Kodowanie przekłada numerów w formacie binarnym. Zestawy znaków przekłada znaki liczb.


HTML5 UTF-8 kody znaków

Poniżej znajduje się lista niektórych z UTF-8 kodów znaków obsługiwanych przez HTML5:

kody znaków Dziesiętny Szesnastkowy
Kontrole C0 i podstawowe Łacińskiej 0-1270000-007F
Kontrole C1 i Latin-1 Supplement 128-2550080-00FF
Rozszerzony łaciński-A 256-3830100-017F
Rozszerzony łaciński-B 384-5910180-024F
Oddzielone Modyfikatory 688-76702B0-02FF
Znaki diakrytyczne 768-8790300-036F
Grecki i koptyjski 880-10230370-03FF
Podstawowe cyrylica 1024-12790400-04FF
Uzupełnienie cyrylicy 1280-13270500-052F
Ogólna interpunkcja 8192-83032000-206F
Symbole walut 8352-839920A0-20CF
Letterlike Symbole 8448-85272100-214F
strzałki 8592-87032190-21FF
Operatory matematyczne 8704-89592200-22FF
Box Rysunki 9472-95992500-257F
blok Elements 9600-96312580-259F
Figury geometryczne 9632-972725A0-25FF
Różnorodne symbole 9728-99832600-26FF
dingbats 9984-101752700-27BF