Najnowsze tutoriale tworzenie stron internetowych
 

HTML Zestawy znaków


Aby poprawnie wyświetlić stronę HTML, przeglądarka musi wiedzieć, co zestaw znaków (character encoding) używać.


HTML Zestawy znaków

Co to jest poprawne kodowanie znaków do wykorzystania w HTML?

Dla HTML5, domyślne kodowanie znaków UTF-8.

Nie zawsze tak było. Kodowanie znaków dla wczesnej internecie był ASCII.

Później, z HTML 2.0 do HTML 4.01, ISO-8859-1 został uznany za standard.

XML i HTML5, UTF-8 w końcu przybył, i rozwiązać wiele problemów kodowania znaków.

Poniżej znajduje się krótki opis standardów kodowania znaków.


Na początku: ASCII

Informacje o komputerze (numbers, texts, and pictures) jest przechowywana jako binarne zer i jedynek (01000101) w elektronice.

Aby ujednolicić przechowywanie znaków alfanumerycznych, American Standard Code for Information Interchange (ASCII) został utworzony. To definiuje unikalny binarny numer 7-bitów dla każdego znaku chowanym w celu wspierania numerów od 0-9, górna / dolna przypadek alfabetu angielskiego (az, AZ) , a niektóre znaki specjalne, takie jak! + $ - ( ) @ <>.

Od ASCII używany jeden bajt (7 bitów dla charakteru i jeden bit parzystości dla kontroli transmisji), może to stanowić jedynie 128 różnych znaków. Ponadto 32 z tych znaków były zarezerwowane dla innych celów kontrolnych.

Największą słabością z ASCII było to, że wykluczone są w angielskich liter.

ASCII jest nadal w powszechnym użyciu do dziś, zwłaszcza w dużych systemach komputerowych mainframe.

Dla bliższego spojrzenia, prosimy o zapoznania się z naszą Kompletna ASCII Reference .


W systemie Windows: ANSI

ANSI (also called Windows-1252) był domyślny zestaw znaków w systemie Windows, do Windows 95.

ANSI jest rozszerzeniem ASCII, z dodatkiem znaków międzynarodowych. Wykorzystuje pełnego bajtu (8-bits) do reprezentowania 256 różnych postaci.

Od ANSI jest domyślny zestaw znaków w systemie Windows, to jest obsługiwane przez wszystkie przeglądarki.

Dla bliższego spojrzenia, prosimy o zapoznania się z naszą Kompletna ANSI Reference .


W HTML 4: ISO-8859-1

Ponieważ większość krajów używać znaków spoza ASCII, domyślne kodowanie znaków w standardzie HTML 2.0 została zmieniona na ISO-8859-1.

ISO-8859-1 jest rozszerzeniem ASCII, z dodatkiem znaków międzynarodowych. Jak ANSI, używa pełny bajt reprezentuje dwa razy więcej znaków niż ASCII.

Kiedy przeglądarek wykryć ISO-8859-1 na stronie internetowej, zazwyczaj domyślnie ANSI, ponieważ ANSI jest identyczny z ISO-8859-1 z wyjątkiem, że ANSI posiada 32 dodatkowych znaków.

Jeżeli HTML 4 strona używa innego zestawu znaków niż ISO-8859-1, powinien być określony w <meta> tag jak:

Przykład

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Domyślną zestaw znaków dla HTML5 jest UTF-8.
Wszystkie 4 procesory obsługują HTML UTF-8, a wszystkie procesory XML i HTML5 obsługują zarówno UTF-8 i UTF-16.

Dla bliższego spojrzenia, prosimy o zapoznania się z naszą Kompletna ISO-8859-1 Reference .


W HTML5: Unicode UTF-8

Ponieważ zestawy znaków wymienione powyżej są ograniczone, a nie jest kompatybilny w środowiskach wielojęzycznych Konsorcjum Unicode opracowany standard Unicode.

Pokrywy Standardowe Unicode (almost) wszystkie znaki, znaki przestankowe i symbole świata.

Unicode umożliwia przetwarzanie, przechowywanie i transport tekstu, niezależne od platformy i języka.

Domyślne kodowanie znaków w HTML5 jest UTF-8.

Dla bliższego spojrzenia, prosimy o zapoznania się z naszą Kompletna Reference Unicode .