Последние учебники веб-разработки
×

HTML Кодировки

HTML Кодировки HTML ASCII HTML ANSI HTML ISO-8859 HTML Символы HTML UTF-8

HTML UTF-8

Latin базовый Latin дополнение Latin расширенный A Latin расширенный B изменения пробела диакритических знаков Греческий и коптский Cyrillic базовый Cyrillic дополнение

HTML Символы

Общая пунктуация Currency Символы Letterlike Символы Стрелки Математические операторы Вставка Чертежи Блок Elements Геометрические фигуры Misc Символы Dingbats

HTML юридические лица

HTML4 юридические лица HTML5 юридические лица A HTML5 юридические лица B HTML5 юридические лица C HTML5 юридические лица D HTML5 юридические лица E HTML5 юридические лица F HTML5 юридические лица G HTML5 юридические лица H HTML5 юридические лица I HTML5 юридические лица J HTML5 юридические лица K HTML5 юридические лица L HTML5 юридические лица M HTML5 юридические лица N HTML5 юридические лица O HTML5 юридические лица P HTML5 юридические лица Q HTML5 юридические лица R HTML5 юридические лица S HTML5 юридические лица T HTML5 юридические лица U HTML5 юридические лица V HTML5 юридические лица W HTML5 юридические лица X HTML5 юридические лица Y HTML5 юридические лица Z

 

HTML-Unicode (UTF-8) Ссылка


Консорциум Unicode

Консорциум Unicode разрабатывает стандарт Unicode. Их цель состоит в том, чтобы заменить существующие наборы символов со стандартным форматом преобразование Unicode (UTF) .

Стандарт Unicode стал успешным, и реализуется в HTML, XML, Java, JavaScript, электронная почта, ASP, PHP и т.д. Стандарт Unicode также поддерживается во многих операционных системах и во всех современных браузерах.

Консорциум Unicode сотрудничает с ведущими организациями по разработке стандартов, таких как ISO, W3C и ECMA.


Наборы символов Unicode

Unicode может быть реализован с помощью различных наборов символов. Наиболее часто используемые кодировки UTF-8 и UTF-16:

Набор символов Описание
UTF-8 Персонаж в UTF8 может быть от 1 до 4 байт длиной. UTF-8, может представлять любой символ в стандарте Unicode. UTF-8 обратно совместима с ASCII. UTF-8, является предпочтительным для кодирования сообщений электронной почты и веб-страниц
UTF-16 16-битовый формат преобразования Юникода является кодировка символов переменной длины для Unicode, способна кодировать весь репертуар Unicode. UTF-16 используется в основных операционных системах и средах, таких как Microsoft Windows, Java и .NET.

Tip: Первые 128 символов Unicode (which correspond one-to-one with ASCII) кодируются с использованием одного октета с тем же двоичным значением в ASCII, что делает действительный текст ASCII действует UTF-8 кодировке Unicode , а также.

HTML 4 поддерживает UTF-8. HTML 5 поддерживает как UTF-8 и UTF-16!


HTML5 стандарт: Unicode, UTF-8,

Поскольку наборы символов в ISO-8859 был ограничен в размерах, и не совместимы в многоязычной среде, Консорциум Unicode разработал стандарт Unicode.

В Unicode Стандартные крышки (almost) все символы, знаки препинания и символы в мире.

Unicode позволяет обработку, хранение и транспортировку текст независимо от платформы и языка.

Кодировка символов по умолчанию в HTML-5 является UTF-8.

Если веб - страница HTML5 использует другой набор символов , чем UTF-8, он должен быть указан в <meta> тэга как:

пример

<meta charset="ISO-8859-1">

Разница между Unicode и UTF-8

Unicode представляет собой набор символов. UTF-8 кодирует.

Unicode список символов с уникальными десятичных чисел (code points) . А = 41, В = 42, С = 43, ....

Этот список десятичных чисел представляют собой строку "hello" : 104 101 108 108 111

Кодирование как эти цифры переводятся в двоичные числа, которые будут храниться в компьютере:

UTF-8 кодировка будет хранить "Привет" , как это (binary) : 01101000 01100101 01101100 01101100 01101111

Кодирование переводит числа в двоичном виде . Наборы символов преобразуют символы цифр.


HTML5 UTF-8 кодов символов

Ниже приведен список некоторых из UTF-8 кодов символов, поддерживаемых HTML5:

Символьные коды Десятичная дробь шестнадцатеричный
Управление C0 и Basic Latin 0-1270000-007F
Элементы управления C1 и Latin-1 Supplement 128-2550080-00FF
Расширенная латиница-A 256-3830100-017F
Расширенная латиница-B 384-5910180-024F
Дистанционные Модификаторы 688-76702B0-02FF
диакритические знаки 768-8790300-036F
Греческий и коптский 880-10230370-03FF
кириллица Basic 1024-12790400-04FF
кириллица Дополнение 1280-13270500-052F
Общая пунктуация 8192-83032000-206F
Символы валют 8352-839920A0-20CF
Буквоподобные символы 8448-85272100-214F
Стрелки 8592-87032190-21FF
Математические операторы 8704-89592200-22FF
Вставка Чертежи 9472-95992500-257F
Блок элементов 9600-96312580-259F
Геометрические фигуры 9632-972725A0-25FF
Различные символы 9728-99832600-26FF
Dingbats 9984-101752700-27BF