أحدث البرامج التعليمية وتطوير الشبكة
 

HTML يونيكود (UTF-8) المرجع


اتحاد يونيكود

اتحاد يونيكود تطوير معيار يونيكود. هدفهم هو استبدال مجموعات الأحرف الموجودة مع تنسيق يونيكود التحول شعلته (UTF) .

أصبح معيار يونيكود نجاحا ويتم تنفيذه في HTML، XML، جافا، جافا سكريبت، البريد الإلكتروني، ASP، PHP، وما إلى ذلك معيار يونيكود ويدعم أيضا في العديد من أنظمة التشغيل وجميع المتصفحات الحديثة.

وتتعاون هيئة يونيكود مع منظمات وضع المعايير الرائدة، مثل ISO، W3C، وECMA.


مجموعات الأحرف يونيكود

يونيكود يمكن أن تنفذها مجموعات أحرف مختلفة. ترميزات الأكثر شيوعا هي UTF-8 و UTF-16:

مجموعة الأحرف وصف
UTF-8 حرف في UTF8 يمكن أن يكون 1-4 بايت. UTF-8 يمكن أن تمثل أي حرف في معيار يونيكود. UTF-8 هو معكوس متوافق مع ASCII. UTF-8 هو الترميز المفضل لصفحات البريد الإلكتروني وشبكة الإنترنت
UTF-16 16-بت تنسيق تحويل Unicode هي ترميز الأحرف متغيرة الطول يونيكود، قادرة على ترميز يونيكود مرجع كامل. يستخدم UTF-16 في النظم وبيئات التشغيل الرئيسية، مثل مايكروسوفت ويندوز، جافا و. NET.

Tip: الأحرف الأولى من 128 يونيكود (which correspond one-to-one with ASCII) يتم ترميز باستخدام الثماني واحد بنفس قيمة ثنائية كما ASCII، مما يجعل النص ASCII صحيح صحيح UTF-8 ترميز يونيكود كذلك.

HTML 4 يدعم UTF-8. HTML 5 يدعم كلا من UTF-8 و UTF-16!


وHTML5 القياسية: يونيكود UTF-8

لأن مجموعات الأحرف في ISO-8859 تم محدودة الحجم، وغير متوافق في بيئات متعددة اللغات، وضعت هيئة يونيكود معيار يونيكود.

يغطي يونيكود القياسي (almost) كل الشخصيات، علامات ترقيم، والرموز في العالم.

تمكن يونيكود معالجة وتخزين ونقل مستقلة نص منصة واللغة.

ترميز الأحرف الافتراضي في HTML 5 هو UTF-8.

إذا كان يستخدم صفحة ويب HTML5 مجموعة أحرف مختلفة من UTF-8، وينبغي أن تكون محددة في <meta> العلامة مثل:

مثال

<meta charset="ISO-8859-1">

الفرق بين Unicode و UTF-8

Unicode هي مجموعة أحرف. UTF-8 وترميز.

غير يونيكود قائمة الأحرف مع الأرقام العشرية الفريدة (code points) . A = 41، B = 42، C = 43، ....

هذه القائمة من الأرقام العشرية تمثل سلسلة "hello" : 104 101 108 108 111

ترميز هو كيف يتم تحويل هذه الأرقام إلى أرقام ثنائية ليتم تخزينها في جهاز الكمبيوتر:

UTF-8 ترميز وتخزين "مرحبا" مثل هذا (binary) : 01101000 01100101 01101100 01101100 01101111

ترميز يترجم الأرقام في ثنائي. مجموعات الأحرف يترجم الأحرف إلى أرقام.


HTML5 UTF-8 رموز الأحرف

وفيما يلي قائمة ببعض من 8 UTF-رموز الأحرف التي يدعمها HTML5:

رموز الأحرف عدد عشري عشري
التحكم C0 واللاتينية الأساسية 0-1270000-007F
ضوابط C1 واللاتينية-1 الملحق 128-2550080-00FF
اللاتينية الموسعة-A 256-3830100-017F
اللاتينية الموسعة-B 384-5910180-024F
معدلات تباعد 688-76702B0-02FF
علامات إعرابية 768-8790300-036F
اليونانية والقبطية 880-10230370-03FF
السيريلية الأساسية 1024-12790400-04FF
الملحق السيريلية 1280-13270500-052F
علامات الترقيم عامة 8192-83032000-206F
رموز العملة 8352-839920A0-20CF
رموز علي هيئة أحرف 8448-85272100-214F
السهام 8592-87032190-21FF
الرياضية مشغلي 8704-89592200-22FF
مربع رسومات 9472-95992500-257F
كتلة عناصر 9600-96312580-259F
الأشكال الهندسية 9632-972725A0-25FF
رموز متنوعة 9728-99832600-26FF
دينغ باتس 9984-101752700-27BF