ล่าสุดการพัฒนาเว็บบทเรียน
×

HTML ชุดอักขระ

HTML ชุดอักขระ HTML ASCII HTML ANSI HTML ISO-8859 HTML สัญลักษณ์ HTML UTF-8

HTML UTF-8

Latin ขั้นพื้นฐาน Latin เสริม Latin ขยาย A Latin ขยาย B ปรับปรุงตัวอักษร ออกเสียงวรรณยุกต์ กรีกและชาวอียิปต์โบราณ Cyrillic ขั้นพื้นฐาน Cyrillic เสริม

HTML สัญลักษณ์

เครื่องหมายวรรคตอนทั่วไป Currency สัญลักษณ์ Letterlike สัญลักษณ์ ลูกศร ผู้ประกอบการทางคณิตศาสตร์ ภาพวาดกล่อง องค์ประกอบของบล็อก รูปทรงเรขาคณิต Misc สัญลักษณ์ Dingbats

HTML หน่วยงาน

HTML4 หน่วยงาน HTML5 หน่วยงาน A HTML5 หน่วยงาน B HTML5 หน่วยงาน C HTML5 หน่วยงาน D HTML5 หน่วยงาน E HTML5 หน่วยงาน F HTML5 หน่วยงาน G HTML5 หน่วยงาน H HTML5 หน่วยงาน I HTML5 หน่วยงาน J HTML5 หน่วยงาน K HTML5 หน่วยงาน L HTML5 หน่วยงาน M HTML5 หน่วยงาน N HTML5 หน่วยงาน O HTML5 หน่วยงาน P HTML5 หน่วยงาน Q HTML5 หน่วยงาน R HTML5 หน่วยงาน S HTML5 หน่วยงาน T HTML5 หน่วยงาน U HTML5 หน่วยงาน V HTML5 หน่วยงาน W HTML5 หน่วยงาน X HTML5 หน่วยงาน Y HTML5 หน่วยงาน Z

 

HTML Unicode (UTF-8) อ้างอิง


ยูนิโค้ด Consortium

ยูนิโค้ด Consortium พัฒนามาตรฐาน Unicode เป้าหมายของพวกเขาคือการเปลี่ยนชุดตัวอักษรที่มีอยู่กับรูปแบบ Unicode การเปลี่ยนแปลงมาตรฐาน (UTF)

มาตรฐาน Unicode ได้กลายเป็นที่ประสบความสำเร็จและมีการใช้งานในรูปแบบ HTML, XML, Java, JavaScript, E-mail, ASP, PHP, ฯลฯ มาตรฐาน Unicode ยังสนับสนุนในระบบปฏิบัติการจำนวนมากและเบราว์เซอร์ที่ทันสมัย

ยูนิโค้ด Consortium ร่วมมือกับองค์กรพัฒนามาตรฐานชั้นนำเช่น ISO, W3C และ ECMA


ยูนิโค้ดชุดตัวอักษร

Unicode สามารถดำเนินการโดยชุดตัวอักษรที่แตกต่างกัน การเข้ารหัสที่ใช้กันมากที่สุดคือ UTF-8 และ UTF-16:

ชุดตัวอักษร ลักษณะ
UTF-8 ตัวละครใน UTF8 สามารถเป็น 1-4 ไบต์นาน UTF-8 สามารถเป็นตัวแทนของตัวอักษรใด ๆ ในมาตรฐาน Unicode UTF-8 จะย้อนกลับเข้ากันได้กับ ASCII UTF-8 คือการเข้ารหัสที่แนะนำสำหรับ e-mail และหน้าเว็บ
UTF-16 16 บิตรูปแบบการแปลง Unicode คือการเข้ารหัสอักขระยาวตัวแปรสำหรับ Unicode ความสามารถในการเข้ารหัสละคร Unicode ทั้งหมด UTF-16 จะใช้ในระบบปฏิบัติการหลักและสภาพแวดล้อมเช่น Microsoft Windows, Java และ .NET

Tip: 128 ตัวอักษรแรกของ Unicode (which correspond one-to-one with ASCII) จะถูกเข้ารหัสโดยใช้ octet เดียวกับค่าไบนารีเช่นเดียวกับ ASCII ทำให้ข้อความ ASCII ที่ถูกต้องที่ถูกต้อง UTF-8 เข้ารหัส Unicode เช่นกัน

HTML 4 รองรับ UTF-8 HTML 5 สนับสนุนทั้ง UTF-8 และ UTF-16!


HTML5 มาตรฐาน Unicode UTF-8

เพราะชุดตัวอักษรใน ISO-8859 ถูก จำกัด ในขนาดและเข้ากันไม่ได้ในสภาพแวดล้อมที่พูดได้หลายภาษาที่ Unicode Consortium พัฒนามาตรฐาน Unicode

ครอบคลุมมาตรฐาน Unicode (almost) ทุกตัวอักษร, เครื่องหมายวรรคตอนและสัญลักษณ์ในโลก

Unicode ช่วยให้การประมวลผล, การจัดเก็บและการขนส่งของอิสระข้อความของแพลตฟอร์มและภาษา

การเข้ารหัสตัวอักษรเริ่มต้นใน HTML-5 เป็น UTF-8

หากหน้าเว็บ HTML5 ใช้ชุดตัวอักษรที่แตกต่างกันกว่า UTF-8 ก็ควรจะระบุไว้ใน <meta> แท็กที่ชอบ:

ตัวอย่าง

<meta charset="ISO-8859-1">

ความแตกต่างระหว่าง Unicode และ UTF-8

Unicode เป็นชุดตัวอักษร UTF-8 คือการเข้ารหัส

Unicode คือรายการของตัวละครที่มีตัวเลขทศนิยมที่ไม่ซ้ำกัน (code points) A = 41, B = 42, C = 43, ....

รายการของตัวเลขทศนิยมนี้แทนสตริง "hello" : 104 101 108 108 111

การเข้ารหัสเป็นวิธีการที่ตัวเลขเหล่านี้จะถูกแปลงเลขฐานสองจะถูกเก็บไว้ในเครื่องคอมพิวเตอร์:

เข้ารหัส UTF-8 จะเก็บ "สวัสดี" เช่นนี้ (binary) : 01101000 01100101 01101100 01101100 01101111

การเข้ารหัสแปลตัวเลขลงในไบนารี ชุดตัวอักษรแปลตัวอักษรกับตัวเลข


HTML5 UTF-8 รหัสอักขระ

ด้านล่างเป็นรายการของบางส่วนของ UTF-8 รหัสอักขระที่สนับสนุนโดย HTML5 นี้: