最新的Web開發教程
 

HTML字符集


要正確顯示HTML頁面,瀏覽器必須知道什麼字符集(character encoding)使用。


HTML字符集

什麼是正確的字符編碼的HTML使用?

對於HTML5,默認的字符編碼是UTF-8。

這並非一直如此。 對於早期的網絡字符編碼為ASCII。

後來,從HTML 2.0到HTML 4.01,ISO-8859-1被認為是標準。

隨著XML和HTML 5,UTF-8終於到了,解決了很多的字符編碼問題。

下面的字符編碼標準的簡要描述。


在起點:ASCII

計算機信息(numbers, texts, and pictures)存儲為二進制1和0 (01000101)在電子。

為規範的字母數字字符存儲,美國標準信息交換碼(ASCII)已創建。 它定義為每個存儲字符唯一的二進制7位號碼從0-9支持數字,大/小寫英文字母(az, AZ)以及一些特殊字符,如! $ + - ( ) @ <>。

由於ASCII使用的一個字節(對於字符7位,和用於傳輸的奇偶性控制位中的一個),它只能表示128個不同的字符。 另外,這些字符的32人保留用於其它控制目的。

與ASCII最大的弱點是,它排除非英文字母。

ASCII至今仍在廣泛使用,尤其是在大型計算機系統。

仔細看看,請學習我們完整的ASCII參考


在Windows中:ANSI

ANSI (also called Windows-1252)是默認的字符在Windows中設置,最多到Windows 95。

ANSI是一個擴展ASCII碼,添加了國際字符。 它使用一個完整的字節(8-bits)來表示256個不同的字符。

由於ANSI一直默認的字符在Windows中設置,它是由所有的瀏覽器都支持。

仔細看看,請學習我們完整的ANSI參考


在HTML 4:ISO-8859-1

由於大多數國家使用外ASCII字符,在HTML 2.0標準默認的字符編碼更改為ISO-8859-1。

ISO-8859-1的一個擴展ASCII,添加了國際字符。 ANSI一樣,它採用了全字節來表示的兩倍多字符比ASCII。

當瀏覽器檢測網頁中的ISO-8859-1,他們通常默認為ANSI,因為ANSI是相同的ISO-8859-1除了ANSI有32個額外的字符。

如果HTML 4網頁使用了不同的字符集不是ISO-8859-1,它應該在指定<meta>標記,如:

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

對於HTML5的默認字符集是UTF-8。
所有HTML 4處理器支持UTF-8,以及所有HTML5和XML處理器支持UTF-8和UTF-16。

仔細看看,請學習我們完整的ISO-8859-1參考


在HTML5:Unicode的UTF-8

由於上面列出的字符集是有限的,在多語言環境不兼容,Unicode協會開發了Unicode標準。

Unicode標準蓋(almost)所有的字符,標點符號,並在世界上的符號。

Unicode能實現處理,存儲和文本的傳輸,獨立於平台和語言。

在HTML5默認的字符編碼是UTF-8。

仔細看看,請學習我們完整的Unicode參考