最新のWeb開発のチュートリアル
 

HTML文字セット


正しくHTMLページを表示するには、ブラウザがどのような文字セットを知っている必要があります(character encoding)使用します。


HTML文字セット

HTMLで使用する正しい文字エンコーディングとは何ですか?

HTML5の場合、デフォルトの文字エンコーディングはUTF-8です。

これは、常にそうなっていません。 早期Web用の文字エンコーディングはASCIIでした。

その後、HTML 4.01のHTML 2.0から、ISO-8859-1が標準と考えられました。

XMLとHTML5を使用すると、UTF-8がようやく到着し、文字エンコーディングの問題の多くを解決しました。

以下は、文字エンコーディング標準の簡単な説明があります。


初めに:ASCII

コンピュータ情報(numbers, texts, and pictures) 2進数の1とゼロとして格納されている(01000101)エレクトロニクスインチ

英数字の格納を標準化するために、情報交換用米国標準コード(ASCII)作成されました。 これは、0-9からの数字をサポートするために、各保存可能な文字に一意のバイナリ7ビット数を定義し、大文字/小文字のアルファベット(az, AZ)などいくつかの特殊文字! $ + - ( ) @ <>。

ASCIIは、1バイト(文字の7ビット、および送信パリティ制御のためのビットのいずれか)を使用するので、それだけで128個の異なる文字を表すことができます。 加えて、これらの文字の32は、他の制御目的のために予約しました。

ASCIIとの最大の弱点は、それが英語以外の文字を除外していることでした。

ASCIIは、特に大規模なメインフレーム・コンピュータ・システムでは、広く使用され、今日でもあります。

よく見るために、私たちの勉強してください完全なASCIIリファレンスを


Windowsの場合:ANSI

ANSI (also called Windows-1252) Windows 95のまで、Windowsのデフォルトの文字セットでした。

ANSIは、追加の国際的な文字で、ASCIIを拡張したものです。 これは、完全なバイト使用(8-bits) 256個の異なる文字を表すために。

ANSIは、Windowsでデフォルトの文字セットされているので、それはすべてのブラウザでサポートされています。

よく見るために、私たちの勉強してください完全なANSIリファレンスを


ISO-8859-1:HTML 4では

ほとんどの国は、ASCII以外の文字を使用しているため、HTML 2.0標準のデフォルトの文字エンコーディングはISO-8859-1に変更しました。

ISO-8859-1は、追加の国際的な文字で、ASCIIを拡張したものです。 ANSIのように、それはASCIIよりも2倍の数の文字を表現するために、完全なバイトを使用しています。

ブラウザは、WebページにISO-8859-1を検出するとANSIはANSIが32余分な文字を持っていることを除き、ISO-8859-1と同一ですので、彼らは通常、ANSIにデフォルト設定します。

HTML 4のWebページが別の文字セットISO-8859-1以外を使用している場合は、それがで指定されなければならない<meta>タグのように:

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

HTML5のデフォルトの文字セットはUTF-8です。
すべてのHTML 4つのプロセッサは、UTF-8をサポートし、すべてのHTML5およびXMLプロセッサは、UTF-8とUTF-16の両方をサポートしています。

よく見るために、私たちの勉強してください完全なISO-8859-1参照を


UnicodeのUTF-8:HTML5で

上記の文字セットが制限され、多言語環境での互換性がないため、ユニコードコンソーシアムは、Unicode標準を開発しました。

Unicode標準カバー(almost)世界のすべての文字、句読点、および記号。

Unicodeは、プラットフォームや言語に依存しない処理、ストレージ、およびテキストの輸送を可能に。

HTML5でのデフォルトの文字エンコーディングはUTF-8です。

よく見るために、私たちの勉強してください完全なUnicodeのリファレンスを