HTML文字セット

正しくHTMLページを表示するには、ブラウザがどのような文字セットを知っている必要があります(character encoding)使用します。

HTMLで使用する正しい文字エンコーディングとは何ですか？

HTML5の場合、デフォルトの文字エンコーディングはUTF-8です。

これは、常にそうなっていません。早期Web用の文字エンコーディングはASCIIでした。

その後、HTML 4.01のHTML 2.0から、ISO-8859-1が標準と考えられました。

XMLとHTML5を使用すると、UTF-8がようやく到着し、文字エンコーディングの問題の多くを解決しました。

以下は、文字エンコーディング標準の簡単な説明があります。

初めに：ASCII

コンピュータ情報(numbers, texts, and pictures) 2進数の1とゼロとして格納されている(01000101)エレクトロニクスインチ

英数字の格納を標準化するために、情報交換用米国標準コード(ASCII)作成されました。これは、0-9からの数字をサポートするために、各保存可能な文字に一意のバイナリ7ビット数を定義し、大文字/小文字のアルファベット(az, AZ)などいくつかの特殊文字！ $ + - ( ) @ <>。

ASCIIは、1バイト（文字の7ビット、および送信パリティ制御のためのビットのいずれか）を使用するので、それだけで128個の異なる文字を表すことができます。加えて、これらの文字の32は、他の制御目的のために予約しました。

ASCIIとの最大の弱点は、それが英語以外の文字を除外していることでした。

ASCIIは、特に大規模なメインフレーム・コンピュータ・システムでは、広く使用され、今日でもあります。

よく見るために、私たちの勉強してください完全なASCIIリファレンスを。

ANSI (also called Windows-1252) Windows 95のまで、Windowsのデフォルトの文字セットでした。

ANSIは、追加の国際的な文字で、ASCIIを拡張したものです。これは、完全なバイト使用(8-bits) 256個の異なる文字を表すために。

ANSIは、Windowsでデフォルトの文字セットされているので、それはすべてのブラウザでサポートされています。

よく見るために、私たちの勉強してください完全なANSIリファレンスを。

ほとんどの国は、ASCII以外の文字を使用しているため、HTML 2.0標準のデフォルトの文字エンコーディングはISO-8859-1に変更しました。

ISO-8859-1は、追加の国際的な文字で、ASCIIを拡張したものです。 ANSIのように、それはASCIIよりも2倍の数の文字を表現するために、完全なバイトを使用しています。

ブラウザは、WebページにISO-8859-1を検出するとANSIはANSIが32余分な文字を持っていることを除き、ISO-8859-1と同一ですので、彼らは通常、ANSIにデフォルト設定します。

HTML 4のWebページが別の文字セットISO-8859-1以外を使用している場合は、それがで指定されなければならない<meta>タグのように：

HTML5のデフォルトの文字セットはUTF-8です。
すべてのHTML 4つのプロセッサは、UTF-8をサポートし、すべてのHTML5およびXMLプロセッサは、UTF-8とUTF-16の両方をサポートしています。

よく見るために、私たちの勉強してください完全なISO-8859-1参照を。

上記の文字セットが制限され、多言語環境での互換性がないため、ユニコードコンソーシアムは、Unicode標準を開発しました。

Unicode標準カバー(almost)世界のすべての文字、句読点、および記号。

Unicodeは、プラットフォームや言語に依存しない処理、ストレージ、およびテキストの輸送を可能に。

HTML5でのデフォルトの文字エンコーディングはUTF-8です。

よく見るために、私たちの勉強してください完全なUnicodeのリファレンスを。