Gli ultimi tutorial di sviluppo web
 

Set di caratteri HTML


Per visualizzare una pagina HTML in modo corretto, il browser deve sapere quali set di caratteri (character encoding) da utilizzare.


Set di caratteri HTML

Qual è la codifica dei caratteri corretta da utilizzare in HTML?

Per HTML5, la codifica dei caratteri di default è UTF-8.

Questo non è sempre stato così. La codifica dei caratteri per i primi web era ASCII.

Più tardi, da HTML 2.0 a HTML 4.01, ISO-8859-1 è stato considerato lo standard.

Con XML e HTML5, UTF-8 finalmente arrivato, e risolto un sacco di problemi di codifica dei caratteri.

Segue una breve descrizione degli standard di codifica dei caratteri.


In the Beginning: ASCII

Informazioni sul computer (numbers, texts, and pictures) viene memorizzata come uno binario e zero (01000101) nell'elettronica.

Per uniformare la memorizzazione di caratteri alfanumerici, il codice standard americano per Information Interchange (ASCII) è stato creato. Si definisce un numero di 7 bit binario univoco per ogni carattere conservabile a sostenere i numeri da 0-9, il / minuscole superiore alfabeto inglese (az, AZ) , e alcuni caratteri speciali come! $ + - ( ) @ <>.

Poiché ASCII utilizzato un byte (7 bit per il carattere, e uno dei bit per il controllo di parità trasmissione), potrebbe rappresentare solo 128 caratteri diversi. Oltre 32 di questi personaggi erano riservati per altri scopi di controllo.

La più grande debolezza con ASCII è che escludeva le lettere non inglesi.

ASCII è ancora in uso oggi largamente diffuso, soprattutto nelle grandi sistemi di computer mainframe.

Per uno sguardo più attento, si prega di studiare la nostra completa ASCII di riferimento .


In Windows: ANSI

ANSI (also called Windows-1252) è stato il set di caratteri predefinito in Windows, fino a Windows 95.

ANSI è un'estensione di ASCII, con caratteri internazionali aggiunti. Esso utilizza un byte completo (8-bits) per rappresentare 256 caratteri diversi.

Dal ANSI è stato il set di caratteri predefinito in Windows, è supportato da tutti i browser.

Per uno sguardo più attento, si prega di studiare la nostra completa ANSI di riferimento .


In HTML 4: ISO-8859-1

Dal momento che la maggior parte dei paesi utilizzano caratteri ASCII al di fuori, la codifica dei caratteri di default nello standard HTML 2.0 è stato cambiato a ISO-8859-1.

ISO-8859-1 è un'estensione di ASCII, con caratteri internazionali aggiunti. Come ANSI, utilizza un byte completo per rappresentare il doppio di molti personaggi di ASCII.

Quando i browser rilevano ISO-8859-1 in una pagina web, che normalmente predefinita da ANSI, ANSI, perché è identica a ISO-8859-1, tranne che ANSI ha 32 caratteri extra.

Se una pagina web HTML 4 utilizza un diverso set di caratteri da ISO-8859-1, deve essere specificato nel <meta> tag come:

Esempio

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Il set di caratteri predefinito per HTML5 è UTF-8.
Tutti i 4 processori HTML supporto UTF-8, e tutti i processori HTML5 e XML supportano sia UTF-8 e UTF-16.

Per uno sguardo più attento, si prega di studiare la nostra completa riferimento ISO-8859-1 .


In HTML5: Unicode UTF-8

Poiché i set di caratteri di cui sopra sono limitate, e non è compatibile in ambienti multilingue, Unicode Consortium ha sviluppato lo standard Unicode.

Le copertine Unicode standard (almost) tutti i personaggi, punteggiatura e simboli del mondo.

Unicode permette lavorazione, lo stoccaggio e il trasporto di testi, indipendentemente dalla piattaforma e del linguaggio.

La codifica dei caratteri di default in HTML5 è UTF-8.

Per uno sguardo più attento, si prega di studiare la nostra completa Unicode di riferimento .