Un 'juego de caracteres' es exactamente lo que dice: una lista de caracteres distintos debidamente especificada.
Una 'codificación' es una asignación entre un juego de caracteres (generalmente Unicode hoy) y una representación técnica (normalmente basada en bytes) de los caracteres.
UTF-8 es una codificación, pero no un conjunto de caracteres. Es una codificación del juego de caracteres Unicode (*).
La confusión se produce porque la mayoría de otras codificaciones conocidas (p. Ej .: ISO-8859-1) comenzaron como juegos de caracteres separados. Luego, cuando Unicode apareció como un superconjunto de la mayoría de estos conjuntos de caracteres, se hizo posible pensar en ellos como codificaciones diferentes (pero parciales) del mismo conjunto de caracteres (Unicode), en lugar de simplemente conjuntos de caracteres aislados. Mirarlos de esta manera le permite convertir fácilmente entre ellos a través de Unicode, lo que no sería posible si fueran simplemente conjuntos de caracteres aislados. Pero todavía tiene sentido referirse a ellos como conjuntos de caracteres, por lo que cualquiera de los términos podría ser utilizado.
Una 'página de códigos' es un término que proviene de IBM, donde elige qué conjunto de símbolos se mostrarán. El término continuó siendo utilizado por DOS y luego Windows, a través de Windows consciente de Unicode, donde simplemente actúa como una codificación con un identificador numerado. Mientras que una 'página de códigos' numerada es una idea no intrínsecamente limitada a Microsoft, hoy en día el término casi siempre solo significa una codificación que Windows conoce.
Cuando uno está hablando de la página de códigos
uno generalmente está hablando de una codificación específica de Windows, a diferencia de una codificación ideada por un cuerpo de estándares. Por ejemplo, la página de códigos 28591 normalmente no se menciona bajo ese nombre, sino simplemente 'ISO-8859-1'. La codificación de Europa Occidental específica de Windows basada en ISO-8859-1 (con algunos caracteres adicionales que reemplazan algunos de sus códigos de control) normalmente se denominaría 'página de códigos 1252'.
[*: todas las UTF son codificaciones, no juegos de caracteres, pero este tipo de cosas no son exclusivas de Unicode. Por ejemplo, el estándar japonés JIS X 0208 define un conjunto de caracteres y dos codificaciones de bytes diferentes para él: la codificación algo desagradable de alto byte ('Shift-JIS') y la codificación profundamente horrible basada en el cambio de escape ('JIS ').]
Tengo una suscripción a Safari. Acabo de descargar el capítulo, gracias. – Deane
mismo aquí con la suscripción de safari :-) gracias, en buen estado –