Unicode

Unicode es un conjunto de caracteres estándar que numera y define caracteres de diferentes idiomas, sistemas de escritura y símbolos. Al asignar un número a cada caracter, los programadores pueden crear codificaciones de caracteres, para permitir que las computadoras almacenen, procesen y transmitan cualquier combinación de idiomas en el mismo archivo o programa.

Antes de Unicode, era difícil y propenso a errores mezclar idiomas en los mismos datos. Por ejemplo, un juego de caracteres almacenaría caracteres japoneses y otro almacenaría el alfabeto árabe. Si no estuviera claramente marcado qué partes de los datos estaban en qué juego de caracteres, otros programas y computadoras mostrarían el texto incorrectamente o lo dañarían durante el procesamiento. Si alguna vez has visto texto en el que caracteres como comillas entrecruzadas (“”) fueron reemplazadas por un galimatías como Ã‚Â£, entonces has visto este problema, conocido como Mojibake.

La codificación de caracteres Unicode más común en la Web es UTF-8. Existen otras codificaciones, como UTF-16 o la obsoleta UCS-2, pero se recomienda UTF-8.

Aprende más

Unicode en Wikipedia
El estándar Unicode: Introducción técnica