Stax

Conversor Unicode

Convierte texto a puntos de código Unicode y de vuelta. Inspecciona bytes UTF-8/UTF-16.

U+0048 U+0065 U+006C U+006C U+006F U+0020 U+1F30D
\u{48}\u{65}\u{6C}\u{6C}\u{6F}\u{20}\u{1F30D}

¿Qué es el convertidor Unicode?

Esta herramienta convierte texto a code points Unicode y de vuelta. Inspecciona bytes UTF-8/UTF-16. Maneja hindi, chino, emojis. Esencial para depurar problemas de codificación.

Cómo usar la herramienta

  1. Escribe/pega texto.
  2. Ve code points (formato U+XXXX) al instante.
  3. También obtén representación de bytes UTF-8 y UTF-16.
  4. Inverso: convertir code points a texto.

Usos principales

  • Depurar mismatch de codificación
  • Inspeccionar bytes de emoji
  • Entender almacenamiento de texto en BD
  • Escape de caracteres en integración API

Preguntas frecuentes

¿Qué es Unicode?
Unicode da un código numérico único para cada idioma, script, emoji del mundo. Más de 140,000 caracteres — hindi, chino, árabe, emojis, símbolos matemáticos. UTF-8 es su codificación — usado en 98% de internet.
¿Diferencia entre UTF-8 y UTF-16?
UTF-8: longitud variable (1-4 bytes), compatible con ASCII — estándar web. UTF-16: 2 o 4 bytes — interno de Windows, strings de Java, JavaScript. UTF-32: fijo 4 bytes — menos popular. En la web siempre prefiere UTF-8.
¿Qué es un code point?
Cada carácter Unicode tiene un número único. Ejemplo: 'A' = U+0041, 'अ' = U+0905, '😀' = U+1F600. Se escriben en hex con prefijo U+. Esta herramienta convierte entre carácter ↔ code point ↔ bytes UTF-8.
¿Qué son los pares surrogate?
BMP (Plano Multilingüe Básico, U+0000 a U+FFFF) tiene 65,536 caracteres. Los caracteres por encima (emojis, scripts antiguos) se representan con 2 pares surrogate en UTF-16. Los strings de JavaScript están en UTF-16 — la longitud de un emoji es 2.

Herramientas relacionadas