Unicode: ¿Cómo manejan las computadoras los logogramas?

Para los humanos, los logogramas representan significados / palabras / morfemas (no sonidos, como lo hacen las “letras”).

Pero a las computadoras generalmente no les importa en absoluto: almacenan y muestran texto, le permiten manipularlo, pero no lo entienden. En la computadora, los logogramas no representan nada, se representan * como * números (por ejemplo, puntos de código Unicode de 32 bits), al igual que los caracteres / letras “normales”. Luego se utiliza una fuente apropiada para definir cómo deberían ser para los humanos.

Las computadoras pueden entender logogramas así como también pueden entender palabras compuestas de caracteres latinos (o hindi o lo que sea): en realidad no. son solo un montón de bits (es decir, números) que pueden o no activar alguna lógica específica basada en un programa, una entrada de base de datos o alguna otra fuente de información.

Las tareas de procesamiento del lenguaje natural pueden enfrentar diferentes desafíos al procesar el chino versus el procesamiento de un idioma “occidental”, por ejemplo, porque el chino (hasta donde yo entiendo) no utiliza el espacio para los límites de las palabras, y realmente no tiene un concepto de palabras en absoluto . Pero eso es solo una particularidad lingüística como muchas otras.

Estos no son gráficos. Estos son solo caracteres Unicode, igual que las letras latinas o cualquier otro. De hecho, es bastante fácil para las computadoras renderizarlos siempre que la computadora tenga un archivo de fuente; solo es cuestión de mostrar una letra en la pantalla. Para muchos idiomas, como el hindi o el árabe, se necesita más trabajo debido a las ligaduras de letras, pero no se necesitan en chino.