Cómo asigna Word los juegos de caracteres

10/11/2003 - 17:30 por Jon Gutiérrez | Informe spam
Hola,

Disculpen por la longitud del mensaje y por si no les parece que este
sea el foro correcto. Yo pienso que sí puede serlo.

Tengo un problema un tanto extraño. He extraido texto de un PDF que
originalmente era de Macintosh (QuarkXpress). El archivo resultante es
un documento de Word (doc). La mayor parte del archivo está correcto y
yo puedo cambiar el juego de cacracteres del archivo extraido a
cualquier otro y los párrafos y caracteres se muestran correctamente
en la nueva fuente. Sin embargo, algunos "símbolos" (según Word están
en fuente Symbol), por ejemplo "mayor o igual que", aparecen
correctamente en pantalla, se imprimen correctamente, pero al intentar
asignarles cualquier fuente estándar (cambiando el formato de fuente
como haría con cualquier otro carácter o párrafo), por ejemplo Times
New Roman, cambian a un" cuadrado", como si no los reconociera en esa
tipo de fuentes o no tuviera modo de representarlos. Estos cuadrados
son perfectamente convertibles al símbolo original, simplemente
eligiendo la fuente Symbol en vez de la fuente Times New Roman.

Hasta aquí todo parece más o menos correcto. Sin embargo, si yo elijo
el mismo símbolo (mayor o igual que) en la fuente Symbol, lo pego a un
documento de Word y lo cambio a Times New Roman, se sigue mostrando
correctamente como "mayor o igunal que", no como un "cuadrado" (lo que
pasa al cambiar los "mayor o igual que" de los Symbol provenientes de
la extracción del PDF.

Mando este problema al foro de Word porque parece un problema de Word,
no de la extracción de texto PDF. Lo digo porque si yo ejecuto el
comando:

Debug.Print "Font: " & .Font
Debug.Print "Char number " & .CharNum

simplemente para que Word me indique qué código Unicode tiene ese
carácter, los resultados son los siguientes:

"mayor o igual que" en formato Symbol de texto extraido de PDF: -3917
"cuadrado" en formato Times New Roman de texto extraido de PDF y
convertido desde Symbol: -3917
"mayor o igual que" en formato Times New Roman creado en Word: 8805
"mayor o igual que" en formato Symbol creado en Word: -3995

Es decir, Word no reconoce que el Symbol inicial se ha convertido a
otra fuente. Además, los códigos que asigna a este Symbol no se
corresponden ni con el código que tiene este mismi símbolo "mayor o
igual que" creado directamente en un documento en blanco desde el Mapa
de caracteres (o desde insertar símbolo, da igual), ni con ese mismo
símbolo convertido a la fuente Times New Roman.

Si yo utilizo el pincel de pegar formato y copio el formato del
símbolo inicial extraido del PDF (lo copia desde el texto ya extraido
en Word, naturalmente) a un símbolo "mayor o gual que" creado
directamente en Word, no obtengo el mismo código que tenía
inicialmente, ni asignándole la fuente Symbol, ni la Times New Roman.

¿Dónde está el problema? ¿Cómo puedo solucionarlo?

Necesito crear una macro que me convierta todos estos caracteres de un
documento extraido de un PDF a Times New Roman, pero naturalmente
deben conservar el aspecto original, es decir, si son un "mayor o
igual que" deben seguir siéndolo. No estoy preguntando por cómo hacer
la macro (puedo hacerla) sino cómo puedo averiguar qué codificación
está REALMENTE utilizando Word para estos caracteres. Evidentemente,
la fuente no es la Symbol que utiliza cuando yo creo estos mismos
símbolos con el mapa de caracteres o insertando el símbolo.

Gracias,

Jon
 

Leer las respuestas

#1 Marta PM [MS MVP]
10/11/2003 - 18:31 | Informe spam
Hola!!
En estos documentos (como no indicas la versión de Word) se habla del problema de convertir los símbolos en cuadrados. No sé si es exactamente lo que buscas. Si no lo es vuelve a postear y a lo mejor alguien pueda aportarte algo más:
http://support.microsoft.com/?id0022
WD97 Caracteres símbolos se cambian a caracteres cuadrados
http://support.microsoft.com/?id!2396
WD2000 Caracteres símbolos se cambian a caracteres cuadrados
http://support.microsoft.com/?id)0978
WD2002 Caracteres símbolos se cambian a caracteres cuadrados



Marta PM
Saúdos/Saludos
MS-MVP Office


"Jon Gutiérrez" escribió en el mensaje news:
Hola,

Disculpen por la longitud del mensaje y por si no les parece que este
sea el foro correcto. Yo pienso que sí puede serlo.

Tengo un problema un tanto extraño. He extraido texto de un PDF que
originalmente era de Macintosh (QuarkXpress). El archivo resultante es
un documento de Word (doc). La mayor parte del archivo está correcto y
yo puedo cambiar el juego de cacracteres del archivo extraido a
cualquier otro y los párrafos y caracteres se muestran correctamente
en la nueva fuente. Sin embargo, algunos "símbolos" (según Word están
en fuente Symbol), por ejemplo "mayor o igual que", aparecen
correctamente en pantalla, se imprimen correctamente, pero al intentar
asignarles cualquier fuente estándar (cambiando el formato de fuente
como haría con cualquier otro carácter o párrafo), por ejemplo Times
New Roman, cambian a un" cuadrado", como si no los reconociera en esa
tipo de fuentes o no tuviera modo de representarlos. Estos cuadrados
son perfectamente convertibles al símbolo original, simplemente
eligiendo la fuente Symbol en vez de la fuente Times New Roman.

Hasta aquí todo parece más o menos correcto. Sin embargo, si yo elijo
el mismo símbolo (mayor o igual que) en la fuente Symbol, lo pego a un
documento de Word y lo cambio a Times New Roman, se sigue mostrando
correctamente como "mayor o igunal que", no como un "cuadrado" (lo que
pasa al cambiar los "mayor o igual que" de los Symbol provenientes de
la extracción del PDF.

Mando este problema al foro de Word porque parece un problema de Word,
no de la extracción de texto PDF. Lo digo porque si yo ejecuto el
comando:

Debug.Print "Font: " & .Font
Debug.Print "Char number " & .CharNum

simplemente para que Word me indique qué código Unicode tiene ese
carácter, los resultados son los siguientes:

"mayor o igual que" en formato Symbol de texto extraido de PDF: -3917
"cuadrado" en formato Times New Roman de texto extraido de PDF y
convertido desde Symbol: -3917
"mayor o igual que" en formato Times New Roman creado en Word: 8805
"mayor o igual que" en formato Symbol creado en Word: -3995

Es decir, Word no reconoce que el Symbol inicial se ha convertido a
otra fuente. Además, los códigos que asigna a este Symbol no se
corresponden ni con el código que tiene este mismi símbolo "mayor o
igual que" creado directamente en un documento en blanco desde el Mapa
de caracteres (o desde insertar símbolo, da igual), ni con ese mismo
símbolo convertido a la fuente Times New Roman.

Si yo utilizo el pincel de pegar formato y copio el formato del
símbolo inicial extraido del PDF (lo copia desde el texto ya extraido
en Word, naturalmente) a un símbolo "mayor o gual que" creado
directamente en Word, no obtengo el mismo código que tenía
inicialmente, ni asignándole la fuente Symbol, ni la Times New Roman.

¿Dónde está el problema? ¿Cómo puedo solucionarlo?

Necesito crear una macro que me convierta todos estos caracteres de un
documento extraido de un PDF a Times New Roman, pero naturalmente
deben conservar el aspecto original, es decir, si son un "mayor o
igual que" deben seguir siéndolo. No estoy preguntando por cómo hacer
la macro (puedo hacerla) sino cómo puedo averiguar qué codificación
está REALMENTE utilizando Word para estos caracteres. Evidentemente,
la fuente no es la Symbol que utiliza cuando yo creo estos mismos
símbolos con el mapa de caracteres o insertando el símbolo.

Gracias,

Jon


Preguntas similares