Els fitxers de text net, que generalment tenen l'extensió .txt
, contenen exclusivament informació textual. No hi ha cap manera clarament definida d'informar l'ordinador de la llengua que contenen. A grans trets, això significa que, per defecte, l'ordinador considerarà que el fitxer és en la mateixa llengua que la utilitzada pel propi ordinador.
Si l'usuari és rus, és molt probable que el seu ordinador també treballi en rus: els menús es mostren en rus, els fitxers que obre són en rus, etc. En la majoria dels casos, l'ordinador normalment realitza la decisió correcta sobre el contingut dels fitxers: tots són en rus i no en cap altra llengua que no es pugui representar amb caràcters russos.
Ara bé, si l'usuari és un traductor rus que tradueix del japonès i ha de treballar amb fitxers de text net en japonès, molt probablement l'ordinador considerarà que el contingut d'aquests fitxers és en rus. Això passa perquè el fitxer en sí no conté informació que indiqui a l'ordinador en quina llengua s'han escrit.
Per exemple, el fitxer en japonès podria contenir el text:
OmegaTとは、コンピュータを利用した翻訳ツールです。
Però l'editor de textos podria mostrar-lo així:
OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≅ВЈБB
Perquè espera que el contingut sigui en rus... Però això no és rus. Són caràcters japonesos que es mostren incorrectament com a caràcters russos.
L'OmegaT no és diferent. L'OmegaT considera que els fitxers de text net contenen text que es pot visualitzar automàticament utilitzant els valors per defecte de l'ordinador. Això funciona bé quan l'ordinador treballa en francès i l'usuari tradueix fitxers en anglès, o quan l'ordinador treballa en alemany i l'usuari tradueix fitxers en italià.
Com és que funciona amb l'anglès i el francès però no amb el rus i el japonès? Perquè l'anglès i el francès comparteixen un mateix joc de caràcters. Concretament, Llatí-1, o una variació. Fins fa poc, el rus i el japonès no compartien cap joc de caràcters. Els jocs de caràcters russos més actuals no cobreixen els caràcters japonesos, i a la inversa. El resultat és el que es mostra més amunt.
El client japonès treballa amb un ordinador japonès i crea fitxers de text que contenen japonès. El joc de caràcters seleccionat per l'ordinador del client dependrà del sistema operatiu i d'altres paràmetres, però és molt poc probable que l'ordinador rus interpreti correctament el joc de caràcters escollit (japonès).
Ara bé, la manera en què la informació textual del joc de caràcters especificat es transmet físicament (és a dir, com s'escriu al fitxer per tal que l'ordinador la pugui interpretar i mostrar) depèn de la codificació. Quan l'ordinador llegeix el fitxer, "descodifica" la informació en funció de la codificació i el visualitza en funció del joc de caràcters. A grans trets, una codificació correspon a un joc de caràcters...
Bàsicament, hi ha 3 maneres d'arreglar això a l'OmegaT. Les 3 impliquen utilitzar els filtres de fitxers del menú Opcions.
.txt
..txt
de partida..txt
per .jp
per a fitxers de text net en japonès.*.jp
al Patró de nom de fitxer de partida i seleccioneu els paràmetres adients per a la codificació del fitxer de partida i del fitxer traduït..txt
per .utf8
.Actualment, l'OmegaT està configurat per a interpretar els fitxers de text net d'aquesta manera:
.txt
automàticament (automàtic) com a fitxers amb la codificació per defecte del sistema..txt1
tenen la codificació ISO-8859-1, que cobreix la majoria de les llengües d'Europa occidental..txt2
tenen la codificació ISO-8859-2, que cobreix la majoria de les llengües d'Europa central i oriental..utf8
com a fitxers amb codificació UTF-8 (que cobreix gairebé totes les llengües del món).Podeu comprovar-ho seleccionant Filtres de fitxers al menú Opcions.
L'OmegaT inclou aquesta llista curta per a facilitar-vos el treball amb alguns fitxers de text net.
Per exemple, si teniu un fitxer de partida en txec (molt probablement amb codificació ISO-8859-2), només us cal canviar l'extensió .txt
per .txt2
i l'OmegaT n'interpretarà el contingut correctament.