Culture
Partenariat

Chine-Japon : écriture et traduction au défi de l'intelligence artificielle et de l'encodage

(Source : Technology Review)
(Source : Technology Review)
Le lundi 6 février, l’Institut français de recherche sur l’Asie de l’Est (IFRAE) a organisé une rencontre avec le linguiste Jean Bazantay, spécialiste du Japon et maître de conférences à l’Inalco, la sinologue Pascale Elbaz, enseignante-chercheure à l’ISIT, Lia Wei, maître de conférences en histoire de l’art et archéologie de la Chine à l’Inalco, et le sinologue Pierre Magistry, chercheur en linguistique computationnelle et traitement automatique des langues à l’Inalco. Un débat animé par Guibourg Delamotte, maître de conférences à l’Inalco.

Partenariat

Depuis 2021, Asialyst est partenaire de l’Institut français de recherche sur l’Asie de l’Est (IFRAE), une équipe de recherche rattachée à l’Inalco, l’Institut national des langues et civilisations orientales. Le deuxième lundi de chaque mois, l’IFRAE organise un débat autour de ses chercheurs à l’Inalco à l’auditorium du 2 rue de Lille, 75007 Paris.

L’écriture japonaise
Jean Bazantay : L’écriture est dans un premier temps envisagée à travers le signe et son tracé, la relation entre le scripteur et le caractère qu’il trace. Dans son essai Petite poucette, Michel Serres avait souligné un nouveau rapport gestuel avec l’écriture sur les smartphones avec les pouces. En japonais, les pratiques d’écriture ont considérablement changé il y a une trentaine d’années avec le développement des traitements de texte.
La connaissance d’un caractère chinois recouvre plusieurs compétences : la capacité de le reconnaître et de le lire (être capable de l’associer à un signifiant acoustique), la compréhension de son sens (être capable de l’associer à un signifié) et la connaissance de son tracé. L’écriture d’un caractère chinois consiste alors à réaliser son tracé de façon plus ou moins automatique.
Que change l’écriture au clavier ?
Jean Bazantay : Lorsque l’on écrit avec un clavier, il est primordial de connaître la dimension phonologique du caractère et de savoir reconnaître sa forme car il faut entrer la lecture du caractère via un syllabaire et ensuite reconnaître le bon caractère parmi plusieurs propositions du logiciel. Quand on ne connaît pas sa lecture, il est possible de passer par le tracé pour la rechercher du caractère, mais c’est assez rare. Avec l’arrivée des écrans tactiles l’entrée du caractère par le geste est devenu possible, avec les doigts ou un stylet, mais cette pratique reste marginale.
Ainsi, le scripteur perd la relation kinésique avec ce qu’il écrit. Le tracé n’est alors plus le résultat d’un geste en particulier mais celui d’un encodage phonologique. Le scripteur passe par une machine pour l’écriture, il n’a plus de lien direct avec. Ce changement de paradigme comporte certains risques, dont la perte de la capacité d’écriture autonome par méconnaissance des règles de tracé. Pour prévenir ces risques de mauvaise connaissance des tracés des caractères chinois, on continue à accorder une grande importance à l’enseignement des règles de tracés et aux exercices de production à la main pour une meilleure mémorisation.
L’écriture chinoise
Lia Wei : Les inscriptions sur pierre, l’épigraphie, en milieux montagneux du VIème siècle après J.-C., indissociables de leur contexte, accompagnent la théorisation en cours du geste de l’écriture, de la forme du caractère, de sa structure et donc une conscience de la dimension esthétique dans ce geste. Cette théorisation s’officialise sous les Tang, à partir du VIIème siècle, avec la formulation des canons esthétiques de la « tradition classique de la calligraphie ». L’épigraphie médiévale permet d’accéder à une autre histoire de l’écriture, elle fait parler des communautés et des individus qui ne sont pas représentés dans la théorisation ultérieure des formes d’écritures. À partir du XVIIIème siècle, un mouvement de redécouverte des graphies anciennes s’intéressera à ces inscriptions in situ en réalisant des reproductions à l’encre sur papier, une technique connue sous le nom d’estampage. Les estampages de ces textes monumentaux seront diffusés sous forme de recueil, où le texte se trouve découpé et relié, et où chaque page ne présente parfois qu’un seul caractère. L’intérêt antiquaire pour l’épigraphie médiévale restera conditionné par les canons de la « tradition classique de la calligraphie ». Il faut attendre les recherches archéologiques de la fin des années 1990 pour que ces inscriptions soient replacées dans leur contexte physique. Aujourd’hui, l’épigraphie médiévale attend d’être replacée dans l’histoire de la calligraphie chinoise.
Pierre Magistry : L’encodage des caractères chinois sur un système informatique en Chine s’est opéré dans les années 1970-80. Pour ce faire, les caractères chinois ont été standardisés afin que l’encodage soit plus simple. Ce dernier a représenté un travail monumental pour la langue chinoise à cause du nombre conséquent de caractères. Un encodage taïwanais qui se veut englobant a été développé vers la fin du XXème siècle, en prenant en compte les variantes simplifiées et d’autres variantes plus complexes qui pourraient exister. De plus, il y a aussi une correspondance directe sur le code japonais pour faire de la conversion très simplement. Cependant, l’encodage se montrera un peu défaillant quant au traitement de textes historiques. Cet encodage n’a finalement pas été retenu comme encodage principal, c’est l’encodage Bigfile qui le sera par la suite, construit par des industriels taïwanais. Ces encodages ont été développés avant l’unicode, un codage qui a pour volonté de rassembler tous les encodages à travers le monde. Le Bigfile va être dédié au mandarin et va alors mettre de côté le taïwanais.
L’évolution de l’écriture au Japon
Jean Bazantay : La normalisation de l’écriture ne s’est pas faite uniquement à cause de la numérisation, mais aussi par des évolutions naturelles ou des décisions d’ordre philologique ou politique. On peut par exemple citer au VIIème siècle le développement de l’écriture cursive qui a mené aux kana ou la simplification des caractères après la guerre.
L’utilisation de la traduction automatique par les élèves en chinois
Pascale Elbaz : Les étudiants utilisent de plus en plus ces logiciels de traduction dans leur travail. En tant qu’enseignant, il est intéressant de voir comment ces logiciels fonctionnent. Le premier problème rencontré est que pour traduire du chinois au français, le logiciel va d’abord passer du chinois à l’anglais, puis de l’anglais au français. Il arrive parfois que le logiciel se trompe de traduction lorsqu’il tombe sur un mot polysémique. Par exemple, à partir du mot « seal » en anglais, le contexte du texte fait que la traduction en français est « sceau » ; cependant, le logiciel se trompe et traduit par « phoque ». À travers un questionnaire distribué aux étudiants depuis quatre ans, on voit une nette progression de l’utilisation de ces logiciels : aujourd’hui, tous les étudiants les utilisent. Certains traduisent caractère par caractère, d’autres mot à mot ou encore le texte en entier. Ces logiciels les aident dans les choix lexicaux à améliorer la structure des phrases. La réponse la plus fréquente : « Pour moi, la traduction automatique est un outil qui m’aide à améliorer mes traductions et que j’utilise avec confiance. » Finalement, les grandes difficultés de la traduction du chinois vers le français par ces logiciels sont les noms propres, l’utilisation de l’anglais comme langue pivot, une mauvaise syntaxe, une mauvaise conjugaison, la polysémie des mots et un appauvrissement potentiel du lexique utilisé.
Les logiciels de traduction pour le japonais
Jean Bazantay : Les logiciels de traduction automatique comme DeepL ont fait de gros progrès ces dernières années. Mais pour le japonais, le résultat n’est pas aussi satisfaisant que pour l’anglais. Ces logiciels prennent les mots au pied de la lettre et ne comprennent pas les sous-entendus, les euphémismes, l’implicite qui est très important en japonais. L’ordre des phrase, souvent différent en japonais et en français, pose aussi un problème dans la traduction. Il existe par contre un nouveau de type de logiciel d’écriture exploitant l’intelligence artificielle (IA). Ces logiciels ne traduisent pas mais produisent des textes comme des articles de journaux par exemple, qui sont basés sur des corpus spécialisés. Contrairement aux outils de traduction, ces logiciels d’écriture ont la capacité de créer un texte naturel dans la langue demandée.
Comment ces logiciels d’écriture arrivent-ils à créer ce genre de textes ?
Pierre Magisty : Ces logiciels sont de plus en plus capables de créer des textes naturels, grâce aux grands modèles de langue, des modèles probabilistes qui s’appuient sur de très grands corpus. Ils sont capables de reconstruire des textes semblables. Les corpus ont alors un rôle très important et contiennent plus de livres qu’un homme ne pourrait lire tout au long de sa vie. Lorsque l’on voudra parler de sujets un peu plus précis, qui sortent du corpus, les problèmes vont survenir plus fréquemment. Meta a publié un modèle d’interprétation automatique entre l’anglais et le taïwanais, mais les Taïwanais ont attesté que le logiciel n’était pas efficace à 100 %.
Quels sont les corpus disponibles en japonais ?
Jean Bazantay : Il existe des corpus que l’on achète dans le commerce, d’autre en accès libre comme Aozora. L’institut pour la langue japonaise et la linguistique a fait un énorme travail pour établir de nombreux corpus. Ces corpus sont très importants pour extraire des exemples et permettent une approche lexicométrique plus scientifique du vocabulaire fondamental, ou le vocabulaire essentiel par domaine. Avec ces nouveaux logiciels, l’extraction manuelle est devenue automatique.
Les corpus en chinois
Pascale Elbaz : Le problème qui peut survenir lorsque des logiciels effectuent des traductions à partir du chinois est que la segmentation des mots soit mauvaise, ce qui peut donner un sens totalement erroné à la traduction. On rencontre aussi des problèmes de traduction lorsque l’on traduit des textes qui datent du début des années 1900 et avant, car la machine ne reconnaît pas bien la langue.
L’enregistrement d’un geste d’écriture
Lia Wei : En collaboration avec Jan Schacher (alors à l’Université de Arts de Zurich, aujourd’hui à l’Université des Arts d’Helsinki), une performance d’enregistrement d’un geste d’écriture a été réalisée en 2019 avec des capteurs et des caméras infrarouges pour modéliser le mouvement d’écriture. Parmi les collègues et amis calligraphes, la réaction à cette expérience était assez mitigée, plusieurs personnes ayant fait part de leur inquiétude quant à la constitution d’un réservoir d’expérience gestuelle, qui permettrait de créer des calligraphies artificielles et de se passer du calligraphe. L’idée, partie des expériences de Jan Schacher sur les liens entre mouvement, musique et arts graphiques et d’expériences de calligraphie simultanée « à quatre mains » (projet « Biface Graphy » – 雙面書法) en collaboration avec Zhang Qiang, était plutôt d’explorer les dimensions synesthésiques et participatives de la calligraphie chinoise. Les résultats de cette tentative d’enregistrement du geste calligraphique traditionnel et du projet Biface Graphy sont visibles sur sur ce site.

Soutenez-nous !

Asialyst est conçu par une équipe composée à 100 % de bénévoles et grâce à un réseau de contributeurs en Asie ou ailleurs, journalistes, experts, universitaires, consultants ou anciens diplomates... Notre seul but : partager la connaissance de l'Asie au plus large public.

Faire un don
A propos de l'auteur
L’Institut français de recherche sur l’Asie de l’Est (IFRAE) est une nouvelle équipe de recherche rattachée à l’Inalco, à l’université de Paris-Diderot et au CNRS, mise en place au 1er janvier 2019. Elle regroupe les anciennes équipes d’accueil ASIEs et CEJ (Centre d’études japonaises) de l’Inalco, rejointes par plusieurs enseignants-chercheurs de l’université Paris-Diderot (UPD). Composée de soixante-deux chercheurs et enseignants-chercheurs, ainsi que plus de quatre-vingts doctorants et postdoctorants, elle constitue l’une des plus grandes unités de recherche sur l’Asie de l’Est en France et en Europe. Consulter la page web de l'IFRAE