traduction automatique

Et lutte contre les pseudo-sciences et les obscurantismes

traduction automatique

Message par com_71 » 13 Jan 2018, 16:43

https://the-spark.net/csart944.html

En soumettant cet article en anglais à la traduction automatique de Google translate vers le français, j'ai eu la surprise de constater qu'elle était lisible sans effort particulier, et avec un seul contre-sens (pépinière pour crèche). C'est un beau résultat, même s'il a sans doute été favorisé par le fait que l'anglais était déjà une traduction (non-automatique) du français.

Les traductions automatiques ont fait bien des progrès.
L’intérêt ne pense pas, il calcule. Les motifs sont ses chiffres. K. Marx, « Débats sur la loi relative au vol de bois » 1842.
Avatar de l’utilisateur
com_71
 
Message(s) : 5984
Inscription : 12 Oct 2002, 00:14

Re: traduction automatique

Message par yannalan » 13 Jan 2018, 18:09

Pour l'anglais, oui. Plus la langue est utilisée et proche du français et plus la traduction sera proche.Les traduction de l'arabe ou du russe, ou du néerlandais ont encore du boulot.
yannalan
 
Message(s) : 303
Inscription : 15 Déc 2005, 17:37

Re: traduction automatique

Message par Plestin » 13 Jan 2018, 21:03

En effet ! Et pour le Turc aussi : il suffit d'essayer avec un morceau d'article des camarades de Turquie, en général la traduction automatique sort quelque chose qui n'a ni queue ni tête...
Plestin
 
Message(s) : 2274
Inscription : 28 Sep 2015, 17:10

Re: traduction automatique

Message par Gestetner » 14 Jan 2018, 21:52

Pour la traduction anglais/français et vice versa. Le meilleur de loin, c'est Deepl https://www.deepl.com/translator
Gestetner
 
Message(s) : 5
Inscription : 23 Avr 2017, 19:04

Re: traduction automatique

Message par Duffy » 14 Jan 2018, 22:00

Le Monde, 27.11.2017
http://www.lemonde.fr/sciences/article/ ... 50684.html

La traduction dopée par l’intelligence artificielle

Graal de l’informatique depuis sa création, la traduction automatique a fait des progrès impressionnants. Les algorithmes vont-ils supplanter les traducteurs humains ?

« En à peine six mois, nous avons dû réinventer notre technologie. C’était une question de survie pour l’entreprise », explique Jean Senellart, le directeur technique de Systran, un des leaders de la traduction par ordinateur depuis sa création, en 1968. « Début 2016, une compétition interne, très stimulante, a été organisée pour battre notre meilleur système grâce à une nouvelle technique en vogue », précise le spécialiste, qui a lui-même participé à l’épreuve.

Et ils ont battu leur « vieux » champion. Au printemps 2016, près de cinquante ans de savoir-faire étaient ainsi jetés aux oubliettes. En novembre, le nouveau produit, qui traduit 30 langues, était prêt, en même temps que Google lançait son nouveau site de traduction reposant sur la même technique, suivi par Microsoft, Baidu, Facebook…

« Tout le monde s’est rué sur ces technologies. C’était complètement fou ! », raconte Philipp Koehn, de l’université Johns-Hopkins (Maryland), pionnier d’une technique précédente, balayée par la nouvelle venue. « Avant ces inventions, on estimait qu’il fallait un an pour progresser d’un point sur une certaine échelle de qualité. Après, en un an, les bonds, pour certaines paires de langues, ont été de près de huit points », constate François Yvon, ­directeur du Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur (Limsi-CNRS) à Orsay (Essonne). Et en août, un nouveau venu, DeepL, aussi à l’origine du dictionnaire Linguee, se targuait d’un gain de trois points supplémentaires sur la même échelle de qualité par rapport à ses concurrents.

L’une des premières applications de l’informatique

Que s’est-il passé ? L’histoire remonte aux années 1950. Traduire est l’une des premières applications de l’informatique, après le chiffrement des communications et les calculs balistiques. En 1954, IBM et l’université de Georgetown, à Washington, font la « une » des journaux en traduisant des phrases du russe vers l’anglais. La méthode utilisée est ­« naturelle ». On fournit à la machine un dictionnaire et les règles grammaticales et syntaxiques de la langue visée (ordre des mots, accords, genres…). Par exemple, si the, en anglais, précède un mot ­féminin, traduire par « la », sinon par « le », etc.

Les linguistes sont évidemment requis pour élaborer ce modèle de langue, limité par la puissance des machines d’alors et par le nombre quasi infini de règles à transformer en lignes ­informatiques. La technique fera néanmoins les beaux jours d’IBM ou de Systran. Un système ­canadien de prévision météo, Taum-Météo, fonctionnera de 1977 jusqu’au début des années 2000 sur ce principe de règles.

En 1966, la publication d’un rapport, dit « Alpac », jette cependant un froid. Le problème est plus ­difficile que prévu et loin d’être résolu, contrairement à ce que clamaient ses pionniers. Les financements, qui abondaient, fondent… Le domaine de l’intelligence artificielle connaît là l’un de ses ­premiers « hivers ».

Ce refroidissement ne signifie cependant pas un arrêt complet. Chez IBM, dans les années 1980, des ingénieurs et chercheurs ressuscitent des idées plus anciennes, qui constitueront une ­seconde révolution dans le domaine. Au lieu de travailler comme un linguiste ou un traducteur, la machine fonctionnera désormais de façon probabiliste, en fournissant une traduction correspondant à la plus grande chance de voir cette proposition apparaître dans un corpus dit bilingue, contenant des paires de phrases traduites en deux langues. Si nice, en anglais, apparaît plus souvent comme « joli » que comme « beau », alors la machine choisira « joli » comme proposition. Idem pour des bouts de phrase.

Vastes corpus bilingues

Simple, à condition d’avoir de tels corpus. Les premiers utilisés proviennent des archives bilingues du gouvernement canadien ou de la Commission et du Parlement européens, pour plusieurs langues. Puis le Web se transforme en source abondante, plusieurs robots moissonnant ses pages en quête de traductions. Google devient alors un acteur majeur et abandonne, en 2007, le moteur de traduction à base de règles fourni par Systran, pour proposer sa « machine statistique de traduction », nourrie par près de cent millions de séquences de mots.

Le monde académique réagit en amassant aussi son propre corpus. Les bases de données Gigaword ou ParaCrawl de Philipp Koehn en sont des exemples. Ce dernier, soutenu par l’Union européenne, est également l’auteur du programme Moses, dont la dernière version, qui date du mois d’octobre, est toujours utilisée par la Commission européenne.

Puis nouvel hiver dans le domaine, avec des évolutions assez lentes. Jusqu’aux secousses de l’année 2014. Trois articles, quasi simultanés, l’un de chercheurs de Google, les deux autres de l’équipe de l’université de Montréal menée par Yoshua Bengio, expliquent comment de nouveaux algorithmes promettent de tout changer. Les mots-clés ne sont plus « linguistique » ou « statistique » mais « apprentissage » et « réseaux de neurones ». Ces derniers ont été inventés dans les années 1950 et remis au goût du jour, notamment par Yoshua Bengio, pour la reconnaissance de caractères manuscrits ou l’identification ­d’objets ou d’animaux dans les images.

Ce sont des fonctions mathématiques simples (addition, multiplication) contenant des millions de paramètres ajustables, permettant de trouver la meilleure combinaison possible pour réponse à une question. Comme un peintre ­mélangeant plusieurs couleurs jusqu’à trouver la bonne. Pour la traduction, il s’agit d’ajuster les paramètres afin d’exhiber la fonction permettant de passer d’une phrase d’une langue à sa traduction, piochée toujours dans les vastes corpus bilingues. « Le petit chat tigré est mort » est présenté au système, et s’il répond « the big cat striped is dead », on le corrige, jusqu’à ce qu’il trouve la bonne version : « the little tabby cat is dead ». Et cela sur des millions de paires de phrases. « Formellement, apprendre, pour ces réseaux, c’est évaluer les paramètres de cette fonction qui associe une phrase source à une phrase cible », ­résume François Yvon.

Bête et astucieux

L’appellation réseau de neurones vient du fait que, dans le cerveau, les connexions entre neurones se renforcent ou disparaissent sans cesse. Une de leurs caractéristiques est qu’il leur faut ingurgiter beaucoup de données avant de pouvoir s’appliquer à des problèmes inconnus d’identification, de labellisation, de jeu…

Les succès sont tels depuis 2012, année de la première victoire de tels systèmes en reconnaissance d’images, qu’ils se confondent désormais avec l’expression « intelligence artificielle ». Pourtant, en traduction, ils semblent plus ­« bêtes » que leurs prédécesseurs, puisqu’ils ne savent rien des langues et de leurs règles, et qu’ils cherchent juste la meilleure manière ­d’apparier des phrases (traduites par des humains).

Mais on peut être bête et astucieux. L’idée-clé est qu’on peut abandonner le monde des mots pour celui des chiffres, évidemment plus familier pour les machines. L’astuce consiste à représenter la totalité des mots (d’un texte, de Wikipédia ou encore de directives européennes) dans un vaste espace, dans lequel deux mots de sens proche seraient géographiquement voisins. « Roi » serait proche de « reine », « chat » de « chien », « chats » de « chat »… Cette transformation assez abstraite, voire absconse, est possible… par apprentissage neuronal, comme l’a montré Yoshua Bengio en 2003.

Puis, en 2007, Holger Schwenk – alors au Limsi et, depuis 2015, chez Facebook – l’applique pour la première fois à la traduction, avant qu’en 2012 le Limsi l’utilise à grande échelle dans un cadre de traduction statistique et que d’autres la perfectionnent. Le système est conçu pour apprendre à bien parler une langue, mot à mot, c’est-à-dire qu’il prédit le meilleur terme pour compléter le début d’une phrase. C’est en quelque sorte le ­fameux modèle de langue des linguistes des ­années 1950, mais qui se dispense de règles grammaticales écrites par des experts. Puis ce modèle est couplé aux statistiques pour faire le bon choix de traduction dans les énormes corpus.

Plongements lexicaux

Ces hybrides n’ont eu qu’un temps car, en 2014, les trois articles déjà cités arrivent à passer d’une langue à l’autre sans les statistiques à l’ancienne, grâce à ces représentations numériques appelées « plongement lexical », « sac de mots », ­« représentations continues » (word embedding en anglais)…. Les mots d’une phrase source dans une langue sont d’abord « encodés » dans un plongement lexical qui tient compte des mots l’entourant dans la séquence, avant d’être « décodés » dans la langue cible, selon un processus ­inverse. L’apprentissage des deux réseaux se fait en même temps, de manière que la sortie soit ajustée à l’entrée.

Et ça fonctionne, comme l’ont successivement démontré l’université de Montréal, Google, Systran, Facebook, DeepL… en quelques semaines d’apprentissage. « C’est fascinant de voir que cette technique, qui reste encore opaque et mal comprise, fonctionne aussi bien », constate François Yvon. Il est vrai que les linguistes y perdent un peu leur latin ; l’énorme réseau de neurones à plusieurs dizaines de millions de paramètres reste assez mystérieux quant aux transformations qu’il fait subir aux mots…

C’est même si fort que d’aucuns pensent qu’il y a peut-être du sens à chercher dans ces plongements lexicaux. En octobre, une équipe de Facebook a ainsi construit un dictionnaire de mots dans deux langues… sans avoir aucune information bilingue ! Les chercheurs ont « simplement » rapproché les deux représentations géométriques et numériques de chaque langue, grâce à des réseaux de neurones.

Puis ils ont regardé quels mots étaient proches, et considéré qu’il s’agissait de leur traduction. « C’est bluffant car n’oublions pas qu’il n’y a aucune donnée bilingue dans le système. Certes il y a des erreurs, mais cela reste un exploit », estime Jean Senellart, qui a vérifié la validité de la ­méthode de ces collègues en cent lignes de code et un week-end. Car, ce qui est bluffant aussi avec ces réseaux de neurones, c’est que bien des algorithmes des Google, Facebook et autres sont ­libres et partagés, accélérant la diffusion des ­connaissances. Systran a lui aussi « ouvert » ses entrailles pour espérer attirer une communauté autour de ses systèmes.

Idiomatismes

Magiques ou pas, les résultats sont désormais là. « Il y a plus de fluidité dans les traductions depuis 2016 », constate Pierre Isabelle, tout juste retraité du Centre national de recherches du Canada. Son équipe a également testé le meilleur système ­actuel, DeepL, sur des phrases pièges. « 50 % ­d’erreurs en moins que les autres », écrivent les chercheurs dans un résumé de leur étude paru sur le site Medium. La plus grande faille concerne les idiomatismes. « Pédaler dans la choucroute » est littéralement traduit par « pedaling in sauerkraut ». « To be out to lunch » aurait été mieux.

Mais ce ne sont pas les seuls problèmes. « Parfois le système dérape complètement ! », constate Pierre Isabelle. La qualité des données compte. Si un réseau n’apprend qu’à partir de la législation européenne, il ne saura pas ce que signifie le ­tutoiement, totalement absent du corpus… Idem pour un réseau spécialisé en finance, qui prendra un bank pour une banque, alors qu’il pourrait s’agir d’un banc de poissons.

La qualité grimpe, certes, mais des sommets restent inaccessibles aujourd’hui. « Traduire non plus phrase à phrase, mais prendre en compte la totalité d’un document afin de préserver la cohérence stylistique ou lexicale est un défi. Les systèmes actuels y arrivent sur quelques dizaines de mots ; c’est déjà remarquable », note François Yvon. Mais pas toujours. Ainsi, DeepL a une ­mémoire de poisson rouge car il traduit « The car is red. It has four wheels » par « La voiture est rouge. Il a quatre roues. »

Autre point faible, selon Yoshua Bengio, « malgré les quantités délirantes de données utilisées pour les entraîner, plus que ce qu’un humain pourrait voir en plusieurs vies, les erreurs faites par ces systèmes montrent qu’ils ne captent pas vraiment le sens commun, c’est-à-dire la compréhension générale du monde qui nous entoure. Pour cela il faudra aller au-delà des corpus de textes et de traductions, et s’attacher à associer les mots et les phrases à des réalités auxquelles ils font référence, et que l’ordinateur comprenne la nature de cette réalité, les relations de cause à ­effet… » L’absence de bon sens se pose d’ailleurs pour d’autres tâches cognitives « attaquées » par l’intelligence artificielle.

La traduction orale en ligne de mire

Les ingénieurs ont aussi leurs problèmes très terre à terre. Google reconnaît : « Les réseaux de neurones sont plus lents que les modèles ­statistiques et même si des progrès ont été faits, nous cherchons des améliorations. » En outre, « un modèle est long à entraîner [plusieurs ­semaines] et comme Google traduit plus de 100 langues, nous cherchons à mettre au point des modèles multilingues », indique un de ses porte-parole.

Ce dernier point est relié à une autre question, à la fois technique et conceptuelle : que faire avec les langues peu courantes ou n’étant même pas écrites ? Le côté « bluffant » de l’encapsulation numérique pourrait être utile. « Une partie de ma recherche vise à trouver une représentation universelle qui serait donc commune à toutes ces langues et qui serait en quelque sorte une représentation du sens », indique Holger Schwenk. Accessoirement, cela rendrait peut-être plus explicable le comportement de ces bêtes à traduire.

Et la traduction orale ? Elle est aussi en ligne de mire, bien sûr, mais cumule deux difficultés. La première, la traduction, dont on vient d’exposer les limites. La seconde, la reconnaissance de la parole et sa transcription en texte, qui n’a rien d’évident non plus. « Les systèmes ont du mal avec les intonations, les ponctuations, les hésitations dans un dialogue… Bref, tout ce qui est spontané dans le langage », rappelle Laurent Besacier, professeur de l’université Grenoble-Alpes, qui vient de proposer une méthode évitant l’étape de transcription.

Malgré les difficultés, des prototypes existent, comme dans Skype pour les systèmes d’exploitation Windows, ou chez la start-up Waverly Labs, dont on peut tester l’application sur smartphone, Pilot, en attendant que des oreillettes fassent aussi le travail, ou bien ­encore dans les cours d’Alex Waibel, de l’Institut technologique de Karlsruhe, en Allemagne, qui traduit ses conférences à la volée. Mais ils sont loin de la perfection.
Duffy
 
Message(s) : 396
Inscription : 10 Fév 2015, 23:48

Re: traduction automatique

Message par yannalan » 15 Jan 2018, 11:40

J'ai travaillé dans la traduction (portugais, italien, anglais). Les traductions automatiques aident quand même à déblayer le terrain et on voit rapidement où se trouvent les problèmes quand on a une idée de la langue source. Après c'est une question de corpus entré dans la machine, ça fonctionnera mieux en anglais-français qu'en maltais-birman...
yannalan
 
Message(s) : 303
Inscription : 15 Déc 2005, 17:37


Retour vers Sciences

Qui est en ligne ?

Utilisateur(s) parcourant ce forum : gipsy et 11 invité(s)