Constitution et traitement d’un corpus bilingue d’articles scientifiques
Nous présentons dans cet article un outil dédié à la constitution de corpus parallèles alignés constitués à partir de l’aspiration de sources sur le Web. Nous montrons comment cet outil a permis de constituer un corpus aligné anglais-français pour un type de texte difficile à trouver en version bilingue, à savoir les articles scientifiques. Moyennant l’élaboration de chaînes de traitement basées sur l’écriture d’expressions régulières (dédiées à la définition des urls à aligner et à l’extraction des contenus) nous avons pu constituer, lors d’une première campagne, un corpus parallèle d’environ 4 millions de mots dans chaque langue, formaté en XML-TEI et TMX.
2014 ◽
Vol 1
(1)
◽
pp. 96-124
◽
Keyword(s):