Linguamática
Latest Publications


TOTAL DOCUMENTS

50
(FIVE YEARS 35)

H-INDEX

2
(FIVE YEARS 2)

Published By University Of Minho

1647-0818

Linguamática ◽  
2021 ◽  
Vol 13 (2) ◽  
pp. 3-17
Author(s):  
Pablo Gamallo ◽  
José Ramom Pichel ◽  
José Martinho Montero Santalha ◽  
Marco Neves

O trabalho apresentado neste artigo tem dois objectivos. Por um lado, descreve a adaptação de duas ferramentas de processamento da língua natural ao galego-português medieval, nomeadamente um analisador morfossintático e um reconhededor de variedades medievais, e por outro, visa testar hipóteses linguísticas sobre a evolução de sufixos medievais mediante o uso dessas ferramentas em corpora históricos. Apesar de o desempenho das ferramentas ser inferior do que quando utilizadas para variedades modernas mais estandardizadas e com menos variabilidade formal, mostramos que é possível usá-las com grande fiabilidade para estudos quantitativos baseados em corpus. O estudo linguístico baseado em corpus permite-nos conferir que, pela sua distribuição de frequências, a presença dos sufixos -CION e -BLE nos textos medievais da Galiza foi provavelmente influenciada pelo castelhano baixo medieval.


Linguamática ◽  
2021 ◽  
Vol 13 (2) ◽  
pp. 19-35
Author(s):  
Hugo Gonçalo Oliveira ◽  
Ana Alves

 Apresentamos neste artigo o corpo AIA-BDE, que tem como principal objetivo a avaliação de sistemas que procuram associar necessidades de informação expressas em linguagem natural a perguntas com resposta conhecida (i.e., FAQ). Este corpo inclui várias perguntas no domínio da Administração Pública em Portugal e respetivas respostas. A 855 dessas perguntas foram adicionadas, manual e automaticamente, formas alternativas de as fazer, a que chamamos variações, e que podem ser utilizadas para simular interações de humanos. Essas perguntas encontram-se classificadas de acordo com a sua origem, com quatro valores possíveis, e têm ainda associado um tipo, atribuído com base na opinião de cinco anotadores. Para além de apresentar o AIA-BDE, ilustramos como pode ser utilizado através de três experiências, com resultados que podem ser vistos como base para melhorias futuras: associação de variações às respetivas perguntas; identificação automática da origem das variações; e classificação automática das perguntas quanto ao seu tipo.


Linguamática ◽  
2021 ◽  
Vol 13 (1) ◽  
pp. 3-21
Author(s):  
Matilde Gonçalves ◽  
Luisa Coheur ◽  
Hugo Nicolau ◽  
Ana Mineiro

A língua gestual portuguesa, tal como a língua portuguesa, evoluiu de forma natural, adquirindo características gramaticais distintas do português. Assim, o desenvolvimento de um tradutor entre as duas não consiste somente no mapeamento de uma palavra num gesto (português gestuado), mas em garantir que os gestos resultantes satisfazem a gramática da língua gestual portuguesa e que as traduções estejam semanticamente corretas. Trabalhos desenvolvidos anteriormente utilizam exclusivamente regras de tradução manuais, sendo muito limitados na quantidade de fenómenos gramaticais abrangidos, produzindo pouco mais que português gestuado. Neste artigo, apresenta-se o primeiro sistema de tradução de português para a língua gestual portuguesa, o PE2LGP, que, para além de regras manuais, se baseia em regras de tradução construídas automaticamente a partir de um corpus de referência. Dada uma frase em português, o sistema devolve uma sequência de glosas com marcadores que identificam expressões faciais, palavras soletradas, entre outras. Uma avaliação automática e uma avaliação manual são apresentadas, indicando os resultados melhorias na qualidade da tradução de frases simples e pequenas em comparação ao sistema baseline (português gestuado). Este é, também, o primeiro trabalho que lida com as expressões faciais gramaticais que marcam as frases interrogativas e negativas.


Linguamática ◽  
2021 ◽  
Vol 13 (1) ◽  
pp. 23-30
Author(s):  
Hui-Chuan Lu ◽  
An Chung Cheng ◽  
Meng-Hsin Yeh ◽  
Chao-Yi Lu ◽  
Ruth Alegre Di Lascio

El presente estudio se dedica al desarrollo de un corpus paralelo trilingüe denominado CPEIC (Corpus Paralelo de Español, Inglés y Chino) cuyo fin es el de aportar conocimientos a las investigaciones sobre la traducción, el análisis contrastivo, el aprendizaje y la enseñanza de una lengua extranjera. Dicho CPEIC abarca las tres lenguas más habladas del mundo (español, inglés y chino) y contiene aproximadamente 4 millones de palabras. Basándose en el corpus paralelo desarrollado, se realizó un análisis contrastivo del tiempo pasado, el cual se expresa de manera diferente en las tres lenguas mencionadas. Los resultados obtenidos (a) avalan estudios previos sobre la relación entre el pretérito del español con el marcador aspectual chino "le", así como también la relación entre el imperfecto del español con "would" y "was/were+Ving" del inglés, (b) contradicen las presunciones con respecto a la conexión entre el imperfecto del español y el marcador aspectual chino "zhe", y (c) proporcionan una nueva perspectiva sobre la relación entre el pretérito del español y la voz pasiva en los tres idiomas.


Linguamática ◽  
2021 ◽  
Vol 12 (2) ◽  
pp. 51-68
Author(s):  
Matilde Gonçalves ◽  
Luisa Coheur ◽  
Jorge Baptista ◽  
Ana Mineiro

 Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.


Linguamática ◽  
2021 ◽  
Vol 12 (2) ◽  
pp. 29-49
Author(s):  
Diana Santos ◽  
Eckhard Bick ◽  
Marcin Wlodek

Este artigo relata a preparação da anotação da coleção ELTeC-por com entidades mencionadas apropriadas ao género textual "romances e novelas publicadas entre 1840 e 1920", para possibilitar a leitura distante em português. Em primeiro lugar apresentamos a coleção ELTeC-por, compilada no âmbito da ação COST "Distant Reading for European Literary History" para estudar a literatura europeia, e explicamos as diversas restrições e escolhas necessárias, fornecendo uma caracterização inicial segundo vários eixos: a origem e tamanho das obras, o seu (sub)género literário, o género do autor, o local de publicação e a existência ou não de mais edições. Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a coleção, explicando detalhadamente o seu funcionamento. Passamos então à descrição da criação de uma subcoleção de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automático, e, por outro, para caracterizar o tipo de população esperada. As obras podem classificar-se segundo dois eixos diferentes: romances históricos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Além disso, algumas obras são obviamente canónicas, outras não. Além da descrição quantitativa do resultado de anotação e revisão, apresentamos algumas considerações qualitativas sobre o processo. Também fornecemos uma análise detalhada de algumas categorias, tentando mostrar como os lugares, profissões e gentílicos mais mencionados podem ser indicadores numa leitura distante. Concluímos comparando com o trabalho internacional feito na análise de entidades mencionadas de obras literárias, explicando as diferenças e sugerindo trabalho futuro.


Linguamática ◽  
2021 ◽  
Vol 12 (2) ◽  
pp. 3-27
Author(s):  
Nathan Siegle Hartmann ◽  
Sandra Maria Aluísio

A Adaptação Textual é uma grande área de pesquisa do Processamento de Línguas Naturais (PLN), bastante conhecida como prática educacional, e possui duas grandes abordagens: a Simplificação e a Elaboração Textual. Não há muitos trabalhos na literatura de PLN que tratam todas as fases da Adaptação Lexical para implementação de sistemas. Vários trabalhos tratam independentemente as tarefas de Simplificação e Elaboração Lexicais, trazendo contribuições parciais, já que cada uma das tarefas possuem seus próprios desafios. Este trabalho propôs um pipeline para a Adaptação Lexical e apresenta contribuições para três das quatro etapas do pipeline, sendo elas: (i) proposta e avaliação de métodos para a tarefa de Identificação de Palavras Complexas; (ii) análise de córpus para levantamento de padrões de Elaboração Lexical do tipo definição; (iii) disponibilização do córpus SIMPLEX-PB 3.0, contendo em sua nova versão definições curtas extraídas de dicionário que foram revisadas manualmente, anotações de termos técnicos extraídas de dicionário, e métricas linguísticas de complexidade lexical; e (iv) proposta e avaliação de métodos para Simplificação Lexical, estabelecendo um novo SOTA para a tarefa aplicada no Português Brasileiro.


Linguamática ◽  
2021 ◽  
Vol 12 (2) ◽  
pp. 71-80
Author(s):  
María José Domínguez Vázquez
Keyword(s):  

Esta presentación de dous prototipos de xeración automática de lingua natural achega unha visión de conxunto da metodoloxía aplicada na descrición e procesamento dos datos lingüísticos, así como das técnicas e ferramentas xa existentes ou desenvolvidas co fin de garantir o funcionamento dos simuladores en alemán, español e francés.


Linguamática ◽  
2020 ◽  
Vol 12 (1) ◽  
pp. 97-115
Author(s):  
Iria Da Cunha
Keyword(s):  

En este trabajo se presenta una aplicación tecnológica gratuita y en línea que ayuda a la ciudadanía a escribir textos dirigidos a la Administración pública. Concretamente, ayuda a redactar cinco géneros textuales: alegación, carta de presentación, queja, reclamación y solicitud. La aplicación tiene forma de editor de textos e incluye tres módulos para: I) estructurar y añadir contenidos en el texto, II) corregirlo ortográficamente y darle formato, y III) obtener sugerencias de mejora sobre aspectos léxicos y discursivos. Integra diferentes herramientas de Procesamiento del Lenguaje Natural (PLN), como un analizador morfosintáctico y un segmentador discursivo. Las evaluaciones data-driven y user-driven realizadas ofrecen resultados positivos.


Linguamática ◽  
2020 ◽  
Vol 12 (1) ◽  
pp. 117-126
Author(s):  
José Ramom Pichel ◽  
Pablo Gamallo ◽  
Marco Neves ◽  
Iñaki Alegria

O objetivo deste trabalho é aplicar uma metodologia baseada na perplexidade, para calcular automaticamente a distância interlinguística entre diferentes períodos históricos de variantes diatópicas de idiomas. Esta metodologia aplica-se a um corpus construído adhoc em ortografia original, numa base equilibrada de ficção e não-ficção, que mede a distância histórica entre o português europeu e do Brasil, por um lado, e o espanhol europeu e o da Argentina, por outro. Os resultados mostram distâncias muito próximas em ortografia original e transcrita automaticamente, entre as variedades diatópicas do português e do espanhol, com ligeiras convergências/divergências desde meados do século XX até hoje. É de salientar que o método não é supervisionado e pode ser aplicado a outras variedades diatópicas de línguas.


Sign in / Sign up

Export Citation Format

Share Document