LanGaze: Digitação por Olhar Potencializada por Modelos de Linguagem Generativos

dc.contributor.advisorANDREW TOSHIAKI NAKAYAMA KURAUCHI
dc.contributor.authorSouza, Gustavo Victor Valente Braga e
dc.date.accessioned2025-10-14T13:35:54Z
dc.date.issued2025
dc.description.abstractA digitação por olhar (eye typing) é uma tecnologia que permite o usuário digitar num teclado virtual usando apenas os olhos por meio de rastreio ocular (eye tracking). Para tornar essa interação mais fluida, sistemas baseados em decodificar trajetórias do olhar em palavras foram propostos. Neste trabalho, introduzimos o LanGaze, um método de decodificação de trajetórias oculares que integra um componente linguístico baseado em um modelo de linguagem à decodificação por tries invertidas, com o intuito de melhorar a usabilidade de sistemas de digitação com o olhar. O sistema introduz duas inovações principais. A primeira é o uso de uma trie invertida, que indexa palavras a partir de seus sufixos. Essa estratégia está alinhada ao processo natural da interação: em gestos oculares, o término é explicitamente indicado pelo usuário, enquanto o início tende a conter ruído ou movimentos não intencionais. Assim, iniciar a busca pelo final do traçado, a parte mais confiável do gesto, reduz erros. O alinhamento entre a trajetória observada e as sequências de letras é realizado incrementalmente via Dynamic Time Warping (DTW). A segunda inovação é a incorporação de um modelo de linguagem (GPT-2) como componente de modelagem linguística. Durante a decodificação, o conjunto de palavras candidatas gerado pela trie é filtrado pelo LLM, que utiliza o contexto das palavras já confirmadas para calcular as probabilidades condicionais de cada candidato. Em experimentos com um vocabulário de 60 mil palavras e 100 sessões de testes reais, o LanGaze alcançou acurácia Top-5 de até 96%. A importância do componente de linguagem foi validada por um estudo de ablação, que quantificou o impacto do LLM na decodificação e revelou um ganho de 6 pontos percentuais na precisão do sistema. Ao nosso conhecimento, esse é o primeiro sistema a combinar a decodificação por trajetórias de olhar com probabilidades de LLMs.pt
dc.description.abstracttheir eyes through eye tracking. To make this interaction more fluid, systems based on decoding gaze trajectories into words have been proposed. In this work, we introduce LanGaze, a method for decoding gaze trajectories that integrates a linguistic component based on a language model into inverted-trie decoding, with the aim of improving the usability of eye-typing systems. The system introduces two main innovations. The first is the use of an inverted trie, which indexes words from their suffixes. This strategy is aligned with the natural process of interaction: in gaze gestures, the ending is explicitly indicated by the user, while the beginning tends to contain noise or unintentional movements. Thus, starting the search from the end of the trace—the most reliable part of the gesture—reduces errors. The alignment between the observed trajectory and the sequences of letters is performed incrementally via Dynamic Time Warping (DTW). The second innovation is the incorporation of a language model (GPT-2) as a linguistic modeling component. During decoding, the set of candidate words generated by the trie is filtered by the LLM, which uses the context of the already confirmed words to calculate the conditional probabilities of each candidate. In experiments with a vocabulary of 60,000 words and 100 real test sessions, LanGaze achieved Top-5 accuracy of up to 96%. The importance of the language component was validated by an ablation study, which quantified the impact of the LLM on decoding and revealed a 6-percentage-point gain in system accuracy. To our knowledge, this is the first system to combine gaze-trajectory decoding with LLM probabilities.en
dc.formatDigital
dc.format.extent38 p.
dc.identifier.urihttps://repositorio.insper.edu.br/handle/11224/8081
dc.language.isoPortuguês
dc.subjectdigitação por olharpt
dc.subjectentrada de textopt
dc.subjectgesto de digitaçãopt
dc.subjectLLMsen
dc.subjectmodelos generativospt
dc.subjecteye typingen
dc.subjecttext inputen
dc.subjectgesture inputen
dc.subjectword gestureen
dc.subjectgenerative modelsen
dc.titleLanGaze: Digitação por Olhar Potencializada por Modelos de Linguagem Generativos
dc.typereport
dspace.entity.typePublication
local.subject.cnpqCIENCIAS EXATAS E DA TERRA
local.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
local.typeRelatório de Iniciação Científica
relation.isAdvisorOfPublication02551317-e7a0-4202-abb1-4aaca2bbaa30
relation.isAdvisorOfPublication.latestForDiscovery02551317-e7a0-4202-abb1-4aaca2bbaa30

Arquivos

Pacote original

Agora exibindo 1 - 2 de 2
Imagem de Miniatura
Nome:
PIBIC_Relatorio Final_Gustavo Victor Valente.pdf
Tamanho:
2.03 MB
Formato:
Adobe Portable Document Format
N/D
Nome:
Autorização_Gustavo Victor Valente.pdf
Tamanho:
19.09 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
N/D
Nome:
license.txt
Tamanho:
236 B
Formato:
Item-specific license agreed upon to submission
Descrição: