LanGaze: Digitação por Olhar Potencializada por Modelos de Linguagem Generativos

Souza, Gustavo Victor Valente Braga e

LanGaze: Digitação por Olhar Potencializada por Modelos de Linguagem Generativos

Autores

Souza, Gustavo Victor Valente Braga e

Orientador

ANDREW TOSHIAKI NAKAYAMA KURAUCHI

Tipo de documento

Relatório de Iniciação Científica

Data

2025

Arquivos

PIBIC_Relatorio Final_Gustavo Victor Valente.pdf (2.03 MB)

Autorização_Gustavo Victor Valente.pdf (19.09 MB)

Resumo

A digitação por olhar (eye typing) é uma tecnologia que permite o usuário digitar num teclado virtual usando apenas os olhos por meio de rastreio ocular (eye tracking). Para tornar essa interação mais fluida, sistemas baseados em decodificar trajetórias do olhar em palavras foram propostos. Neste trabalho, introduzimos o LanGaze, um método de decodificação de trajetórias oculares que integra um componente linguístico baseado em um modelo de linguagem à decodificação por tries invertidas, com o intuito de melhorar a usabilidade de sistemas de digitação com o olhar. O sistema introduz duas inovações principais. A primeira é o uso de uma trie invertida, que indexa palavras a partir de seus sufixos. Essa estratégia está alinhada ao processo natural da interação: em gestos oculares, o término é explicitamente indicado pelo usuário, enquanto o início tende a conter ruído ou movimentos não intencionais. Assim, iniciar a busca pelo final do traçado, a parte mais confiável do gesto, reduz erros. O alinhamento entre a trajetória observada e as sequências de letras é realizado incrementalmente via Dynamic Time Warping (DTW). A segunda inovação é a incorporação de um modelo de linguagem (GPT-2) como componente de modelagem linguística. Durante a decodificação, o conjunto de palavras candidatas gerado pela trie é filtrado pelo LLM, que utiliza o contexto das palavras já confirmadas para calcular as probabilidades condicionais de cada candidato. Em experimentos com um vocabulário de 60 mil palavras e 100 sessões de testes reais, o LanGaze alcançou acurácia Top-5 de até 96%. A importância do componente de linguagem foi validada por um estudo de ablação, que quantificou o impacto do LLM na decodificação e revelou um ganho de 6 pontos percentuais na precisão do sistema. Ao nosso conhecimento, esse é o primeiro sistema a combinar a decodificação por trajetórias de olhar com probabilidades de LLMs.

their eyes through eye tracking. To make this interaction more fluid, systems based on decoding gaze trajectories into words have been proposed. In this work, we introduce LanGaze, a method for decoding gaze trajectories that integrates a linguistic component based on a language model into inverted-trie decoding, with the aim of improving the usability of eye-typing systems. The system introduces two main innovations. The first is the use of an inverted trie, which indexes words from their suffixes. This strategy is aligned with the natural process of interaction: in gaze gestures, the ending is explicitly indicated by the user, while the beginning tends to contain noise or unintentional movements. Thus, starting the search from the end of the trace—the most reliable part of the gesture—reduces errors. The alignment between the observed trajectory and the sequences of letters is performed incrementally via Dynamic Time Warping (DTW). The second innovation is the incorporation of a language model (GPT-2) as a linguistic modeling component. During decoding, the set of candidate words generated by the trie is filtered by the LLM, which uses the context of the already confirmed words to calculate the conditional probabilities of each candidate. In experiments with a vocabulary of 60,000 words and 100 real test sessions, LanGaze achieved Top-5 accuracy of up to 96%. The importance of the language component was validated by an ablation study, which quantified the impact of the LLM on decoding and revealed a 6-percentage-point gain in system accuracy. To our knowledge, this is the first system to combine gaze-trajectory decoding with LLM probabilities.

Palavras-chave

digitação por olhar; entrada de texto; gesto de digitação; LLMs; modelos generativos; eye typing; text input; gesture input; word gesture; generative models

Idioma

Português

URI

https://repositorio.insper.edu.br/handle/11224/8081

Área do Conhecimento CNPQ

CIENCIAS EXATAS E DA TERRA

CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

Coleções

Relatório de Iniciação Científica

Página do item completo