LanGaze: Digitação por Olhar Potencializada por Modelos de Linguagem Generativos
Autores
Souza, Gustavo Victor Valente Braga e
Orientador
Co-orientadores
Citações na Scopus
Tipo de documento
Relatório de Iniciação Científica
Data
2025
Resumo
A digitação por olhar (eye typing) é uma tecnologia que permite o usuário digitar num
teclado virtual usando apenas os olhos por meio de rastreio ocular (eye tracking). Para
tornar essa interação mais fluida, sistemas baseados em decodificar trajetórias do
olhar em palavras foram propostos. Neste trabalho, introduzimos o LanGaze, um
método de decodificação de trajetórias oculares que integra um componente
linguístico baseado em um modelo de linguagem à decodificação por tries invertidas,
com o intuito de melhorar a usabilidade de sistemas de digitação com o olhar.
O sistema introduz duas inovações principais. A primeira é o uso de uma trie invertida,
que indexa palavras a partir de seus sufixos. Essa estratégia está alinhada ao
processo natural da interação: em gestos oculares, o término é explicitamente
indicado pelo usuário, enquanto o início tende a conter ruído ou movimentos não
intencionais. Assim, iniciar a busca pelo final do traçado, a parte mais confiável do
gesto, reduz erros. O alinhamento entre a trajetória observada e as sequências de
letras é realizado incrementalmente via Dynamic Time Warping (DTW).
A segunda inovação é a incorporação de um modelo de linguagem (GPT-2) como
componente de modelagem linguística. Durante a decodificação, o conjunto de
palavras candidatas gerado pela trie é filtrado pelo LLM, que utiliza o contexto das
palavras já confirmadas para calcular as probabilidades condicionais de cada
candidato. Em experimentos com um vocabulário de 60 mil palavras e 100 sessões
de testes reais, o LanGaze alcançou acurácia Top-5 de até 96%. A importância do
componente de linguagem foi validada por um estudo de ablação, que quantificou o
impacto do LLM na decodificação e revelou um ganho de 6 pontos percentuais na
precisão do sistema. Ao nosso conhecimento, esse é o primeiro sistema a combinar
a decodificação por trajetórias de olhar com probabilidades de LLMs.
their eyes through eye tracking. To make this interaction more fluid, systems based on decoding gaze trajectories into words have been proposed. In this work, we introduce LanGaze, a method for decoding gaze trajectories that integrates a linguistic component based on a language model into inverted-trie decoding, with the aim of improving the usability of eye-typing systems. The system introduces two main innovations. The first is the use of an inverted trie, which indexes words from their suffixes. This strategy is aligned with the natural process of interaction: in gaze gestures, the ending is explicitly indicated by the user, while the beginning tends to contain noise or unintentional movements. Thus, starting the search from the end of the trace—the most reliable part of the gesture—reduces errors. The alignment between the observed trajectory and the sequences of letters is performed incrementally via Dynamic Time Warping (DTW). The second innovation is the incorporation of a language model (GPT-2) as a linguistic modeling component. During decoding, the set of candidate words generated by the trie is filtered by the LLM, which uses the context of the already confirmed words to calculate the conditional probabilities of each candidate. In experiments with a vocabulary of 60,000 words and 100 real test sessions, LanGaze achieved Top-5 accuracy of up to 96%. The importance of the language component was validated by an ablation study, which quantified the impact of the LLM on decoding and revealed a 6-percentage-point gain in system accuracy. To our knowledge, this is the first system to combine gaze-trajectory decoding with LLM probabilities.
their eyes through eye tracking. To make this interaction more fluid, systems based on decoding gaze trajectories into words have been proposed. In this work, we introduce LanGaze, a method for decoding gaze trajectories that integrates a linguistic component based on a language model into inverted-trie decoding, with the aim of improving the usability of eye-typing systems. The system introduces two main innovations. The first is the use of an inverted trie, which indexes words from their suffixes. This strategy is aligned with the natural process of interaction: in gaze gestures, the ending is explicitly indicated by the user, while the beginning tends to contain noise or unintentional movements. Thus, starting the search from the end of the trace—the most reliable part of the gesture—reduces errors. The alignment between the observed trajectory and the sequences of letters is performed incrementally via Dynamic Time Warping (DTW). The second innovation is the incorporation of a language model (GPT-2) as a linguistic modeling component. During decoding, the set of candidate words generated by the trie is filtered by the LLM, which uses the context of the already confirmed words to calculate the conditional probabilities of each candidate. In experiments with a vocabulary of 60,000 words and 100 real test sessions, LanGaze achieved Top-5 accuracy of up to 96%. The importance of the language component was validated by an ablation study, which quantified the impact of the LLM on decoding and revealed a 6-percentage-point gain in system accuracy. To our knowledge, this is the first system to combine gaze-trajectory decoding with LLM probabilities.
Palavras-chave
digitação por olhar; entrada de texto; gesto de digitação; LLMs; modelos generativos; eye typing; text input; gesture input; word gesture; generative models
Titulo de periódico
URL da fonte
Título de Livro
URL na Scopus
Sinopse
Objetivos de aprendizagem
Idioma
Português
Notas
Membros da banca
Área do Conhecimento CNPQ
CIENCIAS EXATAS E DA TERRA
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO