Relatório de Iniciação Científica

URI permanente para esta coleçãohttps://repositorio.insper.edu.br/handle/11224/3252

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 1 de 1
  • Imagem de Miniatura
    Relatório de Iniciação Científica
    LanGaze: Digitação por Olhar Potencializada por Modelos de Linguagem Generativos
    (2025) Souza, Gustavo Victor Valente Braga e
    A digitação por olhar (eye typing) é uma tecnologia que permite o usuário digitar num teclado virtual usando apenas os olhos por meio de rastreio ocular (eye tracking). Para tornar essa interação mais fluida, sistemas baseados em decodificar trajetórias do olhar em palavras foram propostos. Neste trabalho, introduzimos o LanGaze, um método de decodificação de trajetórias oculares que integra um componente linguístico baseado em um modelo de linguagem à decodificação por tries invertidas, com o intuito de melhorar a usabilidade de sistemas de digitação com o olhar. O sistema introduz duas inovações principais. A primeira é o uso de uma trie invertida, que indexa palavras a partir de seus sufixos. Essa estratégia está alinhada ao processo natural da interação: em gestos oculares, o término é explicitamente indicado pelo usuário, enquanto o início tende a conter ruído ou movimentos não intencionais. Assim, iniciar a busca pelo final do traçado, a parte mais confiável do gesto, reduz erros. O alinhamento entre a trajetória observada e as sequências de letras é realizado incrementalmente via Dynamic Time Warping (DTW). A segunda inovação é a incorporação de um modelo de linguagem (GPT-2) como componente de modelagem linguística. Durante a decodificação, o conjunto de palavras candidatas gerado pela trie é filtrado pelo LLM, que utiliza o contexto das palavras já confirmadas para calcular as probabilidades condicionais de cada candidato. Em experimentos com um vocabulário de 60 mil palavras e 100 sessões de testes reais, o LanGaze alcançou acurácia Top-5 de até 96%. A importância do componente de linguagem foi validada por um estudo de ablação, que quantificou o impacto do LLM na decodificação e revelou um ganho de 6 pontos percentuais na precisão do sistema. Ao nosso conhecimento, esse é o primeiro sistema a combinar a decodificação por trajetórias de olhar com probabilidades de LLMs.