Iniciação Científica e Tecnológica
URI permanente desta comunidadehttps://repositorio.insper.edu.br/handle/11224/3250
Navegar
2 resultados
Resultados da Pesquisa
Relatório de Iniciação Tecnológica Geração e controle de sinais digitais para criação de instrumentos musicais(2025) Amaral, Pedro Cliquet doO documento descreve um projeto de iniciação tecnológica no campo da engenharia da computação, focado na geração e controle de sinais digitais para criação de instrumentos musicais, especificamente sintetizadores e controladores MIDI utilizando tecnologia FPGA-SoC. Detalhando a metodologia para desenvolver um hardware MIDI, explorando o protocolo MIDI e suas aplicações na transmissão de dados musicais, como notas e intensidade. O texto também apresenta módulos de um controlador MIDI referencial, incluindo o MidiProcessor para interpretar mensagens e o Synthesizer para gerar áudio a partir de tabelas de onda. Por fim, discute os desafios enfrentados na implementação da comunicação serial e na integração com o codec de áudio, culminando em uma abordagem alternativa para testar o sistema através de componentes internos da placa FPGA, como switches e displays hexadecimais, para depuração.Relatório de Iniciação Científica LanGaze: Digitação por Olhar Potencializada por Modelos de Linguagem Generativos(2025) Souza, Gustavo Victor Valente Braga eA digitação por olhar (eye typing) é uma tecnologia que permite o usuário digitar num teclado virtual usando apenas os olhos por meio de rastreio ocular (eye tracking). Para tornar essa interação mais fluida, sistemas baseados em decodificar trajetórias do olhar em palavras foram propostos. Neste trabalho, introduzimos o LanGaze, um método de decodificação de trajetórias oculares que integra um componente linguístico baseado em um modelo de linguagem à decodificação por tries invertidas, com o intuito de melhorar a usabilidade de sistemas de digitação com o olhar. O sistema introduz duas inovações principais. A primeira é o uso de uma trie invertida, que indexa palavras a partir de seus sufixos. Essa estratégia está alinhada ao processo natural da interação: em gestos oculares, o término é explicitamente indicado pelo usuário, enquanto o início tende a conter ruído ou movimentos não intencionais. Assim, iniciar a busca pelo final do traçado, a parte mais confiável do gesto, reduz erros. O alinhamento entre a trajetória observada e as sequências de letras é realizado incrementalmente via Dynamic Time Warping (DTW). A segunda inovação é a incorporação de um modelo de linguagem (GPT-2) como componente de modelagem linguística. Durante a decodificação, o conjunto de palavras candidatas gerado pela trie é filtrado pelo LLM, que utiliza o contexto das palavras já confirmadas para calcular as probabilidades condicionais de cada candidato. Em experimentos com um vocabulário de 60 mil palavras e 100 sessões de testes reais, o LanGaze alcançou acurácia Top-5 de até 96%. A importância do componente de linguagem foi validada por um estudo de ablação, que quantificou o impacto do LLM na decodificação e revelou um ganho de 6 pontos percentuais na precisão do sistema. Ao nosso conhecimento, esse é o primeiro sistema a combinar a decodificação por trajetórias de olhar com probabilidades de LLMs.
