PPGCINF - PROPOSTA DE FRAMEWORK METODOLÓGICO DE CLASSIFICAÇÃO AUTOMÁTICA DE DOCUMENTOS DE ARQUIVO COM USO DE APRENDIZADO DE MÁQUINA

- 17, January - 2025
- 14:00
- QUALIFICAÇÃO DE DOUTORADO
- Título
- PROPOSTA DE FRAMEWORK METODOLÓGICO DE CLASSIFICAÇÃO AUTOMÁTICA DE DOCUMENTOS DE ARQUIVO COM USO DE APRENDIZADO DE MÁQUINA
- Aluno
- Eduardo Watanabe
- Orientador
- Renato Tarciso Barbosa de Sousa
- RESUMO
- QUALIFICAÇÃO DE DOUTORADO
  
  DISCENTE: Eduardo Watanabe
  
  TÍTULO: PROPOSTA DE FRAMEWORK METODOLÓGICO DE CLASSIFICAÇÃO AUTOMÁTICA DE DOCUMENTOS DE ARQUIVO COM USO DE APRENDIZADO DE MÁQUINA
  
  HORÁRIO E DATA: 17/01/2025, às 14h00
  
  COMPOSIÇÃO DA BANCA:
  
  Renato Tarciso Barbosa de Sousa - Presidente (PPGCINF/UnB)
  
  Márcio de Carvalho Victorino - membro titular (PPGCINF/UnB)
  
  Thiago Henrique Bragato Barros - membro titular externo (UFRGS)
  
  Rogério Henrique de Araújo Júnior - suplente (FCI/UnB)
  
  LOCAL DA REALIZAÇÃO DA BANCA (HIBRIDA): Híbrida: presencialmente na Sala de reunião da Pós-Graduação e via Skype no link: https://join.skype.com/iwOSZCxyRusg
  
  RESUMO: A presente pesquisa tem como objetivo propor e testar um framework metodológico para a classificação automática de documentos de arquivo utilizando aprendizado de máquina. Embora existam avanços no uso do aprendizado de máquina para a classificação automática de documentos de arquivo com pelo menos 24 experimentos identificados na literatura, a falta em geral de uma fundamentação teórica sólida na arquivologia e ciência da informação prejudica a evolução de experimentos para a gestão de documentos. A revisão da literatura mostra que, embora frameworks emergentes como Computational Grounded Theory, Text as Data, Computer Assisted Leaning and Measuremente text mining em história digital tenham avançado em áreas como sociologia, ciências sociais e antropologia, eles não trabalham com princípios arquivísticos ou tipos documentais, que são essenciais para uma abordagem robusta de tratamento de documentos. Nesse sentido, o framework proposto busca integrar metodologias de arquivologia e ciência da informação com técnicas de inteligência artificial, oferecendo uma abordagem inovadora para a classificação automática de documentos. A pesquisa utiliza a metodologia da Design Science Research, que visa tanto o desenvolvimento quanto a validação de artefatos que respondam a problemas práticos e teóricos. O framework será construído a partir de etapas essenciais como estratégia de classificação, design de datasets, pré-processamento, treinamento e teste de modelos e avaliação dos resultados. A etapa experimental será realizada com documentos reais da Advocacia-Geral da União (AGU), uma organização pública federal brasileira, para testar a eficácia do framework em um contexto real. O estudo propõe que o uso de tipos documentais como feature no treinamento de modelos de aprendizado de máquina possa melhorar os resultados de classificação, medidos por métricas como o F1 Score. Além disso, será analisada a correlação entre a qualidade do dataset a ser desenvolvido e o desempenho dos modelos, bem como a explicabilidade dos resultados. Os resultados esperados incluem a validação de um framework metodológico aplicável à classificação automática de documentos arquivísticos, contribuindo tanto para a pesquisa acadêmica quanto para práticas profissionais de gestão de documentos em organizações públicas e privadas. A pesquisa também contribui para o campo emergente da Computational Archival Science, promovendo a adoção de tecnologias de IA de forma ética, transparente e centrada no usuário, ao mesmo tempo que oferece soluções para o crescente desafio de lidar com grandes volumes de documentos digitais e físicos.
  
  PALAVRAS-CHAVE: Classificação automática de documentos. Computational Archival Science.Tipologia documental. Qualidade de dados. aprendizado de máquina. Processamento de Linguagem Natural.

« Anterior

Entre democracias: as inflexões promovidas pelos processos de redemocratização na legislação de Patrimônio Cultural na América do Sul

O lugar do livro na produção, distribuição e uso do conhecimento científico nas ciências sociais e humanas