Sprint 6 - Dose de cachaça

Na Sprint 6, a equipe de Business Intelligence(BI) da JFRN teve como missões: Refazer análise de qualidade do modelo antigo com subconjunto de petições identificadas por classificador auxiliar, realizar ajustes na extração de dados do CRETA, retreinamento da triagem automática de perícia usando abordagem multirrótulo, testes no identificador de petições iniciais, refazer análise exploratória dos rótulos de especialidades em cada subseção, dar continuidade ao Projeto Chatbot e continuar com testes de uso do CEOS com os servidores. 

O classificador auxiliar ou identificador de petições iniciais foi aplicado nos dados utilizados pra treinar a primeira versão dos classificadores da triagem de perícias, com o intuito de garantir uma maior confiança sobre os textos e, consequentemente, aumentar a eficácia dos modelos. Logo, depois disso os modelos foram retreinados com os dados filtrados e passaram pela mesma análise de desempenho que a versão anterior. 

Em relação aos ajustes na extração dos dados do CRETA, está sendo feito o processamento dos textos dos documentos, com prioridade nos documentos necessários para o treinamento dos modelos. Ao final da Sprint cerca de 1 milhão de documentos já foram processados. 

Para o retreinamento da triagem automática de perícias foram feitos testes locais do multirrótulo, realizado a implementação da pipeline e ajustado o DVC para o treinamento com intervalo de datas. No identificador de petições iniciais foram aplicadas 50 amostras do conjunto de dados do Jonathan e validado de maneira manual. O identificador também foi utilizado em documentos com erros de extração, utilizado para identificar petições em toda a base e adaptado a etapa de coleta da pipeline para pegar a identificação de petições. 

O estudo de análise dos rótulos das perícias foi continuado. Foi realizada uma nova extração da base do CRETA, extraindo-se informações dos anos de 2016 até 2022. Identificou-se, com o estudo, que a escolha de Médico do Trabalho ou Clínico Geral não tem relação com uma doença, é uma ação feita pelos servidores. Quanto ao andamento do projeto do Nisia Chatbot, foram adicionadas mais intenções tendo como base as perguntas e respostas do Fale Conosco, adicionados alguns dos serviços disponíveis da carta de serviço da JFRN e realizado treinamento do modelo com os novos dados. 

Datas

Início: 22/09/2022
Entrega: 13/10/2022

Missões

  • Refazer análise do modelo antigo com subconjunto de petições identificadas por classificador auxiliar  
  • Ajustes na extração de dados do CRETA  
  • Retreinamento da triagem automática de perícia usando abordagem – Refazer análise do modelo antigo com subconjunto de petições identificadas por classificador auxiliar  
  • Ajustes na extração de dados do CRETA  
  • Retreinamento da triagem automática de perícia usando abordagem multirrótulo  
  • Testes no identificador de petições iniciais  
  • Refazer análise exploratória dos rótulos de especialidades em cada subseção  
  • Dar continuidade ao Projeto Chatbot 

Tarefas

  • Excluir, do dataset do Jonathan, os documentos que o Identificador de Petições Iniciais rotular como diferente de uma petição inicial  
  •  Comparar os modelos do Identificador de Petições Iniciais com base nos documentos com rótulos divergentes 
  • Retreinar os modelos com os dados filtrados  
  • Refazer a análise de desempenho dos modelos com os dados por completo e em conjuntos mensais 
  • Adaptar pipeline de Coleta para coletar textos já processados 
  • Documentar modelo multirrótulo  
  • Adaptar código para abordagem de subsets de tempo  
  • Retreino dos modelos usando subsets de acordo com o tempo  
  • Avaliar os modelos na abordagem de subsets de tempo 
  • Aplicar o Identificador de Petições Iniciais em 50 amostras do conjunto do Jonathan e fazer uma validação manual  
  • Aplicar o Identificador de Petições em documentos contendo erros de extração  
  •  Identificar petições em toda a base de documentos  
  • Adaptar etapa de coleta da pipeline para pegar a identificação de petições  
  • Realizar uma nova extração das perícias 
  • Refazer as análises dos rótulos 
  • Inserção de novas perguntas da carta de serviço ao chatbot  
  • Inserção de novas respostas da carta de serviço ao chatbot  
  • Treinamento do modelo de chatbot com as novas perguntas e respostas  
  • Estudar viabilidade da remoção do ngrok  
  • Estudar viabilidade de integração do chatbot com API do fale conosco 
  • Estudar viabilidade de integração do chatbot com API da carta de serviço  
  • Finalizar reuniões de treinamentos de feedbacks  

Entregas

  • Excluir, do dataset do Jonathan, os documentos que o Identificador de Petições Iniciais rotular como diferente de uma petição inicial  
  • Comparar os modelos do Identificador de Petições Iniciais com base nos documentos com rótulos divergentes 
  • Retreinar os modelos com os dados filtrados  
  • Refazer a análise de desempenho dos modelos com os dados por completo e em conjuntos mensais 
  • Adaptar pipeline de Coleta para coletar textos já processados 
  • Adaptar código para abordagem de subsets de tempo  
  • Aplicar o Identificador de Petições Iniciais em 50 amostras do conjunto do Jonathan e fazer uma validação manual  
  • Aplicar o Identificador de Petições em documentos contendo erros de extração  
  •  Identificar petições em toda a base de documentos  
  • Adaptar etapa de coleta da pipeline para pegar a identificação de petições  
  • Realizar uma nova extração das perícias 
  • Refazer as análises dos rótulos 
  • Inserção de novas perguntas da carta de serviço ao chatbot  
  • Inserção de novas respostas da carta de serviço ao chatbot  
  • Treinamento do modelo de chatbot com as novas perguntas e respostas  
  • Estudar viabilidade da remoção do ngrok  
  • Estudar viabilidade de integração do chatbot com API do fale conosco 
  • Estudar viabilidade de integração do chatbot com API da carta de serviço