Sprint 8 - Karak

  Para a Sprint 8, a equipe de Business Intelligence teve como missões: continuar a Implementação da classificação multirrótulo no pipeline de subsets, implementar cleanlab com o identificador de petições iniciais, implementar testes na etapa de coleta da triagem de perícias, estudar documentação do sinapses, acelerar o processamento dos textos do CRETA, adicionar mais 10 intenções ao chatbot com serviços essenciais, definir métrica para o chatbot e interpretá-las, correção de bugs do chatbot, adicionar feedback e report de erro no chatbot e coleta de dados para refinamento do chatbot. 

 Em relação a implementação da classificação multirrótulo no pipeline foi finalizada a construção do modelo para treino. O ambiente sobe automaticamente os novos modelos testados e todos os dados diretamente para o Gitjus. Já em relação ao cleanlab foi testado um novo algoritmo junto aos anteriores(XGBoost e LightGBM) conhecido como CatBoost, as métricas foram basicamente idênticas aos algoritmos anteriores. Nos testes da etapa de coleta foi utilizado uma nova ferramenta chamada de Great Expectations para ajudar a criar testes relacionados aos dados dentro da pipeline e assim identificar erros de maneira bem mais simples. No processamento de textos do CRETA foram criadas novas formas de processar, sendo possível dividir as aplicações em várias máquinas diferentes e também verificando para que não façam o processamento do mesmo documento já feito por outra máquina. 

 No projeto do Nísia Chatbot foi realizado um estudo sobre métricas para que seja possível avaliar se o modelo está realmente melhorando com adição de novas intenções, foram realizados correções de alguns problemas quando o chat não estava respondendo algumas perguntas e ficava num estado de travamento, adicionada 2 novas funcionalidades ao projeto onde o usuário ao final da interação responde se aquilo ajudou ou não a sua dúvida e também é possível enviar um formulário de erros/sugestões sobre o projeto. Também foi disponibilizado para os servidores do atendimento ao público um outro formulário, esse para coletar mais perguntas reais sobre intenções que têm poucos dados no momento, fazendo assim que o modelo fique o mais balanceado possível em relação às classes. 

 Um novo material foi disponibilizado para a equipe e assim poder estudar a documentação do sinapses, ferramenta que auxilia o desenvolvimento e disponibilidade em larga escala de modelos de IA, tudo isso para que futuramente os modelos possam ser colocados em produção dentro da plataforma do CNJ. 

Datas

Início: 14/11/2022
Entrega: 30/11/2022

Missões

  • Implementar classificação multirrótulo no pipeline de subsets  
  • Adicionar mais 10 intenções ao chatbot com serviços essenciais 
  • Implementar cleanlab com o identificador de petições iniciais 
  • Implementar testes na etapa de coleta da triagem de perícias 
  • Estudar documentação do sinapses 
  • Definir métrica para o chatbot e interpretá-las 
  • Correção de bugs do chatbot 
  • Adicionar feedback e report de erro no chatbot 
  • Acelerar o processamento dos textos do CRETA 
  • Coleta de dados para refinamento do chatbot 
  • Relações públicas da sprint 

 

Tarefas

  • Enviar para Elias um arquivo contendo apenas uma coluna com os textos integrais das petições iniciais dos juizados especiais 
  • Exportar pipeline completa para treinamento com Elias 
  • Retreino dos modelos usando subsets de acordo com o tempo 
  •  Avaliar os modelos na abordagem de subsets de tempo 
  •  Adicionar SERVIÇOS JUDICIAIS – VIDEOCONFERÊNCIA ao chatbot(carta de servico)  
  • Adicionar SERVIÇOS JUDICIAIS – PERÍCIA E AUDIÊNCIAS ao chatbot  
  • Adicionar SERVIÇOS JUDICIAIS – JULGAMENTOS ao chatbot  
  • Rodar o Cleanlab com o Identificador de Petições Iniciais 
  •  Avaliar textos sinalizados como possíveis erros  
  • Adaptar funções da etapa de coleta para rodar testes unitários 
  •  Implementar validações e testes unitários na etapa de coleta da pipeline de treinamento do modelo 
  • Adicionar Log do treinamento usando Logging 
  • Remover códigos depracated da pipeline 
  • Remover senha do banco de dados do código 
  • Estudar documentação do sinapses 
  •  Fazer apresentação sobre o sinapses 
  • Pesquisar métricas que se enquadram no nosso chatbot  
  • Definir e implementar métrica mãe para o chatbot 
  • Verificar perguntas sem resposta no chatbot  
  • Adicionar pergunta de feedback após uma resposta do bot  
  • Pesquisar e implementar plataforma para report de erros  
  • Implementar extração dos textos do Creta em paralelo 
  •  Extrair dados do whatsapp da justiça com backup das conversas 
  • Classificar perguntas do whatsapp usando aprendizado semi-supervisionado 
  •  Cadastro das atividades no Jira/Gitlab 
  •  Escrever resumo da sprint 
  •  Criação do slide para apresentação da sprint  
  •  Divulgar mídias da sprint no portal da residência e nuvem  
  • Enviar cópia da Triagem de Perícias para o time do TRF5  

Entregas

  • Retreino dos modelos usando subsets de acordo com o tempo 
  • Avaliar os modelos na abordagem de subsets de tempo 
  • Rodar o Cleanlab com o Identificador de Petições Iniciais 
  • Avaliar textos sinalizados como possíveis erros  
  • Adaptar funções da etapa de coleta para rodar testes unitários 
  • Implementar validações e testes unitários na etapa de coleta da pipeline de treinamento do modelo 
  • Adicionar Log do treinamento usando Logging 
  • Remover códigos depracated da pipeline 
  • Remover senha do banco de dados do código 
  • Estudar documentação do sinapses 
  • Pesquisar métricas que se enquadram no nosso chatbot  
  • Definir e implementar métrica mãe para o chatbot 
  • Verificar perguntas sem resposta no chatbot  
  • Adicionar pergunta de feedback após uma resposta do bot  
  • Pesquisar e implementar plataforma para report de erros  
  • Implementar extração dos textos do Creta em paralelo 
  • Extrair dados do whatsapp da justiça com backup das conversas 
  • Cadastro das atividades no Jira/Gitlab 
  • Escrever resumo da sprint 
  • Criação do slide para apresentação da sprint  
  • Divulgar mídias da sprint no portal da residência e nuvem  
  •