Sprint 5 - Chopp

Na Sprint 5, a equipe de Business Intelligence (BI) teve como missões: Usar o ambiente de homologação do PJe/CNJ e estudar implantação da triagem de perícias, fazer ajustes na extração de dados do CRETA, alterações no Identificador automático de petições iniciais, pipeline de retreinamento do modelo binário do Classificador da versão 1 com os novos dados, continuar com a implementação do Classificador multirrótulo, testagem do Classificador com a versão atualizada da base de dados, finalizar pipeline de versionamento, estudar Projeto Chatbot, testes de uso do CEOS com os servidores, análise exploratória dos rótulos de especialidades em cada subseção.  

Continuando da Sprint anterior, foi aprofundado um pouco mais o estudo sobre o PDPJ, reuniões foram realizadas com o TRF5 e TJMT para conhecer os requisitos e condições de uso do ambiente de desenvolvimento do PJe a ser disponibilizado no TRF, e discutir o modelo de negócio pretendido. Devido ser um processo com muitas etapas, a homologação ainda está para ser concluída mais adiante, o TRF ficou de estudar a melhor maneira de fazer a integração levando em consideração a arquitetura já existente e o fluxo de operações. Quanto aos ajustes na extração dos dados do CRETA foi feita a criação do banco para a inserção dos dados já processados, devido à grande quantidade de informações os dados ainda não foram extraídos completamente.  

Foi necessário programar um identificador de petições iniciais com o intuito de verificar nos processos judiciais se o primeiro documento é uma petição inicial, sendo necessário primeiramente extrair e rotular manualmente alguns arquivos da base antiga e da nova identificando se são petições iniciais. Após a validação, os dados foram utilizados para treinamento do modelo binário e posterior avaliação com uma assertividade de 99% em vários dos algoritmos utilizados. Quanto à missão relacionada à pipeline de retreinamento do modelo binário com os novos dados ainda está pausada devido à extração dos dados do CRETA estar em andamento.  

No classificador multirrótulo algumas mudanças foram realizadas e com isso passados os códigos de coleta, tratamento, treinamento e avaliação do modelo multirrótulo para o padrão de versionamento do DVC que definimos para os projetos de Machine Learning. Quanto à testagem do classificador foram realizadas avaliações dos modelos implementados no projeto de triagem automática de perícias, esta avaliação foi feita com os dados de julho de 2019 a fevereiro de 2022, esses dados ainda não tinham sido incorporados no treinamento desses modelos. Essa avaliação deu-se por meio do cálculo de métricas com o conjunto completo e, também, com os dados divididos em conjuntos mensais, tendo como objetivo observar o desempenho dos modelos ao longo do tempo.  

O estudo acerca do Nisia ChatBot foi iniciado tendo como base o trabalho realizado pelo ex-residente José Wadson Oliveira Silva. Primeiramente foi feita uma reunião com o mesmo para busca de mais informações sobre o projeto e realizado documentação inicial que ainda não tinha sido feita, assim como iniciado planejamento dos proximos passos. As reuniões com os servidores para coleta dos feedbacks continuaram tendo uma taxa de assertividade próxima dos 80%. Uma particularidade ocorreu em algumas varas nos processos judiciais, aonde a especialidade de Médico do Trabalho e Clinico Geral tem grande recorrência acarretando novos encontros para tentar esclarecer os motivos pelos quais tais especialidades são tão frequentes, até o momento foi constatado ser uma ação do servidor que faz a triagem, levando em consideração a seguinte prioridade na escolha respectivamente: Especialista, Médico do trabalho e por último Clínico Geral, motivados pela disponibilidade de especialistas e demanda no momento da seleção. 

Datas

Início: 25/08/2022
Entrega: 21/09/2022

Missões

  • Usar ambiente homologação PJe/CNJ e estudar implantação da triagem de perícias; 
  • Análise exploratória dos rótulos de especialidades em cada subseção; 
  • Testes de uso do CEOS com os servidores; 
  • Estudar Projeto Chatbot;  
  • Finalizar pipeline de versionamento;  
  • Testagem do Classificador com a versão atualizada da base de dados;  
  • Continuar implementação do Classificador multirrótulo;  
  • Identificador automático de petições iniciais;  
  • Ajustes na extração de dados do CRETA. 

Tarefas

  • Criar banco com os textos do CRETA processados;

  • Adaptar pipeline de Coleta para coletar textos já processados;

  • Extrair dados de petições iniciais do Jonathan;

  • Rotular manualmente uma amostra aleatória dos documentos, identificando se são petições iniciais; 

  • Preparar dados para treino;

  • Criar código de treinamento do modelo binário;

  • Treinar e avaliar o modelo; 

  • Classificar o novo conjunto de dados com o modelo; 

  • Rodar a pipeline de treinamento do modelo binário com os novos dados;

  • Avaliar o novo modelo e comparar métricas com o antigo;

  • Atualizar código de coleta para o código de Patrícia;

  • Retreinar o modelo multirrótulo com os novos dados;

  • Documentar modelo multirrótulo; 

  • Realizar análise do desempenho dos modelos com os novos dados;

  • Realizar análise do desempenho mensal dos modelos com os novos dados;

  • Localizar e estudar material do projeto no GIT, drive e wiki;

  • Planejamento/Documentação Inicial do projeto;

  • Finalizar reuniões de treinamentos de feedbacks;  

  • Realizar uma análise exploratória dos rótulos nas subseções e tempo;

  • Consultar os servidores quanto as  hipóteses. 

Entregas

  • Criação do banco com os textos do CRETA processados; 

  • Extração dos dados de petições iniciais do Jonathan;

  • Rotulação manual de amostra aleatória dos documentos, identificando se são petições iniciais; 

  • Preparação de dados para treino;  

  • Criação do código de treinamento do modelo binário;

  • Treinamento e avaliação do modelo; 

  • Rodar a pipeline de treinamento do modelo binário com os novos dados;

  • Avaliação do novo modelo e comparação das métricas com o antigo; 

  • Atualização do código de coleta para o código de Patrícia; 

  • Retreinamento do modelo multirrótulo com os novos dados;

  • Realização de análise do desempenho dos modelos com os novos dados;

  • Realizar análise do desempenho mensal dos modelos com os novos dados;

  • Localização e estudo do material do projeto no GIT, drive e wiki do chatbot;

  • Planejamento/Documentação Inicial do projeto  do chatbot;

  • Finalização das reuniões de treinamentos de feedbacks com os servidores;  

  • Realização de análise exploratória dos rótulos nas subseções e tempo;

  • Consulta com os servidores quanto as  hipóteses da análise exploratória.