Sprint 4 - Champagne
Para a Sprint 4, a equipe de Business Intelligence (BI) teve como missões: estudar o método de integração do modelo com o PDPJ; implementar o classificador multirrótulo ao modelo; ajustes para extração dos dados do CRETA; implantação do pipeline de versionamento; testar o classificador com os dados mais recentes da base de dados; e testagem do CEOS com novos servidores.
Dando continuidade à sprint anterior, a pesquisa acerca do PDPJ foi aprofundada por meio da incorporação de outras fontes de informações técnicas da plataforma e uma reunião com Willen Leiros, supervisor da Seção de Sistemas da JFRN. Observou-se que a missão de integração com o PDPJ precisa inicialmente de uma solicitação ao CNJ e posterior homologação e acordo de cooperação técnica. Sendo assim, um pedido já foi encaminhado e está sendo aguardado resposta para iniciar todos os tramites.
Outra missão que iniciou na sprint anterior e perdurou até a atual é a implementação do classificador multirrótulo com a finalidade de substituir o segundo modelo da versão atual do Classificador de Petições Iniciais, o qual é multiclasse. Foi realizado um estudo dedicado a Aprendizado Profundo, Processamento de Linguagem Natural e fast.ai, biblioteca voltada para construção de redes neurais, com o intuito de guiar o desenvolvimento do modelo multirrótulo. Após finalizada essa etapa de imersão, produziu-se o código e o modelo foi treinado.
Para a criação dessa nova versão do modelo, estabeleceu-se que seria necessário atualizar o conjunto de dados de processos do CRETA usados até então. Contudo, foi identificado que as querys de extração dos dados precisavam ser revisadas e refatoradas para posteriormente realizar a extração de dados de julho de 2019 à fevereiro de 2022. Durante essa extração, tomou-se como premissa o hábito observado de que, durante a tramitação de uma ação judicial, o primeiro documento inserido corresponde à petição inicial. Com o intuito de validar essa ideia, foram elaborados testes em uma amostra de dados selecionados aleatoriamente. Diante da proporção insatisfatória de processos que apresentaram o primeiro documento como petição inicial, decidiu-se que a premissa deve ser alterada.
Foi iniciada, também, a testagem do classificador com esses novos dados, por meio de avaliação de desempenho com base nas métricas aplicadas durante o treinamento dos modelos. Atualmente tem-se como finalizada a avaliação do modelo binário e está em desenvolvimento a análise do modelo multiclasse e a distribuição mensal para ambos.
Quanto ao processo de versionamento do Classificador de Petições Iniciais, o processo de adequação do projeto às diretrizes do DVC foi finalizado através da unificação da coleta e tratamento dos dados em arquivo único garantindo auditabilidade dos modelos. Além disso, também foi adicionado o código de treinamento dos modelos à pipeline.
Com relação ao CEOS, foi efetuado o treinamento de novos servidores que trabalham com triagem de pericias. Para essa nova etapa de testes com a ferramenta de classificação de perícias, um prazo foi definido para verificação da assertividade e algum possível erro relacionado. Terminado esse período, é feito um novo encontro com os mesmos para coletar os feedbacks, tendo como objetivo investigar a percepção deles sobre o funcionamento do sistema como um instrumento na sua jornada de trabalho, além de conseguir identificar novos recursos e posterior melhorias.
Datas
Início: 04/08/2022
Entrega: 24/08/2022
Missões
- Estudo da PDPJ ;
- Implementar o classificador multirrótulo no modelo;
- Ajustes necessários na extração de dados do CRETA;
- Implantação do pipeline de versionamento;
- Testagem do Classificador com a versão atualizada da base de dados;
- Testes de uso do CEOS com os servidores.
Tarefas
- Estudar como integrar a API do modelo de classificação com o PJe;
- Montar apresentação acerca do PDPJ para toda a equipe;
- Propor mudanças no código para classificação multirrótulo;
- Treinamento do modelo multirrótulo;
- Revisar e refatorar as querys de extração dos dados;
- Fazer testes de validação da petição inicial;
- Fazer uma verificação manual dos processos que não tem a petição inicial como o primeiro documento;
- Unificar a coleta e tratamento dos dados em um único arquivo;
- Configurar DVC para armazenar dados no servidor;
- Adicionar código de treinamento dos modelos à pipeline;
- Extrair e tratar os dados da versão atualizada do banco;
- Realizar análise do desempenho dos modelos com os novos dados;
- Realizar análise do desempenho mensal dos modelos com os novos dados;
- Fazer uma pesquisa com os servidores acerca do CEOS.
Entregas
- Apresentação sobre o PDPJ;
- Modelo multirrótulo treinado;
- Nova query de extração dos dados;
- Testes de validação da petição inicial e verificação do primeiro documento;
- Implantação da pipeline de versionamento;
- Testagem do modelo binário do Classificador com a versão atualizada da base de dados;
- Treinamento de novos servidores no uso do CEOS;
- Coleta do feedback dos servidores.