Sprint 3 - Gin Tônica

Durante o período da Sprint 3, foram atribuídas, à equipe de Business Intelligence (BI), as seguintes missões: estudar a estrutura de desenvolvimento do PDPJ; implantar o método de classificação multirrótulo; realizar ajustes no CEOS; e dar continuidade à implementação do pipeline de versionamento.

Visto que o PDPJ é a plataforma digital do Poder Judiciário responsável por promover a comunicação entre os sistemas derivados de processo eletrônico, hospedando os novos sistemas desenvolvidos para uso geral pelos profissionais da Justiça, foi levantado como pertinente a necessidade de conhecer seu modo de funcionamento. Diante disso, foi elaborada uma documentação com respeito aos aspectos que integram o PDPJ como forma de guiar os integrantes da equipe na construção de soluções tecnológicas que serão incorporadas a esse sistema.

Quanto à classificação multirrótulo, que será executada com a finalidade de substituir a atual abordagem utilizada para o treino do segundo modelo do Classificador de Petições Iniciais, deu-se continuidade ao andamento da sprint anterior. Como parte da nova pipeline de pré-processamento de dados, efetuou-se um estudo dos estados e rótulos possíveis de uma perícia, para verificar o que será ou não mantido. 

Um importante componente da criação e manutenção de uma ferramenta de Aprendizado de Máquina/Aprendizado Profundo é validar os resultados do modelo treinado através da aplicação de métricas de avaliação. Logo, determinou-se como significativo produzir um levantamento das métricas para classificação multirrótulo. Além disso, também foi realizada uma revisão do código de treinamento dos modelos, como fundamentação para o posterior retreinamento. 

Sendo o CEOS a atual interface para interação do Classificador com o usuário, há melhorias sendo constantemente empregadas. As tarefas concluídas nesta sprint diz-se respeito à correção de problemas durante a extração de informações tabulares dos PDF’s das petições iniciais que são inseridas no sistema pelo usuário, com a implementação do Apache Tika; um estudo, junto aos servidores da Justiça, sobre os códigos CIDs das especialidades de perícia; e ajuste da máscara do campo para colocar numeração.

 

Datas

Início: 14/07/2022
Entrega: 03/08/2022

Missões

  • Estudar a estrutura de desenvolvimento do PDPJ;
  • Implantar classificação multirrótulo;
  • Ajustes no CEOS;
  • Continuidade a implementação do pipeline de versionamento.

Tarefas

  • Estudar o manual do PDPJ;
  • Estudar a resolução 332 do CNJ;
  • Elaborar resumo de referência sobre PDPJ;
  • Fazer levantamento das métricas para classificação multirrótulo;
  • Realizar estudo dos rótulos possíveis de uma perícia;
  • Revisar código de treinamento dos modelos;
  • Verificar e corrigir problemas com a extração de informações tabulares dos PDF’s;
  • Estudar como filtrar todos os códigos CIDs de diferentes especialidades;
  • Máscara do campo para colocar numeração.

Entregas

  • Documentação sobre o PDPJ;
  • Estudo e ajustes no pré-processamento dos estados e rótulos possíveis;
  • Levantamento de métricas de avaliação de classificação multirrótulo;
  • Revisão do código de treinamento dos modelos do Classificador;
  • Correção na extração de informações tabulares dos PDF’s das petições iniciais;
  • Avaliação da viabilidade do código CID com servidores da Justiça.