Sprint 3 - Gin Tônica
Durante o período da Sprint 3, foram atribuídas, à equipe de Business Intelligence (BI), as seguintes missões: estudar a estrutura de desenvolvimento do PDPJ; implantar o método de classificação multirrótulo; realizar ajustes no CEOS; e dar continuidade à implementação do pipeline de versionamento.
Visto que o PDPJ é a plataforma digital do Poder Judiciário responsável por promover a comunicação entre os sistemas derivados de processo eletrônico, hospedando os novos sistemas desenvolvidos para uso geral pelos profissionais da Justiça, foi levantado como pertinente a necessidade de conhecer seu modo de funcionamento. Diante disso, foi elaborada uma documentação com respeito aos aspectos que integram o PDPJ como forma de guiar os integrantes da equipe na construção de soluções tecnológicas que serão incorporadas a esse sistema.
Quanto à classificação multirrótulo, que será executada com a finalidade de substituir a atual abordagem utilizada para o treino do segundo modelo do Classificador de Petições Iniciais, deu-se continuidade ao andamento da sprint anterior. Como parte da nova pipeline de pré-processamento de dados, efetuou-se um estudo dos estados e rótulos possíveis de uma perícia, para verificar o que será ou não mantido.
Um importante componente da criação e manutenção de uma ferramenta de Aprendizado de Máquina/Aprendizado Profundo é validar os resultados do modelo treinado através da aplicação de métricas de avaliação. Logo, determinou-se como significativo produzir um levantamento das métricas para classificação multirrótulo. Além disso, também foi realizada uma revisão do código de treinamento dos modelos, como fundamentação para o posterior retreinamento.
Sendo o CEOS a atual interface para interação do Classificador com o usuário, há melhorias sendo constantemente empregadas. As tarefas concluídas nesta sprint diz-se respeito à correção de problemas durante a extração de informações tabulares dos PDF’s das petições iniciais que são inseridas no sistema pelo usuário, com a implementação do Apache Tika; um estudo, junto aos servidores da Justiça, sobre os códigos CIDs das especialidades de perícia; e ajuste da máscara do campo para colocar numeração.
Datas
Início: 14/07/2022
Entrega: 03/08/2022
Missões
- Estudar a estrutura de desenvolvimento do PDPJ;
- Implantar classificação multirrótulo;
- Ajustes no CEOS;
- Continuidade a implementação do pipeline de versionamento.
Tarefas
- Estudar o manual do PDPJ;
- Estudar a resolução 332 do CNJ;
- Elaborar resumo de referência sobre PDPJ;
- Fazer levantamento das métricas para classificação multirrótulo;
- Realizar estudo dos rótulos possíveis de uma perícia;
- Revisar código de treinamento dos modelos;
- Verificar e corrigir problemas com a extração de informações tabulares dos PDF’s;
- Estudar como filtrar todos os códigos CIDs de diferentes especialidades;
- Máscara do campo para colocar numeração.
Entregas
- Documentação sobre o PDPJ;
- Estudo e ajustes no pré-processamento dos estados e rótulos possíveis;
- Levantamento de métricas de avaliação de classificação multirrótulo;
- Revisão do código de treinamento dos modelos do Classificador;
- Correção na extração de informações tabulares dos PDF’s das petições iniciais;
- Avaliação da viabilidade do código CID com servidores da Justiça.