Sprint 11 - Nossa

Na Sprint 11, a equipe de Business Intelligence (BI) da JFRN, para o projeto da triagem automática de perícias, teve como missões os seguintes tópicos: criação de pipeline para treinamento de modelos; implementar testes na pipeline; extração dos documentos do CRETA; implementar e treinar classificação multirrótulo; e implantação do Sinapses/PJE. Quanto ao projeto do Nísia Chatbot, as missões foram as seguintes: extrair dados do Whatsapp das varas; limpar os dados extraídos do Whatsapp; realizar aprendizado não supervisionado; análise SWOT sobre frameworks; definir tecnologia para o MVP; documentar fluxo do MVP; implementação do MVP do Chatbot.

Dando continuidade ao trabalho de desenvolver uma pipeline para treinamento dos modelos da triagem de perícias em qualquer computador, nesta sprint a equipe focou em realizar alterações no código fonte para adequar o treinamento ao novo escopo da pipeline. Além disso, para acompanhar o código, elaborou-se uma documentação que detalha o passo-a-passo de como esse treinamento deve ser realizado com e sem VPN. Considerando as questões de segurança da JFRN, foi mantido constante contato com a equipe de INFRA para garantir que o servidor, que será usado como ponte para acesso externo do material de treinamento e subsequente storage dos modelos treinados, esteja robusto e atendendo aos requisitos impostos para segurança da instituição.

Em relação à implementação de testes na pipeline de treinamento, foi finalizada a criação de mecanismos para verificar o estado dos dados através da ferramenta Great Expectations. Diante disso, efetuou-se a integração desse esquema com os testes do Pytest e Logging. Esse empenho oferece uma melhora na detecção de possíveis futuros erros nos dados e código do projeto. Foi finalizada, também, a extração de textos das petições iniciais para retreino dos modelos de linguagem aplicados na da triagem de perícias. 

Nesta sprint, a equipe fez uma reunião com o TRF5 com o propósito de alinhar as expectativas de como será feito o uso dos classificadores da triagem de perícias no fluxo de trabalho dos servidores com o PJE. Para iniciar esse trabalho, foi enviada a documentação da API do CEOS para a equipe do TRF5.

Passando para o projeto Nísia Chatbot, concluiu-se a extração e tratamento dos dados de Whatsapp que correspondem ao atendimento do público, sendo feito, neste período, com a central de atendimento e as seguintes varas: 3ª, 6ª, 7ª e 13ª. Também foi feito um agrupamento dos dados para análise dos temas relativos às principais consultas do público.

A fim de definir as demandas do Chatbot e qual tecnologia se adequaria melhor a esse escopo, foi elaborada uma matriz SWOT para análise de ferramentas e funcionalidades. Com base nisso, definiu-se que a ferramenta do MVP continuará sendo o RASA. Como acompanhamento, foi documentado o fluxo desse MVP e o mesmo está em desenvolvimento no presente momento.

 

 

 

 

 

Datas

Início: 09/02/2023
Entrega: 08/03/2023

Missões

  • Criação de pipeline para treinamento de modelos;
  • Implementar testes na pipeline; 
  • Extração dos documentos do CRETA;
  • Implementar e treinar classificação multirrótulo;
  • Implantação do Sinapses/PJE;
  • Extrair dados do Whatsapp das varas;
  • Limpar os dados extraídos do Whatsapp;
  • Realizar aprendizado não supervisionado; 
  • Análise SWOT sobre frameworks; 
  • Definir tecnologia para o MVP; 
  • Documentar fluxo do MVP; 
  • Implementação do MVP do Chatbot.

Tarefas

  • Ajustar bash de treinamento para ficar genérico;

  • Modificar código de coleta dos dados para cobrir o caso da falta de VPN;

  • Criar container específico para coleta dos dados;

  • Implementação do Great Expectations na pipeline;

  • Modificar a forma de salvar os logs no DVC;

  • Extração dos dados do CRETA;

  • Continuar extração e tratamento de dados do Whatsapp de atendimento;

  • Fazer clusterização das conversas para análise de assuntos;

  • Avaliar frameworks para chatbot;

  • Documentar fluxo do MVP do Nísia Chatbot;

  • Definir tecnologia para o MVP.

Entregas

  • Código ajustado da pipeline para treinamento dos modelos com e sem VPN;

  • Documentação da pipeline de treinamento;

  • Container para coleta de dados;
  • Finalização de testes com Great Expectations;
  • Integração entre Logging, Pytest e Great Expectations;
  • Finalização da extração de textos de petições iniciais do CRETA;

  • Alinhamento com equipe do TRF5 sobre PJE;

  •  Extração de dados do Whatsapp das seguintes varas: 3ª, 6ª, 7ª e 13ª;

  • Tratamento dos dados de Whatsapp;

  • Análise dos assuntos pós-agrupamento dos dados;

  • Matriz SWOT para análise de ferramentas e funcionalidades para o MVP;

  • Definição do RASA como tecnologia do MVP;

  • Documentação do fluxo do MVP.