Sprint 11 - Nossa
Na Sprint 11, a equipe de Business Intelligence (BI) da JFRN, para o projeto da triagem automática de perícias, teve como missões os seguintes tópicos: criação de pipeline para treinamento de modelos; implementar testes na pipeline; extração dos documentos do CRETA; implementar e treinar classificação multirrótulo; e implantação do Sinapses/PJE. Quanto ao projeto do Nísia Chatbot, as missões foram as seguintes: extrair dados do Whatsapp das varas; limpar os dados extraídos do Whatsapp; realizar aprendizado não supervisionado; análise SWOT sobre frameworks; definir tecnologia para o MVP; documentar fluxo do MVP; implementação do MVP do Chatbot.
Dando continuidade ao trabalho de desenvolver uma pipeline para treinamento dos modelos da triagem de perícias em qualquer computador, nesta sprint a equipe focou em realizar alterações no código fonte para adequar o treinamento ao novo escopo da pipeline. Além disso, para acompanhar o código, elaborou-se uma documentação que detalha o passo-a-passo de como esse treinamento deve ser realizado com e sem VPN. Considerando as questões de segurança da JFRN, foi mantido constante contato com a equipe de INFRA para garantir que o servidor, que será usado como ponte para acesso externo do material de treinamento e subsequente storage dos modelos treinados, esteja robusto e atendendo aos requisitos impostos para segurança da instituição.
Em relação à implementação de testes na pipeline de treinamento, foi finalizada a criação de mecanismos para verificar o estado dos dados através da ferramenta Great Expectations. Diante disso, efetuou-se a integração desse esquema com os testes do Pytest e Logging. Esse empenho oferece uma melhora na detecção de possíveis futuros erros nos dados e código do projeto. Foi finalizada, também, a extração de textos das petições iniciais para retreino dos modelos de linguagem aplicados na da triagem de perícias.
Nesta sprint, a equipe fez uma reunião com o TRF5 com o propósito de alinhar as expectativas de como será feito o uso dos classificadores da triagem de perícias no fluxo de trabalho dos servidores com o PJE. Para iniciar esse trabalho, foi enviada a documentação da API do CEOS para a equipe do TRF5.
Passando para o projeto Nísia Chatbot, concluiu-se a extração e tratamento dos dados de Whatsapp que correspondem ao atendimento do público, sendo feito, neste período, com a central de atendimento e as seguintes varas: 3ª, 6ª, 7ª e 13ª. Também foi feito um agrupamento dos dados para análise dos temas relativos às principais consultas do público.
A fim de definir as demandas do Chatbot e qual tecnologia se adequaria melhor a esse escopo, foi elaborada uma matriz SWOT para análise de ferramentas e funcionalidades. Com base nisso, definiu-se que a ferramenta do MVP continuará sendo o RASA. Como acompanhamento, foi documentado o fluxo desse MVP e o mesmo está em desenvolvimento no presente momento.
Datas
Início: 09/02/2023
Entrega: 08/03/2023
Missões
- Criação de pipeline para treinamento de modelos;
- Implementar testes na pipeline;
- Extração dos documentos do CRETA;
- Implementar e treinar classificação multirrótulo;
- Implantação do Sinapses/PJE;
- Extrair dados do Whatsapp das varas;
- Limpar os dados extraídos do Whatsapp;
- Realizar aprendizado não supervisionado;
- Análise SWOT sobre frameworks;
- Definir tecnologia para o MVP;
- Documentar fluxo do MVP;
- Implementação do MVP do Chatbot.
Tarefas
Ajustar bash de treinamento para ficar genérico;
Modificar código de coleta dos dados para cobrir o caso da falta de VPN;
Criar container específico para coleta dos dados;
Implementação do Great Expectations na pipeline;
Modificar a forma de salvar os logs no DVC;
Extração dos dados do CRETA;
Continuar extração e tratamento de dados do Whatsapp de atendimento;
Fazer clusterização das conversas para análise de assuntos;
Avaliar frameworks para chatbot;
Documentar fluxo do MVP do Nísia Chatbot;
Definir tecnologia para o MVP.
Entregas
Código ajustado da pipeline para treinamento dos modelos com e sem VPN;
Documentação da pipeline de treinamento;
- Container para coleta de dados;
- Finalização de testes com Great Expectations;
- Integração entre Logging, Pytest e Great Expectations;
Finalização da extração de textos de petições iniciais do CRETA;
Alinhamento com equipe do TRF5 sobre PJE;
Extração de dados do Whatsapp das seguintes varas: 3ª, 6ª, 7ª e 13ª;
Tratamento dos dados de Whatsapp;
Análise dos assuntos pós-agrupamento dos dados;
Matriz SWOT para análise de ferramentas e funcionalidades para o MVP;
Definição do RASA como tecnologia do MVP;
Documentação do fluxo do MVP.