Sprint 10 - Royal Salute
Na Sprint 10 a equipe de Business Intelligence (BI) da JFRN teve as seguintes missões para o projeto de triagem de perícias: configurar pipeline da triagem de perícia para rodar sem VPN; implementar metodologias de testes na pipeline e continuar extração dos textos do CRETA, sendo esta última, uma missão que vem de algumas sprints passadas devido ao grande montante de dados para extração. Para o projeto do Nísia chatbot as missões foram: treinar e avaliar classificadores do SKLEARN com TFIDF em dados já rotulados; estudar código fonte do framework RASA; estudar mais sobre framework Sofia; pesquisar quais soluções existe hoje na justiça; pesquisar outros frameworks open source e realizar um workshop com servidores que estão na frente do atendimento ao público para coleta de requisitos sobre o projeto.
Começando com a configuração da triagem finalizamos na sprint passada uma pipeline que pode ser utilizada para treinar modelos em qualquer computador, porém era necessário estar conectado a uma VPN, então foi realizada a mudança para que esses treinamentos sejam feitos sem uso da VPN usando a ferramenta do OneDrive através de IPs certificados. Quanto às implementações realizadas na pipeline, foi configurado o logging para ser possível auditar tudo sobre os processos de treinamento, utilizado a ferramenta do GreatExpectations para identificar dados de treinamento que possam ser inseridos de forma errônea e por fim o Pytest para garantir que o código esteja sem erros. A extração dos textos do CRETA está para ser finalizada nos próximos dias.
No Nísia chatbot foi utilizada a nossa base de dados para comparar os resultados obtidos pelos testes internos do RASA com os classificadores do SKLEARN, tendo obtido resultados bem semelhantes em ambos utilizando as métricas de MCC (Matthews Correlation Coefficient). Em relação ao código fonte do RASA foi verificado o funcionamento interno, entendendo desde o momento da entrada dos dados até a saída da classe com o uso do DIETClassifier. Em relação ao Sofia foi enviado e-mail para o TJBA para coletar mais informações sobre o desenvolvimento do chatbot.
Em relação às soluções que existem hoje na justiça foram encontrados modelos de chatbot semelhantes no TJRO, TSE e TRERS fora o já mencionado TJBA, tendo também realizado contato via e-mail e aguardando resposta no momento. Também foram buscados novos frameworks open sourcc para identificar se algum pode ser utilizado caso a estratégia de desenvolvimento seja modificada futuramente para melhor se alinhar com o projeto. Outra missão foi realizar um workshop com servidores que estão na frente do atendimento ao público para coleta de requisitos, tendo até o momento realizado com a Diretora da 7ª vara, e nos próximos dias será feito com a 3ª e 9ª.
Datas
Início: 10/01/2023
Entrega: 08/02/2023
Missões
- Configurar pipeline da triagem de perícia para rodar sem VPN;
- Utilizar testes na pipeline;
- Continuar extração dos textos do creta;
Treinar e avaliar classificadores do SKlearn com tfidf com dados já rotulados;
Estudar código fonte rasa;
Estudar framework Sofia;
Pesquisar quais soluções existem hoje na justiça;
Pesquisar outros frameworks open source;
Workshop;
Extrair textos do WPP da 7° vara;
Rotular manualmente 270 observações do whatsapp;
Inferir e avaliar rótulos para os dados não rotulados do whatsapp;
Classificar perguntas do whatsapp usando aprendizado semi-supervisionado.
Tarefas
Adicionar Log ao código usando Logging;
Implementar validação de dados na pipeline usando Great Expectations;
Implementar teste na pipeline usando pytests;
Definição de métricas de sucesso para o projeto;
Definição de kpis;
Definir ferramenta que será utilizada;
Fazer Termo de Abertura de Projeto do Nísia;
Decidir sobre usar URA ou IA.
Entregas
Configurar pipeline da triagem de perícia para rodar sem VPN;
Utilizar testes na pipeline;
Continuar extração dos textos do creta;
Treinar e avaliar classificadores do SKlearn com tfidf com dados já rotulados;
Estudar código fonte rasa;
Estudar framework Sofia;
Pesquisar outros frameworks open source;
Workshop;
Extrair textos do WPP da 7° vara.