Sprint 8 – Karak – Residencia TI

5 dezembro 2022

Sprint 8 - Karak

Para a Sprint 8, a equipe de Business Intelligence teve como missões: continuar a Implementação da classificação multirrótulo no pipeline de subsets, implementar cleanlab com o identificador de petições iniciais, implementar testes na etapa de coleta da triagem de perícias, estudar documentação do sinapses, acelerar o processamento dos textos do CRETA, adicionar mais 10 intenções ao chatbot com serviços essenciais, definir métrica para o chatbot e interpretá-las, correção de bugs do chatbot, adicionar feedback e report de erro no chatbot e coleta de dados para refinamento do chatbot.

Em relação a implementação da classificação multirrótulo no pipeline foi finalizada a construção do modelo para treino. O ambiente sobe automaticamente os novos modelos testados e todos os dados diretamente para o Gitjus. Já em relação ao cleanlab foi testado um novo algoritmo junto aos anteriores(XGBoost e LightGBM) conhecido como CatBoost, as métricas foram basicamente idênticas aos algoritmos anteriores. Nos testes da etapa de coleta foi utilizado uma nova ferramenta chamada de Great Expectations para ajudar a criar testes relacionados aos dados dentro da pipeline e assim identificar erros de maneira bem mais simples. No processamento de textos do CRETA foram criadas novas formas de processar, sendo possível dividir as aplicações em várias máquinas diferentes e também verificando para que não façam o processamento do mesmo documento já feito por outra máquina.

No projeto do Nísia Chatbot foi realizado um estudo sobre métricas para que seja possível avaliar se o modelo está realmente melhorando com adição de novas intenções, foram realizados correções de alguns problemas quando o chat não estava respondendo algumas perguntas e ficava num estado de travamento, adicionada 2 novas funcionalidades ao projeto onde o usuário ao final da interação responde se aquilo ajudou ou não a sua dúvida e também é possível enviar um formulário de erros/sugestões sobre o projeto. Também foi disponibilizado para os servidores do atendimento ao público um outro formulário, esse para coletar mais perguntas reais sobre intenções que têm poucos dados no momento, fazendo assim que o modelo fique o mais balanceado possível em relação às classes.

Um novo material foi disponibilizado para a equipe e assim poder estudar a documentação do sinapses, ferramenta que auxilia o desenvolvimento e disponibilidade em larga escala de modelos de IA, tudo isso para que futuramente os modelos possam ser colocados em produção dentro da plataforma do CNJ.

Datas

Início: 14/11/2022
Entrega: 30/11/2022

Missões

Implementar classificação multirrótulo no pipeline de subsets
Adicionar mais 10 intenções ao chatbot com serviços essenciais
Implementar cleanlab com o identificador de petições iniciais
Implementar testes na etapa de coleta da triagem de perícias
Estudar documentação do sinapses
Definir métrica para o chatbot e interpretá-las
Correção de bugs do chatbot
Adicionar feedback e report de erro no chatbot
Acelerar o processamento dos textos do CRETA
Coleta de dados para refinamento do chatbot
Relações públicas da sprint

Tarefas

Enviar para Elias um arquivo contendo apenas uma coluna com os textos integrais das petições iniciais dos juizados especiais
Exportar pipeline completa para treinamento com Elias
Retreino dos modelos usando subsets de acordo com o tempo
Avaliar os modelos na abordagem de subsets de tempo
Adicionar SERVIÇOS JUDICIAIS – VIDEOCONFERÊNCIA ao chatbot(carta de servico)
Adicionar SERVIÇOS JUDICIAIS – PERÍCIA E AUDIÊNCIAS ao chatbot
Adicionar SERVIÇOS JUDICIAIS – JULGAMENTOS ao chatbot
Rodar o Cleanlab com o Identificador de Petições Iniciais
Avaliar textos sinalizados como possíveis erros
Adaptar funções da etapa de coleta para rodar testes unitários
Implementar validações e testes unitários na etapa de coleta da pipeline de treinamento do modelo
Adicionar Log do treinamento usando Logging
Remover códigos depracated da pipeline
Remover senha do banco de dados do código
Estudar documentação do sinapses
Fazer apresentação sobre o sinapses
Pesquisar métricas que se enquadram no nosso chatbot
Definir e implementar métrica mãe para o chatbot
Verificar perguntas sem resposta no chatbot
Adicionar pergunta de feedback após uma resposta do bot
Pesquisar e implementar plataforma para report de erros
Implementar extração dos textos do Creta em paralelo
Extrair dados do whatsapp da justiça com backup das conversas
Classificar perguntas do whatsapp usando aprendizado semi-supervisionado
Cadastro das atividades no Jira/Gitlab
Escrever resumo da sprint
Criação do slide para apresentação da sprint
Divulgar mídias da sprint no portal da residência e nuvem
Enviar cópia da Triagem de Perícias para o time do TRF5

Entregas

Retreino dos modelos usando subsets de acordo com o tempo
Avaliar os modelos na abordagem de subsets de tempo
Rodar o Cleanlab com o Identificador de Petições Iniciais
Avaliar textos sinalizados como possíveis erros
Adaptar funções da etapa de coleta para rodar testes unitários
Implementar validações e testes unitários na etapa de coleta da pipeline de treinamento do modelo
Adicionar Log do treinamento usando Logging
Remover códigos depracated da pipeline
Remover senha do banco de dados do código
Estudar documentação do sinapses
Pesquisar métricas que se enquadram no nosso chatbot
Definir e implementar métrica mãe para o chatbot
Verificar perguntas sem resposta no chatbot
Adicionar pergunta de feedback após uma resposta do bot
Pesquisar e implementar plataforma para report de erros
Implementar extração dos textos do Creta em paralelo
Extrair dados do whatsapp da justiça com backup das conversas
Cadastro das atividades no Jira/Gitlab
Escrever resumo da sprint
Criação do slide para apresentação da sprint
Divulgar mídias da sprint no portal da residência e nuvem