Sprint 8 - Karak
Para a Sprint 8, a equipe de Business Intelligence teve como missões: continuar a Implementação da classificação multirrótulo no pipeline de subsets, implementar cleanlab com o identificador de petições iniciais, implementar testes na etapa de coleta da triagem de perícias, estudar documentação do sinapses, acelerar o processamento dos textos do CRETA, adicionar mais 10 intenções ao chatbot com serviços essenciais, definir métrica para o chatbot e interpretá-las, correção de bugs do chatbot, adicionar feedback e report de erro no chatbot e coleta de dados para refinamento do chatbot.
Em relação a implementação da classificação multirrótulo no pipeline foi finalizada a construção do modelo para treino. O ambiente sobe automaticamente os novos modelos testados e todos os dados diretamente para o Gitjus. Já em relação ao cleanlab foi testado um novo algoritmo junto aos anteriores(XGBoost e LightGBM) conhecido como CatBoost, as métricas foram basicamente idênticas aos algoritmos anteriores. Nos testes da etapa de coleta foi utilizado uma nova ferramenta chamada de Great Expectations para ajudar a criar testes relacionados aos dados dentro da pipeline e assim identificar erros de maneira bem mais simples. No processamento de textos do CRETA foram criadas novas formas de processar, sendo possível dividir as aplicações em várias máquinas diferentes e também verificando para que não façam o processamento do mesmo documento já feito por outra máquina.
No projeto do Nísia Chatbot foi realizado um estudo sobre métricas para que seja possível avaliar se o modelo está realmente melhorando com adição de novas intenções, foram realizados correções de alguns problemas quando o chat não estava respondendo algumas perguntas e ficava num estado de travamento, adicionada 2 novas funcionalidades ao projeto onde o usuário ao final da interação responde se aquilo ajudou ou não a sua dúvida e também é possível enviar um formulário de erros/sugestões sobre o projeto. Também foi disponibilizado para os servidores do atendimento ao público um outro formulário, esse para coletar mais perguntas reais sobre intenções que têm poucos dados no momento, fazendo assim que o modelo fique o mais balanceado possível em relação às classes.
Um novo material foi disponibilizado para a equipe e assim poder estudar a documentação do sinapses, ferramenta que auxilia o desenvolvimento e disponibilidade em larga escala de modelos de IA, tudo isso para que futuramente os modelos possam ser colocados em produção dentro da plataforma do CNJ.
Datas
Início: 14/11/2022
Entrega: 30/11/2022
Missões
- Implementar classificação multirrótulo no pipeline de subsets
- Adicionar mais 10 intenções ao chatbot com serviços essenciais
- Implementar cleanlab com o identificador de petições iniciais
- Implementar testes na etapa de coleta da triagem de perícias
- Estudar documentação do sinapses
- Definir métrica para o chatbot e interpretá-las
- Correção de bugs do chatbot
- Adicionar feedback e report de erro no chatbot
- Acelerar o processamento dos textos do CRETA
- Coleta de dados para refinamento do chatbot
- Relações públicas da sprint
Tarefas
- Enviar para Elias um arquivo contendo apenas uma coluna com os textos integrais das petições iniciais dos juizados especiais
- Exportar pipeline completa para treinamento com Elias
- Retreino dos modelos usando subsets de acordo com o tempo
- Avaliar os modelos na abordagem de subsets de tempo
- Adicionar SERVIÇOS JUDICIAIS – VIDEOCONFERÊNCIA ao chatbot(carta de servico)
- Adicionar SERVIÇOS JUDICIAIS – PERÍCIA E AUDIÊNCIAS ao chatbot
- Adicionar SERVIÇOS JUDICIAIS – JULGAMENTOS ao chatbot
- Rodar o Cleanlab com o Identificador de Petições Iniciais
- Avaliar textos sinalizados como possíveis erros
- Adaptar funções da etapa de coleta para rodar testes unitários
- Implementar validações e testes unitários na etapa de coleta da pipeline de treinamento do modelo
- Adicionar Log do treinamento usando Logging
- Remover códigos depracated da pipeline
- Remover senha do banco de dados do código
- Estudar documentação do sinapses
- Fazer apresentação sobre o sinapses
- Pesquisar métricas que se enquadram no nosso chatbot
- Definir e implementar métrica mãe para o chatbot
- Verificar perguntas sem resposta no chatbot
- Adicionar pergunta de feedback após uma resposta do bot
- Pesquisar e implementar plataforma para report de erros
- Implementar extração dos textos do Creta em paralelo
- Extrair dados do whatsapp da justiça com backup das conversas
- Classificar perguntas do whatsapp usando aprendizado semi-supervisionado
- Cadastro das atividades no Jira/Gitlab
- Escrever resumo da sprint
- Criação do slide para apresentação da sprint
- Divulgar mídias da sprint no portal da residência e nuvem
- Enviar cópia da Triagem de Perícias para o time do TRF5
Entregas
- Retreino dos modelos usando subsets de acordo com o tempo
- Avaliar os modelos na abordagem de subsets de tempo
- Rodar o Cleanlab com o Identificador de Petições Iniciais
- Avaliar textos sinalizados como possíveis erros
- Adaptar funções da etapa de coleta para rodar testes unitários
- Implementar validações e testes unitários na etapa de coleta da pipeline de treinamento do modelo
- Adicionar Log do treinamento usando Logging
- Remover códigos depracated da pipeline
- Remover senha do banco de dados do código
- Estudar documentação do sinapses
- Pesquisar métricas que se enquadram no nosso chatbot
- Definir e implementar métrica mãe para o chatbot
- Verificar perguntas sem resposta no chatbot
- Adicionar pergunta de feedback após uma resposta do bot
- Pesquisar e implementar plataforma para report de erros
- Implementar extração dos textos do Creta em paralelo
- Extrair dados do whatsapp da justiça com backup das conversas
- Cadastro das atividades no Jira/Gitlab
- Escrever resumo da sprint
- Criação do slide para apresentação da sprint
- Divulgar mídias da sprint no portal da residência e nuvem