Sprint 6 – Dose de Cachaça

18 outubro 2022

Sprint 6 - Dose de cachaça

Na Sprint 6, a equipe de Business Intelligence(BI) da JFRN teve como missões: Refazer análise de qualidade do modelo antigo com subconjunto de petições identificadas por classificador auxiliar, realizar ajustes na extração de dados do CRETA, retreinamento da triagem automática de perícia usando abordagem multirrótulo, testes no identificador de petições iniciais, refazer análise exploratória dos rótulos de especialidades em cada subseção, dar continuidade ao Projeto Chatbot e continuar com testes de uso do CEOS com os servidores.

O classificador auxiliar ou identificador de petições iniciais foi aplicado nos dados utilizados pra treinar a primeira versão dos classificadores da triagem de perícias, com o intuito de garantir uma maior confiança sobre os textos e, consequentemente, aumentar a eficácia dos modelos. Logo, depois disso os modelos foram retreinados com os dados filtrados e passaram pela mesma análise de desempenho que a versão anterior.

Em relação aos ajustes na extração dos dados do CRETA, está sendo feito o processamento dos textos dos documentos, com prioridade nos documentos necessários para o treinamento dos modelos. Ao final da Sprint cerca de 1 milhão de documentos já foram processados.

Para o retreinamento da triagem automática de perícias foram feitos testes locais do multirrótulo, realizado a implementação da pipeline e ajustado o DVC para o treinamento com intervalo de datas. No identificador de petições iniciais foram aplicadas 50 amostras do conjunto de dados do Jonathan e validado de maneira manual. O identificador também foi utilizado em documentos com erros de extração, utilizado para identificar petições em toda a base e adaptado a etapa de coleta da pipeline para pegar a identificação de petições.

O estudo de análise dos rótulos das perícias foi continuado. Foi realizada uma nova extração da base do CRETA, extraindo-se informações dos anos de 2016 até 2022. Identificou-se, com o estudo, que a escolha de Médico do Trabalho ou Clínico Geral não tem relação com uma doença, é uma ação feita pelos servidores. Quanto ao andamento do projeto do Nisia Chatbot, foram adicionadas mais intenções tendo como base as perguntas e respostas do Fale Conosco, adicionados alguns dos serviços disponíveis da carta de serviço da JFRN e realizado treinamento do modelo com os novos dados.

Datas

Início: 22/09/2022
Entrega: 13/10/2022

Missões

Refazer análise do modelo antigo com subconjunto de petições identificadas por classificador auxiliar
Ajustes na extração de dados do CRETA
Retreinamento da triagem automática de perícia usando abordagem – Refazer análise do modelo antigo com subconjunto de petições identificadas por classificador auxiliar
Ajustes na extração de dados do CRETA
Retreinamento da triagem automática de perícia usando abordagem multirrótulo
Testes no identificador de petições iniciais
Refazer análise exploratória dos rótulos de especialidades em cada subseção
Dar continuidade ao Projeto Chatbot

Tarefas

Excluir, do dataset do Jonathan, os documentos que o Identificador de Petições Iniciais rotular como diferente de uma petição inicial

Comparar os modelos do Identificador de Petições Iniciais com base nos documentos com rótulos divergentes

Retreinar os modelos com os dados filtrados

Refazer a análise de desempenho dos modelos com os dados por completo e em conjuntos mensais

Adaptar pipeline de Coleta para coletar textos já processados

Documentar modelo multirrótulo

Adaptar código para abordagem de subsets de tempo

Retreino dos modelos usando subsets de acordo com o tempo

Avaliar os modelos na abordagem de subsets de tempo

Aplicar o Identificador de Petições Iniciais em 50 amostras do conjunto do Jonathan e fazer uma validação manual

Aplicar o Identificador de Petições em documentos contendo erros de extração
Identificar petições em toda a base de documentos

Adaptar etapa de coleta da pipeline para pegar a identificação de petições

Realizar uma nova extração das perícias

Refazer as análises dos rótulos

Inserção de novas perguntas da carta de serviço ao chatbot

Inserção de novas respostas da carta de serviço ao chatbot

Treinamento do modelo de chatbot com as novas perguntas e respostas

Estudar viabilidade da remoção do ngrok

Estudar viabilidade de integração do chatbot com API do fale conosco

Estudar viabilidade de integração do chatbot com API da carta de serviço

Finalizar reuniões de treinamentos de feedbacks

Entregas

Excluir, do dataset do Jonathan, os documentos que o Identificador de Petições Iniciais rotular como diferente de uma petição inicial

Comparar os modelos do Identificador de Petições Iniciais com base nos documentos com rótulos divergentes

Retreinar os modelos com os dados filtrados

Refazer a análise de desempenho dos modelos com os dados por completo e em conjuntos mensais

Adaptar pipeline de Coleta para coletar textos já processados

Adaptar código para abordagem de subsets de tempo

Aplicar o Identificador de Petições Iniciais em 50 amostras do conjunto do Jonathan e fazer uma validação manual

Aplicar o Identificador de Petições em documentos contendo erros de extração
Identificar petições em toda a base de documentos

Adaptar etapa de coleta da pipeline para pegar a identificação de petições

Realizar uma nova extração das perícias

Refazer as análises dos rótulos

Inserção de novas perguntas da carta de serviço ao chatbot

Inserção de novas respostas da carta de serviço ao chatbot

Treinamento do modelo de chatbot com as novas perguntas e respostas

Estudar viabilidade da remoção do ngrok

Estudar viabilidade de integração do chatbot com API do fale conosco

Estudar viabilidade de integração do chatbot com API da carta de serviço