Classificador de Poemas do Fernando Pessoa
Projeto desenvolvido pelo Turing USP para classificar poemas do Fernando Pessoa de acordo com o heterônimo que os escreveu. Nesse classificador, foram considerados os quatro principais heterônimos com mais textos disponíveis: Bernardo Soares, Alberto Caeiro, Ricardo Reis e Álvaro de Campos.
PARCEIROS:

Categorias:
Aprendizado de máquina
Literatura
Anos:
2020 - 2020
Áreas:
NLP
DS
SOBRE O PROJETO:
Problema
PROBLEMA
Embora todos os textos tenham sido escritos por Fernando Pessoa, cada heterônimo possui um estilo, vocabulário, filosofia e métrica gramatical distintos. O problema consiste em verificar se classificadores conseguem "aprender" essas nuances estilísticas a ponto de distinguir as personalidades literárias.
Confecção
CONFECÇÃO
Na primeira etapa, o framework Scrapy foi utilizado em conjunto com a biblioteca html2text para extrair milhares de textos de Fernando Pessoa, disponíveis no site Arquivo Pessoa. Em seguida, as bibliotecas pandas, langdetect, scpaCy e scikit-learn foram usadas para o carregamento, pré-processamento e extração de features, permitindo que os dados se tornem utilizáveis por modelos de classificação. Por fim, Support Vector Machine e Naive Bayes foram os modelos escolhidos para a classificação.
Resultados
RESULTADOS
O modelo de NaiveBayes obteve uma acurácia de 60.90%, enquanto que a SVM obteve 82.71%. A SVM se mostrou um modelo muito mais robusto por conseguir lidar melhor com as diferenças entre os heterônimos