Classificador de Poemas do Fernando Pessoa

Projeto desenvolvido pelo Turing USP para classificar poemas do Fernando Pessoa de acordo com o heterônimo que os escreveu. Nesse classificador, foram considerados os quatro principais heterônimos com mais textos disponíveis: Bernardo Soares, Alberto Caeiro, Ricardo Reis e Álvaro de Campos.

PARCEIROS:

Turing.usp
Classificador de Poemas do Fernando Pessoa

Categorias:

Aprendizado de máquina

Literatura

Anos:

2020 - 2020

Áreas:

NLP

DS

SOBRE O PROJETO:

Problema

Problema

PROBLEMA

Embora todos os textos tenham sido escritos por Fernando Pessoa, cada heterônimo possui um estilo, vocabulário, filosofia e métrica gramatical distintos. O problema consiste em verificar se classificadores conseguem "aprender" essas nuances estilísticas a ponto de distinguir as personalidades literárias.

Confecção

Confecção

CONFECÇÃO

Na primeira etapa, o framework Scrapy foi utilizado em conjunto com a biblioteca html2text para extrair milhares de textos de Fernando Pessoa, disponíveis no site Arquivo Pessoa. Em seguida, as bibliotecas pandas, langdetect, scpaCy e scikit-learn foram usadas para o carregamento, pré-processamento e extração de features, permitindo que os dados se tornem utilizáveis por modelos de classificação. Por fim, Support Vector Machine e Naive Bayes foram os modelos escolhidos para a classificação.

Resultados

Resultados

RESULTADOS

O modelo de NaiveBayes obteve uma acurácia de 60.90%, enquanto que a SVM obteve 82.71%. A SVM se mostrou um modelo muito mais robusto por conseguir lidar melhor com as diferenças entre os heterônimos

Links

Links

LINKS DO PROJETO

https://github.com/turing-usp/fernando-pessoa/https://super.abril.com.br/tecnologia/classificador-usa-ia-para-diferenciar-heteronimos-de-fernando-pessoa/