Por que existe este tipo de recomendação, quando analisamos textos muito grandes?
Textos da web possuem muitas palavras repetidas e que podem causar um erro probabilístico quando analisamos através de GLCP. Por este motivo, fazemos a eliminação destes termos repetidos, chamados do stopwords.
As stopwords são palavras que causam a parada inesperada durante os treinamentos de algoritmos de classificação e de stemming. Por este motivo, devemos retirá-las dos textos quando fizermos estes tipos de análise.
Em textos muito grandes existem muitas palavras com pouco sentido semântico e que podem atrapalhar uma análise de contexto. Ao retirarmos palavras que não possuem conteúdo relevante, evidenciamos os sentimentos e significados dos textos.
A eliminação de stopwords deve ser realizada apenas em textos da web, por conterem elementos irrelevantes ao entendimento do discurso, como hashtags, marcações HTML, emojis e outros símbolos.
Em textos muito grandes, a eliminação das stopwords ajuda a reduzir a quantidade de palavras a serem analisadas, principalmente pela característica repetitiva dos textos de WEB. Mesmo eliminando palavras importantes como substantivos e adjetivos, ainda é possível realizar uma análise destes textos e de forma mais leve, computacionalmente falando.
Comentários
Ainda não há comentários para esta questão.
Seja o primeiro a comentar!