Facebook

Questão de Inteligencia Artificial

Por que existe este tipo de recomendação, quando analisamos textos muito grandes?

Textos da web possuem muitas palavras repetidas e que podem causar um erro probabilístico quando analisamos através de GLCP. Por este motivo, fazemos a eliminação destes termos repetidos, chamados do stopwords.

As stopwords são palavras que causam a parada inesperada durante os treinamentos de algoritmos de classificação e de stemming. Por este motivo, devemos retirá-las dos textos quando fizermos estes tipos de análise.

Em textos muito grandes existem muitas palavras com pouco sentido semântico e que podem atrapalhar uma análise de contexto. Ao retirarmos palavras que não possuem conteúdo relevante, evidenciamos os sentimentos e significados dos textos.

A eliminação de stopwords deve ser realizada apenas em textos da web, por conterem elementos irrelevantes ao entendimento do discurso, como hashtags, marcações HTML, emojis e outros símbolos.

Em textos muito grandes, a eliminação das stopwords ajuda a reduzir a quantidade de palavras a serem analisadas, principalmente pela característica repetitiva dos textos de WEB. Mesmo eliminando palavras importantes como substantivos e adjetivos, ainda é possível realizar uma análise destes textos e de forma mais leve, computacionalmente falando.

Comentários

Ainda não há comentários para esta questão.

Seja o primeiro a comentar!