Processamento de Linguagem Natural (PLN)

Olá pessoal, vamos de mais um artigo 😉 !

Como vocês devem ter percebido, muitos editais recentes estão agora diversificando o conteúdo voltado para área de dados, bem como também diversificando as segmentações dos cargos, inclusive oferecendo vagas para cientistas dados e analista de dados.

Neste artigo trago um tópico que vem sendo cobrado com mais frequência e que conhecer alguns dos seus conceitos faz parte da preparação para conseguir êxito na prova do concurso dos seus sonhos, estou falando do Processamento de Linguagem Natural (PLN).

O PLN é considerado uma subárea da Inteligência Artificial (IA), tendo como principal objetivo fazer com que os computadores sejam capazes de entender e até compor textos. Quando falo no aspecto de entender o texto, estou falando na questão do contexto e da semântica.

Essa necessidade de fazer com que a máquina tem essa capacidade de entendimento, se dá pelo fato de que grande parte da informações no mundo estão em formato textual, ou seja, nem tudo que se quer no tocante a dados e informações encontra-se em formato estruturado em bases de dados relacionais, não..não, tem crescido muito, principalmente devido ao uso de dispositivos móveis, o volume e variedade de dados semiestruturados e não estruturados, e dentre eles, cadeias de palavras, textos, dentre outros.

Um dos maiores desafios no uso do PLN, é a capacidade de interpretação de mensagens codificadas em linguagem natural e decifrá-las para a linguagem de máquina.

Para isso se faz necessário modelar a língua, ou seja, criar um modelo que possibilite a máquina entender e para isso são feitos pré-processamentos abstraindo e estruturando a língua, de tal forma que fique apenas o que seja importante para o contexto em que se queira aplicar o resultado de processamento.

Como resultado deste processamento, considerando apenas o que seja mais relevante, a quantidade menor do vocabulário extraído facilita o processamento computacional.

Mas, como disse no inicio do artigo, vamos focar em conceitos, para isso vamos conhecer 4 tarefas que são fortemente utilizadas no pré-processamento textual morfossintático, vamos lá!

Normalização: Consiste em passos como a separação de palavras ou até mesmo sentenças em unidades (tokenização). Cada palavra vira um token no texto, sendo um primeiro passo para estruturação do texto.
- Exemplo: Eu vou passar na prova.
  - O texto tokenizado ficaria [‘eu’, ‘vou’, ‘passar’, ‘na’, ‘prova’]

Remoção de Stopwords: As stopwords são palavras muito frequentes no texto, mas que não possuem grande relevância, geralmente são artigos masculinos, femininos, preposições, dentre outros, mas se faz necessária análise para garantir que a retirada destas stopwords não vá deturpar a compreensão do texto mais relevante.

Palavras que significam algum aspecto positivo ou negativo não devem ser retiradas, pois para o uso das técnicas de Análise de Sentimento são relevantes.

Stemização : Tem por objetivo a redução da palavra ao seu radical, reduzindo o vocabulário e abstração de significado.
- Exemplo: “pato”, “pata”, “patos”, “patas”, seria reduzido para “pat”.

Lematização: Ao contrário de Stemming, reduz as palavras flexionadas adequadamente, garantindo que a palavra raiz (lema) pertence ao idioma.

A lematização é mais lenta do que a stemização, pois ela considera o contexto da palavra levando em consideração a palavra anterior, melhorando a precisão.

Bom, vamos ficar por aqui e até o próximo artigo. 😉

====================================================

Prof. Luis Octavio Lima