l3p
Fonte: ascomvirtual

Ferramenta de Análise Textual - LinguaKit

Por Luis Rosa. Em 01/04/15 17:46. Atualizada em 05/05/15 13:32.

Atualmente é difícil encontrar uma ferramenta potente nesse meio de análise, e que atenda à alguns critérios (contextualizados no ambiente deste laboratório):

  • Análise na Língua Portuguesa
  • Variação nas técnicas de análise
  • Facilidade de acesso (gratuidade)
  • Consistência de dados
  • Possibilidade de exportação de dados 
  • Usabilidade

Geralmente quando precisamos de uma análise textual usamos ferramentas geradoras de nuvens de palavras como o Wordle, Many Eyes, TagCrowd, Tagxedo e etc... ai temos um resultado mais ou menos como esse:

Tag Cloud

Talvez esse resultado seja o que você procura, só apresentar as palavras em um "cluster" e que as mais relevantes sejam, de alguma forma, diferentes umas das outras. Se for isso, já estão indicadas acima algumas ferramentas, e ainda indico a Wordle como mais simples de se usar, a Tagxedo como um pouco mais completa e desaconselho o Many Eyes por complexidade de uso.

Mas se busca por algo mais, gostaria de compartilhar com vocês uma ferramenta que vem quebrando algum galho aqui pelo L3P. 

O LinguaKit ( https://linguakit.com/full_analysis), que é uma ferramenta um pouco mais completa e complexa.

Veja algumas características:

  • Pontos Fracos: A ferramenta não é gratuita, então ela tem um limite de utilizações que dificulta a análise completa de um texto (necessita da divisão do texto se muito grande); Como ferramenta não tem inteligência nem discernimento o bastante para definir com certeza certas questões, é necessário que refinemos os resultados para melhor aproveitamento após as análises; Não permite exportação dos dados (mas possibilita a raspagem de dados on-line)
  • Pontos Fortes: O LinguaKit tem vários tipos de subferramentas que nos possibilitam analisar e tratar um texto; Os tipos de análise que temos mais afinidade (Reconhecedor de Entidades, Palavras-Chave e Multipalavras) respondem bem à nossa necessidade e possibilitam no mínimo um bom direcionamento semântico do tema que estudamos; Apresenta tanto visualizações, como colunas de dados; Tenta classificar o tipo das palavras e atribui variáveis de peso e ocorrências à elas.

Visual da Ferramenta:

A barra lateral para escolher modalidade de análise (análise linguística e análise textual):

Técnicas de Análise do LinguaKit

Interface de uso do LinguaKit (Note o número limite de consultas que, a cada consulta de qualquer tipo, diminui 1):

 Interface de Uso do LínguaKit

Obs. A primeira utilização no LinguaKit online tem limite de 5 consultas e 1000 caracteres, Quando o usuário se registra na ferramenta, o número de consultas possíveis aumenta para 100 e o limite de caracteres para 10000. Para mais "regalias" a ferramenta exige pagamento.

Os resultados das análises no LinguaKit:

Resultados do LinguaKit

Obs. A variável peso é determinada pelo nível de estruturação de uma palavra no texto, ou seja, fatores como número de ocorrências, ligações e etc. A variável frequência é, como o próprio nome diz, reflexo da quantidade de vezes a palavra aparece. E a variável etiqueta, é uma tentativa da ferramenta de classificar a palavra.

Abaixo deixo uma descrição das 3 técnicas que mais utilizamos no âmbito do laboratório:

  • Análise de Multipalavras: esta análise procura por palavras no texto que sejam compostas e representativas para o corpo textual. Os resultados mostram quais palavras foram encontradas; a etiqueta, que é uma tentativa da ferramenta de classificar as palavras; e o peso que é uma variável quantitativa que a ferramenta coloca para indicar o quanto um elemento é estruturante no texto.
  • Análise de Palavras-Chave: esta é bem parecida com a primeira, os parâmetros são praticamente os mesmos, só que em vez de fazer uma busca por palavras compostas, procura por palavras-chave simples que estruturem o texto.
  • Reconhecedor de Entidades: como o nome diz, a ferramenta procura por expressões que representem entidades, instituições e coisas desse tipo. A medida indicada, é o número de ocorrências que cada expressão tem no corpo do texto.

Observações: Os resultados das análises são emitidos na página do navegados, mas é possível selecionar as colunas das palavras, etiqueta, e peso e copiar para uma planilha para análise.

Algumas análises da ferramenta disponibilizam visualizações do tipo Nuvem de Palavras, e é necessário usar plugins para captura de tela ou o próprio atalho de print para recuperar a imagem.

Após obter uma base com todos os dados, é necessário revisar todos eles para limpeza de alguns dados que a ferramenta não conseguir classificar corretamente (atenção à coluna de etiqueta)

Obrigado!

Até a Próxima!

 

Categorias: Ferramenta Análise Mapeamento LinguaKit Textual Mapeamento do Conhecimento