
Ferramenta de Análise Textual - LinguaKit
Atualmente é difícil encontrar uma ferramenta potente nesse meio de análise, e que atenda à alguns critérios (contextualizados no ambiente deste laboratório):
- Análise na Língua Portuguesa
- Variação nas técnicas de análise
- Facilidade de acesso (gratuidade)
- Consistência de dados
- Possibilidade de exportação de dados
- Usabilidade
Geralmente quando precisamos de uma análise textual usamos ferramentas geradoras de nuvens de palavras como o Wordle, Many Eyes, TagCrowd, Tagxedo e etc... ai temos um resultado mais ou menos como esse:
Talvez esse resultado seja o que você procura, só apresentar as palavras em um "cluster" e que as mais relevantes sejam, de alguma forma, diferentes umas das outras. Se for isso, já estão indicadas acima algumas ferramentas, e ainda indico a Wordle como mais simples de se usar, a Tagxedo como um pouco mais completa e desaconselho o Many Eyes por complexidade de uso.
Mas se busca por algo mais, gostaria de compartilhar com vocês uma ferramenta que vem quebrando algum galho aqui pelo L3P.
O LinguaKit ( https://linguakit.com/full_analysis), que é uma ferramenta um pouco mais completa e complexa.
Veja algumas características:
- Pontos Fracos: A ferramenta não é gratuita, então ela tem um limite de utilizações que dificulta a análise completa de um texto (necessita da divisão do texto se muito grande); Como ferramenta não tem inteligência nem discernimento o bastante para definir com certeza certas questões, é necessário que refinemos os resultados para melhor aproveitamento após as análises; Não permite exportação dos dados (mas possibilita a raspagem de dados on-line)
- Pontos Fortes: O LinguaKit tem vários tipos de subferramentas que nos possibilitam analisar e tratar um texto; Os tipos de análise que temos mais afinidade (Reconhecedor de Entidades, Palavras-Chave e Multipalavras) respondem bem à nossa necessidade e possibilitam no mínimo um bom direcionamento semântico do tema que estudamos; Apresenta tanto visualizações, como colunas de dados; Tenta classificar o tipo das palavras e atribui variáveis de peso e ocorrências à elas.
Visual da Ferramenta:
A barra lateral para escolher modalidade de análise (análise linguística e análise textual):
Interface de uso do LinguaKit (Note o número limite de consultas que, a cada consulta de qualquer tipo, diminui 1):
Obs. A primeira utilização no LinguaKit online tem limite de 5 consultas e 1000 caracteres, Quando o usuário se registra na ferramenta, o número de consultas possíveis aumenta para 100 e o limite de caracteres para 10000. Para mais "regalias" a ferramenta exige pagamento.
Os resultados das análises no LinguaKit:
Obs. A variável peso é determinada pelo nível de estruturação de uma palavra no texto, ou seja, fatores como número de ocorrências, ligações e etc. A variável frequência é, como o próprio nome diz, reflexo da quantidade de vezes a palavra aparece. E a variável etiqueta, é uma tentativa da ferramenta de classificar a palavra.
Abaixo deixo uma descrição das 3 técnicas que mais utilizamos no âmbito do laboratório:
- Análise de Multipalavras: esta análise procura por palavras no texto que sejam compostas e representativas para o corpo textual. Os resultados mostram quais palavras foram encontradas; a etiqueta, que é uma tentativa da ferramenta de classificar as palavras; e o peso que é uma variável quantitativa que a ferramenta coloca para indicar o quanto um elemento é estruturante no texto.
- Análise de Palavras-Chave: esta é bem parecida com a primeira, os parâmetros são praticamente os mesmos, só que em vez de fazer uma busca por palavras compostas, procura por palavras-chave simples que estruturem o texto.
- Reconhecedor de Entidades: como o nome diz, a ferramenta procura por expressões que representem entidades, instituições e coisas desse tipo. A medida indicada, é o número de ocorrências que cada expressão tem no corpo do texto.
Observações: Os resultados das análises são emitidos na página do navegados, mas é possível selecionar as colunas das palavras, etiqueta, e peso e copiar para uma planilha para análise.
Algumas análises da ferramenta disponibilizam visualizações do tipo Nuvem de Palavras, e é necessário usar plugins para captura de tela ou o próprio atalho de print para recuperar a imagem.
Após obter uma base com todos os dados, é necessário revisar todos eles para limpeza de alguns dados que a ferramenta não conseguir classificar corretamente (atenção à coluna de etiqueta)
Obrigado!
Até a Próxima!
Categorias: Ferramenta Análise Mapeamento LinguaKit Textual Mapeamento do Conhecimento