Análise automática de texto
Conteúdo
Análise automática de texto¶
Material para o Encontro Virtual 5, 08/12/2021, referente à semana 9 do curso
O objetivo desse encontro virtual é discutir procedimentos automatizados de análise de textos escritos por meio de ferramentas digitais.
Iniciaremos com um debate sobre as especificidades desses procedimentos e as reflexões anteriores que devem ser consideradas para a construção de um modelo de análise de textos.
Em seguida, vamos realizar um workshop para o uso do Voyant Tools.
Do que estamos falando? Computadores podem ler textos e entender como humanos?¶
Como um computador lê?
Semântica: sentido das palavras.¶
Conotação: significado criado pelo contexto
Denotação: sentido original
Ambiguidade¶
Escapa ao computador
Como remediar essa questão na leitura realizada por computadores?
Pensar desambiguidades
Polissemia¶
Uma palavra apresentando vários significados.
Corpus¶
Uma coleção de textos de uma dada língua reunidos para serem analisados. Esses textos já existiam no idioma e não foram criados para compor o corpus. (Silva & Silva, 2013)
Termo utilizado sobretudo para estudos linguísticos;
Analisar o contexto de produção, os susjeitos e grupos sociais que participaram da sua construção, o público alvo, etc.
Perguntas de pesquisa (e seus enquadramentos teóricos): são fundamentais para a construção das categorias e etiquetas a serem atribuídas em seu corpus.
Voyant Tools¶
Voyant Tools é um ambiente de leitura e análise de texto baseado na web. É um projeto acadêmico que visa facilitar a leitura e as práticas interpretativas para estudantes e acadêmicos de humanidades digitais, bem como para o público em geral.
O que você pode fazer com a Voyant:
- Use-o para aprender como funciona a análise assistida por computador. Confira nossos exemplos que mostram como realizar tarefas acadêmicas reais com a Voyant.
- Use-o para estudar textos que encontra na web ou textos que editou cuidadosamente e tem no seu computador.
- Use-o para adicionar funcionalidade a suas coleções online, jornais, blogs ou sites da web para que outras pessoas possam ver seus textos com ferramentas analíticas.
- Use-o para adicionar evidências interativas aos seus ensaios que você publica online. Adicione painéis interativos diretamente em seus ensaios de pesquisa (se eles puderem ser publicados online) para que seus leitores possam recapitular seus resultados.
- Use-o para desenvolver suas próprias ferramentas usando nossa funcionalidade e código.
Distant Reading¶
A leitura distante é uma abordagem em estudos literários que aplica métodos computacionais a dados literários, geralmente derivados de grandes bibliotecas digitais, para fins de história e teoria literárias. Embora o termo seja coletivo e seja usado para se referir a uma gama de diferentes métodos computacionais de análise de dados literários, abordagens semelhantes também incluem macroanálise, análise cultural, formalismo computacional, estudos literários computacionais, estudos literários quantitativos e crítica literária algorítmica.
Fonte: Wikipedia
Exemplo: Corpus Port-of-Spain Gazette (1882-1909)¶
Abrir Corpus
Layout
Cirrus
Links
labour
Tendências
hard; labour; fight; stick; police
Contextos
hard labour
woman