Fundamentos em processamento de linguagem natural: uma proposta para extração de bigramas

Autores

  • Edson Marchetti da Silva Centro Federal de Educação Tecnológica de Minas Gerais.
  • Renato Rocha Souza Universidade Federal de Minas Gerais

Resumo

É senso comum que o texto escrito é uma importante forma de registrar as informações e que atualmente grande parte desse conteúdo informacional está disponível em meio digital. Entretanto, de maneira geral, os computadores lidam com o texto como sendo uma cadeia de caracteres que não têm nenhum significado. A área de Processamento de Linguagem Natural (PLN) vem se empenhando em extrair significados do texto. Nesse sentido este trabalho apresenta uma revisão desse tema e propõe um método automatizado que utiliza uma heurística determinística denominada Heudet que visa extrair bigramas do texto. A meta é extrair o significado do texto através de um conjunto de expressões multipalavras identificadas. Os resultados obtidos foram melhores se  comparados com aqueles que utilizam-se das técnicas de medidas de associação estatística obtidas pelo software Ngram Statistics Package (NSP).

 

Palavras-chave: Extração de expressões multipalavras. Medidas de associação estatísticas. Heudet.

 

Link para o texto completo (PDF)

https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1


 

 

Biografia do Autor

  • Edson Marchetti da Silva, Centro Federal de Educação Tecnológica de Minas Gerais.
    Doutorado em Ciências da Informação pela Universidade Federal de Minas Gerais.
  • Renato Rocha Souza, Universidade Federal de Minas Gerais
    Pós-doutorado em Tecnologias Semânticas para Recuperação de Informação - University of South Wales, UK.

Publicado

2015-03-12

Edição

Seção

Resumos de artigos científicos

Como Citar

Fundamentos em processamento de linguagem natural: uma proposta para extração de bigramas. (2015). Pesquisa Brasileira Em Ciência Da Informação E Biblioteconomia, 10(1). https://www.pbcib.com/pbcib/article/view/23246