Como começar a estudar Linguística Computacional?

Bom, como eu disse no último post, agora é a hora de fazer algumas indicações sobre como começar a estudar linguística computacional.

Os caminhos são muitos. O que eu posso e quero fazer aqui é compartilhar o que eu fiz, o que achei mais difícil e, principalmente, o que funcionou pra mim e recomendo.

Tive a sorte de fazer parte de um grupo de estudos que se mantém já há uns 4 anos na ativa. Dito isso, fica a primeira dica para quem quer começar a estudar linguística computacional: junte-se com outras pessoas que querem estudar.

Por ser uma área que une campos de estudo que não têm muito contato por aqui, seu aprendizado com certeza vai ser mais proveitoso se compartilhado com colegas que possuem seus próprios backgrounds, experiências e visões.

Nesse aspecto, é importante ressaltar: a Internet e as redes sociais podem ser ótimas ferramentas! Apesar disso, eu sou partidário de começar com o uso de um método de estudo mais antigo: ler.

Nessa primeira incursão, indico alguns livros (e um curso) que falam um pouco de tudo isso: linguística, estatística, computação e linguística computacional. No entanto, esses livros assumem conhecimentos prévios mais específicos ou menos.

1 – Language and Computers – Markus Dickinson, Chris Brew e Detmar Meurers (Wiley-Blackwell, 2012)

ehep002779
Esse livro é a introdução mais amigável ao assunto para quem não possui conhecimentos específicos em ciência da computação ou em linguística.
É uma boa forma de começar a pensar e conhecer as principais questões e aplicações do campo.Os autores apresentam os tópicos pensando em mostrar um panorama geral, com algumas sessões do livro apresentando o que realmente está acontecendo “por baixo dos panos” (ou seja, a parte mais técnica da discussão).
Esse era o livro que eu queria ter lido quando comecei a estudar linguística computacional, minha vida teria sido bem mais fácil!
2- Natural Language Processing with Python – Steven Bird, Ewan Klein e Edward Loper (O’Reilly Media, 2009)
51j6jcrbd-l-_sx258_bo1204203200_
Esse foi o primeiro livro sobre linguística computacional com o qual eu trabalhei. É muito bacana, pois logo no primeiro capítulo você já está com a mão na massa, fazendo a lista de palavras mais frequentes em Moby Dick (alguém chuta qual é a número 1?) e brincando com processamento de linguagem em Python. É um livro de receitas que traz boas explicações.
Mas, peraí! Eu já sabia Python quando peguei esse livro?
 Não! E acho que esse foi o meu maior problema. Começar já colocando a mão na massa é muito divertido, mas eu, por ser linguista de formação e não saber patavinas de programação antes de ir pra essa área, acabei achando muito difícil entender de verdade o que eu estava fazendo, o que o computador estava fazendo e quais eram os meus objetivos a longo prazo.
Se você já conhece Python com alguma segurança e já tem alguma noção de linguística, esse livro vai te levar longe, e você realmente vai se divertir com os exercícios. Mas se esse não for o caso, eu recomendo usar esse livro como um apoio (principalmente por causa dos exercícios) e ir atrás de outras fontes para aprender mais sobre linguística, programação e estatística.
3 – Speech and Language Processing – Daniel Jurafsky e James H. Martin (Prentice Hall, 2008)
41m9fu8xtvl-_sx258_bo1204203200_
Não sou religioso, mas aqui está a sua bíblia.
Esse livro descreve para cientistas da computação toda a área dalinguística computacional.
Primeiro apresenta como esse campo de estudo lida com todas as áreas clássicas da linguística formal (fonética, fonologia, morfologia, sintaxe e semântica), apresentando também os tipos de modelos matemáticos e estatísticos mais usados.
Depois, o livro foca em apresentar como funcionam os princípios por trás dos mecanismos mais bem-sucedidos de todas as áreas da linguística computacional: tradução automática, extração automática de informação, sumarização e outras.
É a principal referência na área. Só não é para iniciantes completos (se você nunca programou na vida, por ex.), então pode acabar gerando dor de cabeça e dar a sensação de que a linguística computacional é inacessível.
Se você já está calejado com a matemática e a programação (na verdade esse livro é menos sobre implementações do que sobre explicar o funcionamento dos algoritmos), esse daqui é o livro certo para se agarrar.
Além disso, o curso de Stanford de Processamento de linguagem natural do Coursera é bastante apoiado nas noções apresentadas nesse livro. É material muito bom mesmo!
4 – Foundations of Statistical Natural Language Processing – Christopher Manning e Hinrich Schütze (MIT Press, 1999)
fsnlp-bigger
O outro livro fundamental da área. Junto com o item 3, compõe o grande repositório de teoria da linguística computacional.
Mais ainda do que o item 3, esse livro não é recomendado para um público leitor leigo:  Apesar de ser um material para o qual eu volto constantemente se preciso entender alguma fórmula, procurar algum conceito ou resolver algum problema, é um livro bastante árido.
É impossível não colocar ele numa lista de livros sobre processamento de linguagem natural, porque ele tem muito conteúdo de qualidade para a área. Mas não é um livro que eu recomendaria para alguém que está entrando em contato com linguística computacional. Se você não é formado em ciências da computação, com uma boa base de estatística, cálculo e teoria da informação, vai ser uma leitura muito complicada.
————————————————————————
Como vocês devem ter notado, infelizmente esses materiais só estão disponíveis em inglês. Por falar nisso, que tal ver por aqui algumas traduções do que vem sendo publicado por aí? Vamos aumentar a quantidade de material dessa área disponível de graça e em português!
Nos próximos posts, eu também vou tentar reunir alguns materiais bons para o estudo de Programação (além de pregar o uso de Python para isso!), de estatística e de linguística. Infelizmente não é fácil encontrar materiais sobre todas essas áreas reunidos num lugar só.
Até lá!
PS: A palavra mais comum em Moby Dick é… ‘the’. Mais sobre isso num futuro próximo!

6 comentários em “Como começar a estudar Linguística Computacional?”

  1. Olá,
    Comecei recentemente a pesquisar sobre Linguística Computacional por curiosidade e me deparei com o seu blog. Gostei muito dessas dicas! Sou estudante de Letras-Tradução(Inglês-Português) e já tinha definido meu futuro seguindo na área de Tradução apenas (talvez licenciatura). No entanto, estou achando essa área de LC muito interessante e sinto vontade de pesquisar mais. Estou pesquisando sobre pós-graduações na área de linguística, mas não acho muita coisa direcionada para a área de tecnologia. Enfim, a minha maior dúvida que eu gostaria de tirar com você é: é possível progredir nessa área começando do ZERO em termos de programação? Caso tenha interesse em seguir, devo ir correndo agora me inscrever em um curso de programação? Será que esses cursos online, como os do Coursera, dão conta dessa parte? Ainda tenho muito caminho pela frente em relação a linguística também, mas sei os passos que tenho que dar nesse ponto. Em relação à programação, por outro lado, nem sei por onde começar (e olha que meu pai é programador rs). Outra coisa: é possível progredir nesta área fora do meio acadêmico?

    Curtir

    1. Olá Alana, desculpe a demora para responder!

      Acho que há muito material bom para estudar programação pela internet de graça. Talvez valha a pena olhar para um curso como o do codecademy. Tenho um post que eu recomendo algumas fontes e estudo de Python, acho que pode ser útil para você!

      Recomendo alguma linguagem com comunidade ativa e receptiva, como a do Python. É muito importante poder contar com o apoio de pessoas que já começaram a estudar o tópico.

      Espero ter ajudado,

      Abraço

      Curtir

  2. Hello! Sou formada em letras- tradutor e licenciatura, tambem em Gestão de TI. Grata pelas dicas, estou faz tempo estudando esta área. Infelizmente carente de material no Brasil.

    Curtir

Deixe um comentário