Estudando Estatística e métodos quantitativos – um guia amigável para linguistas

Estatística e análise de dados são fundamentais.

Não só para linguistas, não só para acadêmicos: estatística é parte fundamental do conhecimento que precisamos para lidar com o mundo de hoje. É um tipo de alfabetização lógica que todos nós deveríamos ter.

Eu digo isso pois é muito comum nos depararmos com argumentos baseados em estatística para defender a opinião X ou Y . Na verdade, é considerado uma boa prática ter a sua argumentação respaldada por fatos, e esses fatos muitas vezes são codificados de alguma forma por algum tipo de tratamento estatístico.

 

2000px-scientificgraphspeedvstime-svg
Gráfico aleatório estrategicamente colocado para respaldar minhas opiniões.

Ao mesmo tempo em que a retórica estatística está por todo lado, o respeito à metodologia, à apuração de fontes e ao próprio conhecimento mínimo sobre os métodos quantitativos não são tão bem disseminados assim. Já presenciei, por exemplo, apresentações em congressos feitas por professores que usavam estatística de modo completamente absurdo.

Ainda duvida que estatística é fundamental? Eis uma definição elegante da área:

Estatística é o estudo sobre a coleta, análise, interpretação, apresentação e organização de dados.[1] Ao aplicar estatística em um problema científico, industrial ou social, costuma-se começar com a definição da população ou do modelo estatístico que será estudado. Populações podem ser coisas distintas tais como “todas as pessoas que moram em um país” ou “todos os átomos que compõe um cristal”. A estatística lida com todos os aspectos dos dados, incluindo o planejamento da coleta de informações, como o desenvolvimento de pesquisas e experimentos.

Falando sobre a área de Linguística, a análise de dados não é útil apenas para a linguística computacional. Existem áreas dos estudos da língua que dão mais ou menos importância para as análises quantitativas, sendo a sociolinguística talvez o exemplo mais claro de como se pode ganhar juntando a análise quantitativa com as noções da linguística. Mas, de maneira geral, é muito raro fazer a associação de duas matérias que costumam ser colocadas em pontos tão distantes do aprendizado – e não são poucas as pessoas que se arrepiam ao ouvir “mostre o que você está querendo dizer em um gráfico!”.

Foi só quando eu comecei a mexer com linguística computacional que pude perceber o quanto é surreal que se forme um linguista que não tenha nenhum conforto para lidar com esse tipo de raciocínio.

Esses são os cursos e materiais de estatística que me ajudaram e ajudam a lidar com esse mundo de conteúdos:


 

6440155

Livro – Statistics for Linguists with R – Stefan Th. Gries (De Gruyter Mouton, 2013)

É difícil estudar estatística e fugir da linguagem de programação R. Apesar de não ser a minha praia, é uma ferramenta poderosíssima que ajuda a entender estatística de um jeito prático, nem que seja em termos básicos. Para quem não conhece, a linguagem R é voltada para a computação científica, e possui muitas bibliotecas específicas para processamento e análise de dados.

De todo modo, o melhor do livro é a abordagem mão na massa: primeiro explica os conceitos, depois dá exemplos linguísticos e, então, exercícios com dados linguísticos.

data-science-from-scratch

Livro – Data Science from Scratch – Joel Grus (O’Reilly, 2015)

Esse excelente livro, de leitura rápida, é um apanhado de diversos campos que compõem a chamada ciência de dados. Ele pressupõe algum conhecimento de Python ou de programação, mas se você já tem esse background, o livro é muito legal. Basicamente, o que o autor faz é ir explicando os conceitos das ciências de dados através da implementação deles em Python.

Ele apresenta um problema, o tipo de conhecimento necessário para lidar com esse problema e a implementação dessa solução em Python, tudo isso com explicações on the run. Recomendo muito!
41pptmtwvfl-_sx398_bo1204203200_

Livro – OpenIntro Statistics – David M. Diaz, Christopher D. Barr, Mine Çetinkaya-Runde (2015)

Excelente e completíssimo material de introdução à estatística, oferece um panorama geral das bases da estatística. E o melhor de tudo: está disponível para baixar de graça nesse site. A ideia é oferecer um panorama geral das bases da estatística.

É uma boa sugestão para quem quer ir além da alfabetização funcional na estatística e descobrir mais a fundo alguns dos conceitos, como regressão linear e regressão logística.

cat

Livro – Python for Data Analysis – Wes McKinney (O’Reilly, 2013)

A aplicação de Python para a análise de dados está acontecendo em diversas áreas, já que é uma linguagem fácil, eficiente e bastante intuitiva. Isso ajuda não só na hora de escrever o seu código, mas também para divulgar os resultados e apresentar o código feito.

Esse livro apresenta a análise de dados de um modo geral usando o Python como base. Também traz principais ferramentas dentro do Python que são usadas por grandes empresas e pesquisadores para atacar as questões da análise de dados. Uma versão mais aprofundada e densa do Data Science from Scratch.

 

minibook

Livro – Learning IPython for Interactive Computing and Data Visualization – Cyrille Rossant (Packt Publishing, 2015)

O IPython é uma interface para programar em Python que merece um post só para ela. De modo geral, o que vale dizer por enquanto é que, para quem é acadêmico, ela é o futuro. A facilidade de fazer um código altamente legível, combinado com texto e interativo é absurda. Mas o que é mais interessante desse livro é que ele conta com uma abordagem bem empírica como usar essa interface para fazer análise e visualização de dados.

Há um outro livro do autor, intitulado IPython Interactive Computing and Visualization Cookbook (Packt Publishing, 2014) que é um livro de receita para análise de dados usando o IPython.

 

khan-logo-vertical-transparent

Site – Khan academy

Esse site é muito bom! Ele foi criado como uma ferramenta para ajudar crianças e adolescentes na escola, mas os conteúdos, videoaulas e exercícios são muito bons para todos os que querem um reforço em algum conteúdo específico. É um jeito fácil e rápido de ir atrás daquela matemática que você teve na escola e por algum motivo acabou não aprendendo ou esquecendo com o tempo (“mas eu nunca vou usar isso na vida, professora!” ¯\_(ツ)_/¯ ).

Livro online – Online Statistics Education: An Interactive Multimedia Course of Study

Esse recurso online, criado por universidades americanas, é uma ótima fonte de conhecimento sobre estatística. Tem a vantagem de estar organizado em links, e um conceito específico está ligado tanto com os tópicos que você precisa dominar para entendê-lo como com os tópicos que estão relacionados a ele de modo geral.

Curso – Computational Statistics with Python – Universidade de Duke

Um curso completo sobre estatística. Além disso, é todo voltado para a implementação dos conceitos usando o Python. Um material incrível, que eu descobri recentemente e vou usar a partir de agora.


Outras recomendações:

Estatística na Wikipedia (Inglês) – A Wikipédia em inglês é quase sempre um ótimo jeito de começar a estudar alguma coisa. No caso da estatística, a descrição é boa e te conduz para outras leituras e fontes bem legais. A versão em português é bem interessante também, e está nesse link aqui.

Sub-reddit de Estatística: O reddit é uma ótima plataforma de fóruns onde dá para encontrar pessoas falando sobre qualquer coisa. O de estatística é um jeito legal de ter algum contato com discussões dessa comunidade.

Quora – No Quora, que eu já mencionei aqui, é possível encontrar perguntas de vários níveis respondidas pelas mais diversas pessoas, desde curiosos até professores universitários famosos. Deem uma olhada nessa pergunta que coloquei como exemplo: tem uma resposta que está no mesmo nível de livros texto. É uma fonte que, se bem trabalhada, pode contribuir muito!

O estatístico – Essa página de divulgação no Facebook é uma iniciativa super importante. Como eu disse, estatística é um mundo, e aqui você vai poder ver diversos links e artigos interessantes sobre as mais variadas áreas e aplicações da estatística.

 

Espero que uma porção significativa (p<0,05) das sugestões e dicas ajudem! Se você tiver alguma outra sugestão, por favor, compartilhe!

 

Publicidade

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s