Big Data vs. Big Wisdom: Consumo de cerveja gera riqueza?

Uma das mais consistentes tendências em gestão, nos dias que correm, é o crescente enfoque em gestão baseada em evidência. A quantidade massiva de dados à disposição das empresas (pensem apenas na Amazon, Facebook ou Google, mas também cadeias de super-mercado, bancos, seguradoras, operadores de telecomunicações…), está a gerar uma revolução no mundo da gestão. Eu sou um dos fãs desta gestão baseada em dados e da utilização de informação para tomar decisões complicadas. A aplicação cuidadosa de modelos económetricos e estatísticos em bases de dados cada vez mais detalhadas (exº: sobre o comportamento individual), pode certamente ajudar-nos, se aplicada de forma correta, a tomar melhor decisões e a melhor percebermos como se comportam os consumidores ou as pessoas em geral. Sou, portanto, um fã de Ian Ayres e o seu Super Crunchers, de Billy Beane e do MoneyBall (filme e livro), e partilho do entusiasmo de Thomas H. Davenport and D.J. Patil que escreveram na Harvard Business Review em Outubro de 2012, que a profissão mais sexy do século XXI é cientista de dados… :).

Porém, ter muitos dados (big data) não implica necessariamente possuir muita sabedoria (big wisdom). Por um lado, apesar de todo o entusiasmo por detrás do movimento em torno de big data, mais informação e dados, por si só, não ajudam empresas a criar mais e mais válido conhecimento. A experiência, intuição e perspicácia do gestor é crucial para guiar o analista sobre que dados recolher, como os preparar e o que procurar nesses dados. Por outro lado, análises rigorosas de bases de dados massivas requerem bastante esforço e conhecimento analítico. Existe uma grande escassez de profissionais qualificados para tais análises no mercado o que gera obstáculos grandes às empresas. Por esta razão, muitas empresas acabam por não utilizar adequadamente os dados que possuem, levando vários autores a sugerirem que é crucial que as empresas construam equipas e processos capazes de transformar big data em big wisdom

Causalidade vs. Correlação

Entre os muitos aspetos cruciais a ter em conta quando analisamos dados, um que é particularmente importante é a distinção entre correlação e causalidade. Como tento demonstrar neste post – com, espero, algum grau de comicidade – o fato de dois eventos co-ocorrerem não prova que um deles causa ou é causado pelo outro… A melhor forma de provar causalidade é, normalmente, a utilização de experiências-piloto (ver aqui um artigo excelente, na Harvard Business Review,  em como podem e devem as empresas criar conhecimento através da utilização do experiências piloto que os autores chamam “smart experiments”). Mas voltemos ao problema da correlação versus causalidade olhando para dados de consumo de cerveja em diversos países….

SB

Image under creative commons Flickr user: vaitu

Consumo de Cerveja vs. Riqueza*

Todos nos lembramos de um famoso vídeo em que Angela Merkel, desafortunadamente, foi brindada com vários copos de cerveja… derramados acidentalmente por um empregado de mesa nas suas costas: 

Recentemente, vi mais uma foto de Angela Merkel a brindar com cerveja e interroguei-me: Será que há uma associação entre o consumo de cerveja e a riqueza de um país?

Para satisfazer a minha curiosidade, rumei à Wikipedia, essa fantástica fonte de dados, e recolhi dados acerca do consumo de cerveja per capita em 47 países. Depois recolhi dados acerca do PIB per capita à paridade dos poderes de compra para estes mesmos 47 países. Por fim criei um gráfico com X = consumo de cerveja per capita (em litros-ano) e Y = PIB per capita (PPP) e testei, de forma simples, a relação entre estas duas variáveis.

Qual não foi o meu espanto quando obtive um R-quadrado bastante respeitável dada a simplicidade do modelo em causa (30.6%), apontando para uma relação positiva entre consumo de cerveja e produto per capita. Interessante:

cerveja-pib

Se, apenas por brincadeira, decidíssemos ignorar os perigos da análise descuidada de dados (perigos esses como correlação espúria, causalidade inversa, omissão de variáveis e consequente enviezamente nos parâmetros… isto é, o facto de eu não ter incluído, como variáveis explicativas do PIB per capita, certas variáveis que possam, eventualmente, explicar tanto o consumo de álcool como a riqueza (apenas como exemplo: regulação, cultura e valores, religião, entre muitas outras variáveis estudadas por economistas e outros cientistas sociais)… seria simples sugerir uma estratégia de crescimento económico para qualquer país: “Beber mais cerveja!”. 🙂

Infelizmente, não será assim tão fácil. E certamente alguma das variáveis não incluídas no modelo explicará, em simultâneo, o consumo de cerveja e a riqueza per capita. Este exemplo é uma boa demonstração dos riscos de omitirmos variáveis e ignorarmos questões de causalidade inversa ao analisarmos dados. Se, neste pequeno exemplo, com dados tão simples, o problema é aparente mesmo antes de o discutirmos… quando falamos de big data – dados massivos com vários milhares, ou mesmo milhões ou biliões de observações e variáveis – a probabilidade de erros destes serem detetados é muito menor. Porém, para transformar big data em big wisdom, gestores e analistas não podem ignorar este tipo de fenómeno…

Deixo aqui os dados para quem quiser testar: beer-vs-gdp-08012014

Para Saber Mais (sobre a parte técnica):

  • Greene, WH (1993). Econometric Analysis, 2nd ed. Macmillan. pp. 245–246.
  • Stock, JH and MW Watson (2006). Introduction to Econometrics, 2nd Ed. Addison Wesley, ver Cap. 5.
  • Stock, JH: Slides sobre ‘ommitted variable bias’

Para Saber Mais (sobre consumo de álcool):

* Esta parte do post foi recuperada de um post que escrevi, em Fevereiro 2013, noutro blog que tinha…

Advertisements

5 Grandes Exemplos de “Data Visualization” em 2013

5 Grandes Exemplos de “Data Visualization” em 2013

Para fechar o ano de 2013, Drew Skau publicou um excelente post no blog visual.ly em que escolhia aquelas que, na sua opinião, foram as melhores visualizações interativas de dados de 2013. Todas as visualizações escolhidas são excelentes exemplos do que pode e deve ser a comunicação nesta era rica em dados e informação. Todas elas constitum exemplos de excelência de “data journalism”.

Drew classificou as visualizações em 5 categorias:

1. Mapas que utilizam dados para explorar aspetos geográficos de determinado fenómeno;

2. Relatórios Visuais que permitem comunicar conceitos e fenómenos complexos de forma simples. Muitas ezes são utilizados para complementar relatórios e documentos com imensa informação;

3. Exploradores de Dados que permitem ao leitor interagir de forma dinâmica com os dados e seleccionar os aspetos favoritos em determinado tópico;

4. Timelines que se concentram na dimensão temporal de determinado fenómeno e descrevem, de forma visualmente apelativa, a evolução histórica de determinado fenómeno;

5. Narrativas Visuais (ou Scrollers) que descrevem determinado assunto como se de uma história, ou narrativa, se tratasse.

No link que aqui partilho podem ver os 20 exemplos. Aqui deixo-vos o meu Top 5 (um exemplo por categoria):

1. Mapa: Wikipedia Worldview

2. Relatório Visual: NBC News “Who’s in the American Center?”

3. Explorador de Dados: Visual.ly’s “The Startup Universe”

4. Timeline: The New Yorker’s “A Month of Citi Bike”

5. Narrativa Visual: The Guardian’s “NSA FILES: DECODED”

(nota: USA Today’s “Behind the Bloodshed” também está fantástico)