Um artigo sobre como o processo de formação de preços no mercado financeiro não é tão simples quanto parece.
Por Hully Rolemberg
Dezembro chegou e com ele o sentimento natalino de que o ano passou rápido demais. De 01/01/2021 a 01/12/2021 foram 1816 horas de negociação na B3, aproximadamente 1,40 bilhões de negócios fechados e 1,98 trilhões de reais transacionados. Tudo isso só na bolsa brasileira – que hoje representa menos de 1% do mercado financeiro global. Fisicamente, é impossível que o intervalo entre os minutos tenha sido de fato menor que 60 segundos ou que o tempo tenha passado mais rápido em 2021 do que nos anos anteriores. Mas, a nossa percepção de tempo acaba sendo distorcida em função do número de eventos que ocorrem nesse intervalo de 60 segundos e a verdade é que esse número só cresce a cada ano.
Quanto mais eventos ocorrem, mais dados são gerados e mais sofisticadas são as infraestruturas necessárias para coletar e armazenar essas informações. Do nosso artigo “Ciência de Dados em Fundos Quantitativos“, você sabe que dados são os insumos essenciais dos algoritmos e que sem eles nós (quants) nada somos. A partir dos dados de mercado, nós processamos sinais, estimamos modelos estatísticos/matemáticos e construímos estratégias sistemáticas de investimento. Por isso, para que os nossos modelos produzam resultados robustos, é muito importante que os dados sejam coletados e armazenados de maneira correta e eficiente, refletindo as condições de mercado da época.
No nosso artigo “Estatística, Astrologia e Eficiência de Mercado”, nós falamos sobre como modelos são apenas aproximações da realidade e, portanto, válidos apenas sob algumas hipóteses simplificadoras. Essas hipóteses são geralmente sobre o comportamento dos agentes (racionais e homogêneos) e sobre os dados de mercado (informação completa e séries independentes e identicamente distribuídas). Neste artigo, nós vamos explorar algumas condições de mercado que não são contempladas pela Hipótese de Eficiência do Mercado (em sua versão original) e que têm se tornado cada vez mais relevantes com a modernização das bolsas e sistemas de trading. Chamamos o ramo da literatura que estuda essas condições de “Microestrutura de Mercado”.
Os estudos de microestrutura de mercado buscam analisar, entre outras coisas, questões relacionados à formação e descoberta de preços, custos de transação e comportamento dos investidores. Se por um lado, o framework de mercados informacionalmente eficientes assume que os preços devem refletir toda a informação disponível, a análise de microestrutura, por outro, mostra que a formação dos preços não é trivial e que, na verdade, está sujeita a algumas fricções transacionais. Nesse sentido, avaliar como os mecanismos de trading e o comportamento dos agentes afetam os preços nos ajuda encontrar oportunidades de lucro que existem no mundo real, mas que não necessariamente são explicadas pela Hipótese de Eficiência do Mercado.
Como ilustração, suponha que estejamos interessados em desenvolver uma estratégia de pairs trading entre duas ações a partir de um modelo cointegrado (explicamos o que é cointegração no artigo “Cointegração: o bêbado e o cachorro”). Nesse caso, nós devemos identificar pares de ações que possuem uma relação de longo prazo, estimar essa relação e aplicar uma estratégia do tipo long/short. Para isso, precisamos de dados históricos, em particular, preços históricos igualmente espaçados no tempo. Isso significa que os dados devem estar amostrados em alguma frequência fixa: mensal, diária ou por minuto, por exemplo. Fácil? Sim. Representativo da realidade? Nem tanto.
Pense numa série de preços qualquer. O preço de um ativo a cada dia pode ser representado pelo seu preço de fechamento, ou seja, o preço do último negócio do dia. Observe que o preço de fechamento de um dia nem sempre ocorre exatamente 24h depois do preço de fechamento do dia anterior, mas ainda assim essa série temporal seria classificada como uma série diária. Seguindo essa lógica, bastaria coletar o último preço de um determinado intervalo de tempo qualquer para obter uma série de dados igualmente espaçada.
O problema é que nem sempre os ativos são negociados igualmente ao longo do tempo e em alguns períodos eles nem são negociados! Por isso, qualquer método que nós usemos para obter séries com frequências fixas nada mais é do que uma aproximação. Se o número de negócios não for distribuído uniformemente no tempo, então alguns períodos vão ter muito mais negócios do que outros e, ao considerarmos o último preço de cada minuto, por exemplo, estaremos assumindo que o dado do minuto 1 é tão representativo quanto o dado do minuto 2, o que não necessariamente é verdade.
Períodos em que não ocorrem negócios são particularmente problemáticos e induzem potenciais vieses nas estatísticas dos retornos, como médias, variâncias, covariâncias, betas e correlação. Pense no seguinte: o ativo A e o ativo B são independentes no tempo, mas A é negociado mais frequentemente que B; se chega uma notícia que afeta o mercado no fim do pregão, é mais provável que o preço de fechamento do ativo A reflita essa informação do que o preço de B, simplesmente porque B talvez não seja negociado depois que a notícia chegou. É certo que o preço de B vai refletir a nova informação em algum momento, mas o fato de isso ocorrer com atraso faz com que exista uma autocorrelação cruzada entre os retornos diários de A e B quando calculados usando preços de fechamento. Chamamos esse efeito de “Nonsynchronous Trading”.
Com o avanço tecnológico e consequente modernização das bolsas, praticamente todo o volume de negócios financeiros no mundo é feito eletronicamente e numa velocidade praticamente impensável poucos anos atrás. Assim, não importa o quão precisos nós tentemos ser na coleta e armazenamento dos dados de mercado – usando intervalos de segundos, nanossegundos ou microssegundos – o processo de modelar um fenômeno econômico sempre implicará a perda de alguma característica dos dados, afinal um modelo é basicamente uma simplificação da realidade e, portanto, tem limitações.
O próprio processo de trading pode ter um impacto importante nas propriedades estatísticas dos preços. Em mercados dinâmicos, por exemplo, high frequency trading é parte relevante do volume total de negócios e os denominados “market makers” têm papel importante em fomentar a liquidez do mercado. Resumidamente, os market makers são agentes, devidamente cadastrados na bolsa em que atuam, que se comprometem a comprar e vender ativos, provendo liquidez para o mercado e lucrando em cima do bid-ask spread. Nesse contexto, a existência de um spread entre o preço que o market maker desejaria comprar (bid) e o preço que ele desejaria vender (ask) pode ter um impacto não desprezível na correlação serial dos retornos, o que certamente impactaria a estimação de qualquer modelo financeiro convencional.
A existência de um bid-ask spread cria um viés nos retornos, pois ao invés de um preço único, nós temos 3: o preço de compra, o preço de venda, e o preço da transação (que não necessariamente é o preço de compra ou o de venda). Como os retornos deveriam ser calculados então? De um preço de compra a outro preço de compra, de um preço de venda a um preço de compra, de um preço de venda a outro preço de venda, etc.? Além disso, quando chegam ordens de compra e venda aleatoriamente no mercado, o preço pode oscilar para cima e para baixo entre o preço de compra e o preço de venda (bid-ask bounce), criando uma volatilidade espúria (leia o nosso artigo “Volatilidade: qualidade do que é volátil” para entender mais sobre a estimação da volatilidade) e autocorrelação nos retornos, mesmo que o preço do ativo no fim das contas permaneça o mesmo.
Para alguns propósitos, como os que envolvem investimentos de longo prazo, o impacto das microestruturas de mercado pode ser ignorado sem muito prejuízo estatístico. Para outros, microestrutura é exatamente o tema central (pense em análises de liquidez). Logo, estudos empíricos interessados em endereçar esses fenômenos de mercado devem usar “dados de transações” e não os convencionais “dados de preço”. Isto é, ao invés de agregar os dados temporalmente em um único preço, todos os negócios devem ser levados em conta na construção dos modelos.
Em uma base de dados de transações (também denominados “dados de tick“), o preço de cada negócio é registrado e armazenado com o timestamp do momento exato em que ocorreu o negócio. Esse timestamp pode ter diferentes níveis de precisão: dias, horas, minutos, segundos, milissegundos, e por aí vai. É verdade que, mesmo que os dados sejam registrados com um alto nível de precisão no tempo, isso ainda será uma aproximação, pois mais de um negócio podem ser fechados no mesmo instante de tempo, cada um a um preço diferente e, então, a decisão de qual preço usar é (novamente) uma simplificação da realidade, mas dessa vez bem mais elegante.
O problema com os dados de transações, é que uma transação não é igual a outra, principalmente em termos de volume transacionado. Uma solução alternativa seria às “barras de tempo” seria utilizar “barras de volume” ou “barras de volume financeiro” (dollar bars). No primeiro caso, os intervalos são definidos com base no número de contratos negociados – a cada 1000 ações, por exemplo. Já no segundo, os intervalos dependem do volume financeiro transacionado – a cada R$1.000.000,00, por exemplo. A barras de volume financeiro tendem a ser a solução mais robusta para o problema de Nonsychronous Trading, principalmente em mercados muito voláteis. A amostragem por volume financeiro favorece a integridade dos dados, preservando propriedades estatísticas das séries (como a volatilidade “intraperíodo”). Além disso, as dollar bars são robustas a mudanças na quantidade total dos ativos no mercado, como as que acontecem em eventos corporativos de splits e inplits.
Atualmente, dados de transações financeiras estão amplamente disponíveis (nem sempre gratuitamente) para pesquisadores e agentes do mercado que desejem investigar questões de microestruturas como: Quais os determinantes do bid-ask spread? Quais os fatores que explicam o comportamento dos market makers? O processo de trading em si impacta os preços? Como isso varia em função do tamanho do trade? Quais os benefícios e custos de requerimentos de margem e de volatilidade intradiária? Todas essas questões são ignoradas por boa parte dos modelos financeiros, mas com o aumento da velocidade do mercado, cada vez mais esses detalhes passam a ser explorados como oportunidades de lucro. Se antes fazia sentido pensar em um ativo sendo transacionado uma vez por minuto, agora esse número pode chegar a centenas de vezes por segundo, nunca o tempo passou tão rápido!
Fundos quantitativos conseguem surfar mais facilmente nessa onda de aceleração do tempo, afinal os algoritmos são escaláveis e conseguem acompanhar o aumento no volume e na velocidade dos dados. Além disso, a estrutura de bancos de dados utilizados pelos quants tem se tornado cada vez mais sofisticada para acompanhar todos esses avanços. Dados intradiários, dados em tempo real, dados vintage. Preços, volumes, eventos corporativos, ratios. Toda a informação relevante precisa ser armazenada de maneira eficiente para que os modelos possam ser estimados com a melhor informação possível. Os modelos, por sua vez, são refinados para comportar as novas condições de mercado e continuar gerando retorno esperado positivo. A matemática é mesmo fascinante.
Tão fascinante quanto a nossa perspectiva sobre a passagem do tempo: dezembro chegou logo depois de julho, 2021 ainda soa como uma continuação de 2020, as semanas parecem que têm menos de 7 dias (a semana entre o Natal e o Ano Novo, em particular, tem 3)… O que esperar de 2022? Os investidores podem esperar mercados ainda mais rápidos, cada vez mais eventos ocorrendo num intervalo de 1 minuto, ainda mais negócios sendo fechados, ainda mais dados sendo gerados e muitos efeitos de microestruturas de mercado para serem capturados.
Leia também o texto “A gestão de fundos quant exige um novo perfil profissional”.