Metodologia do processamento e análise de dados
O projeto Engolindo Fumaça analisa dados de satélite para determinar quais locais na Amazônia brasileira foram os mais afetados pela poluição do ar durante as queimadas de 2020. A investigação começou pela seleção das fontes de dados de sensoriamento remoto disponíveis para as diferentes variáveis de poluição do ar.
Uma pesquisa inicial, por meio de entrevistas com especialistas, consultoria de cientistas e documentação de estudos acadêmicos, foi feita para identificar os principais conjuntos de dados de poluição do ar que seriam de interesse para o projeto. Neste estágio, entendemos que o material particulado fino (PM 2.5, com até 2.5 micrômetros de diâmetro) seria a variável principal a ser analisada, pois, como é um conjunto de poluentes e não um único gás, o material particulado é o que melhor representa a fumaça das queimadas. Além disso, as finíssimas partículas do PM 2.5 viajam muitos quilômetros, atingem o sangue mais rápido e tem ampla literatura científica documentando seus efeitos na saúde humana.
Ainda nesse estágio, entendemos que o PM 2.5 não pode ser observado diretamente a partir dos satélites e, portanto, há a necessidade de traduzir a variável aerosol optical depth (AOD), observada para a concentração do aerossol. Isso pode ser feito de várias maneiras, e dois modelos são atualmente os mais usados e documentados (CAMS, do Centro Europeu, e Merra-2, da Nasa). Uma série de testes comparativos foram feitos com os principais datasets (as principais conclusões estão explicadas nesta documentação), decidimos usar as estimativas em tempo quase real do CAMS-NRT, do Centro Europeu de Previsões Meteorológicas (ECMWF).
Geoprocessamento das informações por satélite
O modelo espacial do Centro Europeu combina processa informações registradas por satélites, medições no solo e modelos computacionais para entregar estimativas diárias globais de material particulado. A análise do InfoAmazonia processou as diversas estimativas por dia para chegar na concentração média diária de material particulado fino (PM 2.5) para todos os municípios da Amazônia Legal. E, a partir dessas concentrações diárias, calculou as médias por mês, por período e a quantidade de dias acima do limite recomendado em toda a região.
Os dados de sensoreamento remoto processados pela equipe do InfoAmazonia foram validados com os dados medidos no solo pelos sensores de poluição do ar (PurpleAir) usados pelo LabGama/Ufac nos 22 municípios do Acre, como documentado neste relatório.
Base de dados de saúde
Para calcular o agravamento dos casos de Covid-19, a análise considerou apenas os casos em que houve internação hospitalar. Os dados, que vêm da base por Síndrome Respiratória Aguda Grave (SRAG) disponibilizada pelo DataSus, são gerados a partir dos formulários de internações hospitalares por síndromes respiratórias, inclusive as que terminam em morte, e são classificadas de acordo com a causa da infecção (Covid-19 é uma das diversas causas de doenças respiratórias apontadas nesses formulários). Como a subnotificação dos casos de Covid-19 é alta, o total de casos por SRAG também foi analisado e indicam que os números de Covid podem ser ainda maiores do que os casos oficialmente confirmados (43% das internações tinham causas indefinidas).
Para verificar o impacto da exposição local à fumaça, o algoritmo recebeu informações dos municípios de moradia dos pacientes e não do local da internação, para considerar o local de exposição ambiental.
Relações entre Covid/SRAG e poluição
Análise estatística
O modelo estatístico utilizado busca explicar o número de internações por município a partir de variáveis como a permanência de altos índices de poluição, área desmatada por mês e o tamanho do município (população). A partir disso, obtemos os efeitos de cada variável no número total de internações por Covid e por SRAG.
Variável resposta
A variável considerada como resposta é a contagem de internações por Covid-19 por município/mês.
Variáveis explicativas
Dentre as variáveis explicativas, foram consideradas variáveis relacionadas à poluição, precipitação, características dos municípios e, em um segundo momento, desmatamento. Considerou-se as variáveis município e mês como clusters com efeito aleatório, enquanto o restante foi considerado como variáveis de efeito fixo.
As seguintes variáveis explicativas foram consideradas no modelo final:
- uf: estado
- pop: população segundo PNUD
- porte: até 25 mil habitantes, entre 25 mil e 100 mil habitantes, mais de 100 mil habitantes
- PM 2.5: concentração média de material particulado fino (PM 2.5)
- dias acima de 25: número de dias no mês com média diária de PM 2.5 acima do limite recomendado pela OMS (25μg/m3)
- precipitacao: precipitação média
- área desmatada: área desmatada, em km²
- covid-19: casos de Covid-19 registrados (todos, não apenas os da base de internação por SRAG)
Outras variáveis como a quantidade de focos de calor e a taxa de leitos por 100 mil habitantes também foram consideradas, mas foram descartadas na seleção do modelo final
Variável de interesse: poluição
A principal variável em que há interesse é a variável relacionada com a poluição. Neste caso, foi considerada tanto a concentração média mensal de PM 2.5 quanto a quantidade de dias em cada mês (dias_acima_25) em que a média diária ficou acima de 25 microgramas por m3, ou seja, a continuidade da exposição a um nível alto de poluição.
No caso da concentração média, a variável não tem um peso tão grande no modelo. O efeito da variação da concentração média no total de internações é menos importante que, por exemplo, o total de dias acima de 25.
No caso do total de dias acima de 25 (dias_acima_25), há um efeito positivo no total de internações, ou seja, quanto mais dias, mais internações. Fixando todas as outras variáveis (ou seja, considerando que não há mudança no nível de desmatamento, precipitação, casos de Covid, etc), o aumento de 1 dia por mês com PM 2.5 acima de 25 microgramas/m3 implica em um aumento de cerca de +2,0% no total de internações por doenças respiratórias classificadas como Covid-19 (em relação a uma situação hipotética considerando o mesmo município e condições iguais de precipitação, desmatamento, etc). Para o modelo considerando os casos de SRAG de forma geral (e não apenas Covid), esse incremento (nas internações por SRAG) é de +2,6%.
No painel de dados, o percentual indicado é sempre em relação a um mês hipotético no mesmo município em que houve 0 dias acima de 25.
Municípios vulneráveis – agrupamento dos municípios
Para identificar quais municípios possuem características similares entre si considerando focos de calor, desmatamento, precipitação, poluição e população, foi feito um agrupamento utilizando um algoritmo de classificação iterativo para 5 grupos.
Nesse processo, os municípios são agrupados levando em consideração quão similares ou dissimilares são entre si; municípios com perfis parecidos são classificados em um mesmo grupo, enquanto municípios menos parecidos são classificados em grupos distintos.
Os dados para o agrupamento consideraram apenas o período de queimadas, de julho a outubro, já que o intuito era identificar perfis semelhantes de municípios justamente nesse período e, assim, buscar quais são os municípios mais vulneráveis.
Os 10 municípios indicados no painel de dados como “municípios vulneráveis” integram o grupo com maior média de PM 2.5 e de dias acima do recomendado pela OMS (concentrações médias diárias até 25mg/m3), precipitação média a baixa, maior média de área desmatada e quantidade de focos de calor e população média (sempre em comparação com os outros grupos).
**Aqui mais detalhes sobre a análise estatística.
Fontes dos dados utilizados nas análises
Material particulado fino (PM 2.5) – CAMS-NRT
Internações por SRAG, incluindo Covid-19 – Sivep/Datasus
Alertas de desmatamento em 2020 – DETER/Inpe
Número de focos de calor, detectados pelo satélite S-NPP/VIIRS 375m – Inpe Queimadas
Precipitação – CHIRPS – UCSB/CH
População nos municípios – IBGE/PNUD
Leitos por 100 mil habitantes – CNES/MS
Casos de Covid-19 – Brasil.io