Challenges in disease mapping: predicting cancer incidence and analyzing models’ smoothing
Date
Authors
Publisher
Impacto
Abstract
La representación cartográfica de enfermedades tiene como objetivo estudiar los patrones geográficos y las tendencias temporales de incidencia y mortalidad de distintas enfermedades, principalmente no transmisibles, como el cáncer. Los modelos espacio-temporales para datos de área desempeñan un papel crucial en la descripción del impacto del cáncer en distintas poblaciones, permitiendo a los gestores sanitarios e investigadores formular estrategias de prevención, diagnóstico y tratamiento. Sin embargo, el análisis de datos de cáncer presenta varios retos. Por un lado, la falta de registros de incidencia del cáncer en determinadas zonas geográficas dificulta el análisis espacial o temporal de los patrones de incidencia del cáncer. Por otro lado, algunos tipos de cáncer, como los cánceres poco frecuentes, siguen sin estudiarse lo suficiente debido a la escasa disponibilidad de datos exhaustivos. Esta tesis está dedicada a mejorar y desarrollar metodología para abordar los retos asociados tanto con la estimación de la incidencia del cáncer en ausencia de registros como con el estudio de los cánceres poco frecuentes. La tesis pretende alcanzar los siguientes objetivos. El primer objetivo consiste en examinar los retos asociados a los datos de cáncer y revisar los métodos estadísticos utilizados en la literatura para enfrentarse a estos retos. En el Capítulo 1 se ofrece una introducción general a las problemáticas asociadas con los datos de cáncer para comprender la relevancia del problema. El segundo objetivo de esta tesis es proponer nuevos modelos que permitan predecir las tasas de incidencia en áreas geográficas sin registro de cáncer y, en consecuencia, proporcionar estimaciones de la carga de cáncer a nivel nacional. En el Capítulo 2, utilizamos modelos espaciales multivariantes comúnmente empleados en la literatura del ámbito de la representación cartográfica de enfermedades para predecir la incidencia de cáncer, modelizando conjuntamente la incidencia y la mortalidad por cáncer. El tercer objetivo es ampliar la colección de modelos espacio-temporales multivariantes mediante la introducción de interacciones compartidas adaptables que permitan mejorar el análisis conjunto de incidencia y mortalidad por cánceres raros. En el Capítulo 3, se proporciona una descripción detallada del modelo propuesto. Estos modelos permiten la modulación de interacciones espacio-temporales entre incidencia y mortalidad, permitiendo cambios en su relación a lo largo del tiempo. El cuarto objetivo es evaluar la eficacia del método desarrollado en el Capítulo 3 para la predicción a corto plazo de las tasas de incidencia de cáncer, al tiempo que se manejan datos perdidos en las series temporales dada la falta de registros de cáncer en determinadas áreas geográficas. En el Capítulo 4, se lleva a cabo un estudio de validación para evaluar la capacidad predictiva de los modelos tanto para la predicción a futuro como para la predicción de datos faltantes en determinadas áreas, utilizando datos de mortalidad por cáncer de pulmón de los distritos sanitarios administrativos de Inglaterra para la serie temporal que abarca de 2001 a 2019. El quinto objetivo es ofrecer una visión global del suavizado inducida por los modelos espaciales univariantes. Estos modelos llevan implícito cierto grado de suavizado, en virtud del cual, para cualquier área concreta, las estimaciones empíricas de riesgo o incidencia se ajustan hacia una media adecuada o incorporan un suavizado basado en los vecinos. Por lo tanto, aunque la explicación del modelo puede ser el objetivo principal, es crucial examinar el efecto de suavizado de los modelos. Además, un prior espacial particular tiene parámetros y no se ha estudiado cómo la variación de estos parámetros afecta al suavizado inducido. El Capítulo 5 investiga, tanto teórica como empíricamente, el grado de suavizado conseguido por un modelo determinado. El sexto objetivo, transversal a todos los capítulos, materializa nuestro firme compromiso con la reproducibilidad. El código desarrollado en esta tesis se encuentra disponible públicamente en el repositorio de GitHub de nuestro grupo de investigación https://github.com/spatialstatisticsupna. La tesis finaliza con las principales conclusiones y las líneas futuras de investigación.
Disease mapping aims to study geographic patterns and temporal trends of incidence and mortality of different diseases, essentially non-transmissible, such as cancer. Spatio-temporal models for areal data play a crucial role in describing the cancer impact in different populations, helping governments, policy makers, health professionals, and researchers to formulate cost-effective prevention, diagnosis and treatment strategies. However, the analysis of cancer data presents several challenges. On one hand, the lack of cancer incidence registries in certain geographical áreas makes the spatial or temporal analysis of cancer incidence patterns difficult. On the other hand, some cancer types, such as rare cancers, remain understudied due to the limited availability of comprehensive data. This thesis is dedicated to enhancing and developing methodologies to address the challenges associated with both cancer incidence data and the study of rare cancers. It aims to achieve the following primary objectives. The first objective is to focus on challenges associated with cancer data collection and to review the statistical methods used in the literature to deal with these challenges. Chapter 1 provides a general introduction on cancer data to understand the relevance of the problem. This thesis’s second objective is to develop new models that can predict cancer incidence rates in geographic areas lacking cancer registries. This will subsequently allow for national-level cancer incidence estimates. In Chapter 2, we leverage multivariate spatial models commonly employed in the disease mapping literature to predict cancer incidence. The third objective aims to extend the collection of multivariate spatio-temporal models by incorporating adaptable shared interaction terms. This will facilitate a more comprehensive analysis of both incidence and mortality for rare cancer cases. In Chapter 3, a detailed description of the proposed models is provided. These models allow the modulation of spatio-temporal interactions between incidence and mortality, allowing for changes in their relationship over time. The fourth objective is to assess the effectiveness of the models developed in Chapter 3 for short-term forecasting of cancer incidence rates, while handling missing data within the time series given the lack of cancer registries in certain geographical areas. In Chapter 4, a validation study is conducted to assess the predictive ability of the models for both forecasting and predicting missing data, using lung cancer mortality data from England’s administrative healthcare districts for a period covering 2001 to 2019. The fifth objective is to provide a comprehensive overview of the smoothness induced by the spatial univariate models. Implicit in these models is some degree of smoothing, wherein, for any particular unit, empirical risk or incidence estimates are adjusted towards a suitable mean or incorporate neighbour-based smoothing. Hence, while model explanation may be the primary objective, it is crucial to scrutinize the smoothing effect of the models. Further, a particular smoother has parameters and there has been no study regarding how varying these parameters affects the induced smoothing. Chapter 5 investigates, both theoretically and empirically, the extent of smoothing achieved by a given model. The sixth objective is transversal to all chapters. We have a strong commitment with reproducibility, and the code developed in this thesis is publicly available at the GitHub of our research group (https://github.com/spatialstatisticsupna). The thesis ends with the main conclusions and future research lines.
Description
Keywords
Department
Faculty/School
Degree
Doctorate program
Matematikako eta Estatistikako Doktoretza Programa (ED 99/2011)
item.page.cita
item.page.rights
© Todos los derechos reservados
Los documentos de Academica-e están protegidos por derechos de autor con todos los derechos reservados, a no ser que se indique lo contrario.