Los datos utilizados en el en la investigación provienen de las siguientes fuentes de datos abiertas y anonimizadas:
-
Servicio Meteorológico de Catalunya (Meteocat):, que nos proporciona:
- Datos meteorológicos: variables medidas con una frecuencia diaria, registrados en todas las estaciones de la red de estaciones meteorológicas automáticas de Catalunya.
- Ocurrencia de incendios: registros de los incendios forestales reportados de Cataluña, el municipio y comarca donde se produce, la fecha y las hectáreas afectadas. Se crea la variable Incendio que nos dirá si para un día determinado hubo incendio “1” o no “0”.
-
Agencia Estatal de meteorología (Aemet):, nos proporciona valores meteorológicos diarios en distintas estaciones de toda España.
-
Gencat - Departamento de Agricultura: tabla de atributos del Mapa .SHP de Riesgo de Incendios Forestales en la comunidad de Cataluña.
-
Instituto de Estadística de Cataluña: contempla la tabla de Superficie y pendientes de las Comarcas de Cataluña.
-
Instituto Nacional de Estadística:
- Codigos de municipios Ine-Mitma
- Codigos de Comunidades autonomas y provincias
-
Ministerio de Transporte y Movilidad Urbana:, que nos proporciona datos sobre la movilidad urbana durante el periodo de 02/2020 – 05/2021 y está constituida datos anonimizados asociados a los registros de conexión de los dispositivos móviles con la red de telefonía móvil.
- Se realiza un pivot de la tabla de meteocat para unir las variables del clima con los valores medidos por las estaciones
- Se unen tablas de valores climatologicos de aemet y meteocat
- Se filtra la comunidad autonoma de Cataluña
- Se imputan valores del codigo de municipio de la tabla del INE
- Se añade la variable de Altitud
- Se añade la variable Pendiente
- Se añade la variable Riesgo de incendio
- Se realizan transformaciones en los datos de Movilidad mitma como:
- Incluimos el codigo_destino del municipio
- Incluimos el codigo_origen del municipio
- Valores faltantes /nulos
- Tipos de datos en cada variable
- Desbalanceo de Clases
- Correlacion
- Estacionalidad (Autocorrelacion) https://www.datainsightonline.com/post/cross-correlation-with-two-time-series-in-python
La aplicación de Redes Neuronales Artificiales a la predicción de series temporales especificamente redes Long Short Term Memory (LSTM) se realiza en esta investigación de acuerdo a las siguientes etapas:
- Búsqueda de las variables de entrada
Esta etapa tiene como objetivo identificar las variables de entrada en la red neuronal.
- Preparación del conjunto de datos
Esta etapa tiene como objetivo realizar la division y normalización de datos en el intervalo [0, 1].
- Creación de la red
Esta etapa tiene como objetivo determinar cada elemento que compone la arquitectura de la red.
- Entrenamiento
En esta etapa se define el algoritmo de entrenamiento y los parámetros de configuración propios de éste.
- Validación
Esta etapa tiene como objetivo realizar la validación del proceso de aprendizaje de la red. Se presenta a la red el conjunto de datos seleccionados para este fin y se obtienen los valores de la predicción del siguiente periodo para cada patrón de datos.
- Cálculo de los factores de comparación
El objetivo de esta etapa consiste en calcular los factores que serán utilizados en el análisis de los resultados al comparar los distintos modelos obtenidos a partir de la inclusion de variables predictoras y elegir la más efectiva en la predicción.
Para llevar a cabo esta tarea se obtienen los siguientes factores:
+ Exahustuvidad
+ Presicion
+ Exactitud
+ Representación gráfica de la matriz de confusion.
Extreme Gradient Boosting (XGBoost) es un método basado en un clasificador de árboles de decisión los cuales se usan como un modelo débil que mejoran continuamente de los cuales a partir de estos se crean las predicciones. El XGBoost introduce el término de regularización en la función objetivo para evitar el sobreajuste.
Para este modelo hemos utilizado número de estimadores 500, lo que quiere decir la cantidad de árboles que utiliza el modelo, una profundidad máxima que pueden alcanzar los árboles se ha fijado entre 5 y 20, la tasa de aprendizaje la hemos fijado en 0.0001 para reducir el riesgo de overfitting y considerando que la cantidad de arboles fijados es suficiente. También, se especifica el objetivo de aprendizaje correspondiente a binary:logistic para clasificación binaria.