Incendios Forestales en Cataluña

Obtención del conjunto de datos

Los datos utilizados en el en la investigación provienen de las siguientes fuentes de datos abiertas y anonimizadas:

Servicio Meteorológico de Catalunya (Meteocat):, que nos proporciona:
- Datos meteorológicos: variables medidas con una frecuencia diaria, registrados en todas las estaciones de la red de estaciones meteorológicas automáticas de Catalunya.
- Ocurrencia de incendios: registros de los incendios forestales reportados de Cataluña, el municipio y comarca donde se produce, la fecha y las hectáreas afectadas. Se crea la variable Incendio que nos dirá si para un día determinado hubo incendio “1” o no “0”.
Agencia Estatal de meteorología (Aemet):, nos proporciona valores meteorológicos diarios en distintas estaciones de toda España.
Gencat - Departamento de Agricultura: tabla de atributos del Mapa .SHP de Riesgo de Incendios Forestales en la comunidad de Cataluña.
Instituto de Estadística de Cataluña: contempla la tabla de Superficie y pendientes de las Comarcas de Cataluña.
Instituto Nacional de Estadística:
- Codigos de municipios Ine-Mitma
- Codigos de Comunidades autonomas y provincias
Ministerio de Transporte y Movilidad Urbana:, que nos proporciona datos sobre la movilidad urbana durante el periodo de 02/2020 – 05/2021 y está constituida datos anonimizados asociados a los registros de conexión de los dispositivos móviles con la red de telefonía móvil.

Transformacion de Datos

Se realiza un pivot de la tabla de meteocat para unir las variables del clima con los valores medidos por las estaciones
Se unen tablas de valores climatologicos de aemet y meteocat
Se filtra la comunidad autonoma de Cataluña
Se imputan valores del codigo de municipio de la tabla del INE
Se añade la variable de Altitud
Se añade la variable Pendiente
Se añade la variable Riesgo de incendio
Se realizan transformaciones en los datos de Movilidad mitma como:
- Incluimos el codigo_destino del municipio
- Incluimos el codigo_origen del municipio

Exploracion de Datos:

Valores faltantes /nulos
Tipos de datos en cada variable
Desbalanceo de Clases
Correlacion
Estacionalidad (Autocorrelacion) https://www.datainsightonline.com/post/cross-correlation-with-two-time-series-in-python

Red Neuronal Artificial LSTM

La aplicación de Redes Neuronales Artificiales a la predicción de series temporales especificamente redes Long Short Term Memory (LSTM) se realiza en esta investigación de acuerdo a las siguientes etapas:

Búsqueda de las variables de entrada

Esta etapa tiene como objetivo identificar las variables de entrada en la red neuronal.

Preparación del conjunto de datos

Esta etapa tiene como objetivo realizar la division y normalización de datos en el intervalo [0, 1].

Creación de la red

Esta etapa tiene como objetivo determinar cada elemento que compone la arquitectura de la red.

Entrenamiento

En esta etapa se define el algoritmo de entrenamiento y los parámetros de configuración propios de éste.

Validación

Esta etapa tiene como objetivo realizar la validación del proceso de aprendizaje de la red. Se presenta a la red el conjunto de datos seleccionados para este fin y se obtienen los valores de la predicción del siguiente periodo para cada patrón de datos.

Cálculo de los factores de comparación

El objetivo de esta etapa consiste en calcular los factores que serán utilizados en el análisis de los resultados al comparar los distintos modelos obtenidos a partir de la inclusion de variables predictoras y elegir la más efectiva en la predicción.

Para llevar a cabo esta tarea se obtienen los siguientes factores:

+ Exahustuvidad      
+ Presicion 
+ Exactitud
+ Representación gráfica de la matriz de confusion.

Modelos Xgboost

Extreme Gradient Boosting (XGBoost) es un método basado en un clasificador de árboles de decisión los cuales se usan como un modelo débil que mejoran continuamente de los cuales a partir de estos se crean las predicciones. El XGBoost introduce el término de regularización en la función objetivo para evitar el sobreajuste.

Para este modelo hemos utilizado número de estimadores 500, lo que quiere decir la cantidad de árboles que utiliza el modelo, una profundidad máxima que pueden alcanzar los árboles se ha fijado entre 5 y 20, la tasa de aprendizaje la hemos fijado en 0.0001 para reducir el riesgo de overfitting y considerando que la cantidad de arboles fijados es suficiente. También, se especifica el objetivo de aprendizaje correspondiente a binary:logistic para clasificación binaria.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
1. EXTRACCION		1. EXTRACCION
2. TRANSFORMACION		2. TRANSFORMACION
3. EDA		3. EDA
4. Modelos LSTM		4. Modelos LSTM
5. Modelos XGboost		5. Modelos XGboost
README.md		README.md
Resultados_Modelos.pdf		Resultados_Modelos.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Incendios Forestales en Cataluña

Obtención del conjunto de datos

Transformacion de Datos

Exploracion de Datos:

Red Neuronal Artificial LSTM

Modelos Xgboost

About

Releases

Packages

Languages

Nathifer/Incendios-Forestales-Movilidad-Urbana

Folders and files

Latest commit

History

Repository files navigation

Incendios Forestales en Cataluña

Obtención del conjunto de datos

Transformacion de Datos

Exploracion de Datos:

Red Neuronal Artificial LSTM

Modelos Xgboost

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages