correction et mise en forme du cluster

defuneste · defuneste · commit aaca45f18ce1 · 2021-04-01T16:29:40.000+02:00
diff --git a/Prétraitement_ETL/normalize_adressev2.R b/Prétraitement_ETL/normalize_adressev2.R
@@ -24,7 +24,7 @@ pas_verif_a_la_main[,"preci_evs"] <- NULL                                    # o
 pas_verif_a_la_main$preci_clb <- substr(pas_verif_a_la_main$preci_clb, 1, 1) # pour homogeneiser 
 
 # Ici ce sont ceux qui n'ont pas de comparaison avec evs
-de_cotecorrigé.shp <- st_read("data/verif/de_coteMatthieu.geojson")
+de_cotecorrigé.shp <- sf::st_read("data/verif/de_coteMatthieu.geojson")
 de_cotecorrigé.shp$preci_clb <- substr(de_cotecorrigé.shp$Loc_name, 1, 1)
 de_cotecorrigé.shp$distance  <-  "NA"
 
@@ -39,9 +39,9 @@ rm(a_garder, adresse_complement, adresse_complement_distance, adresse_filtre, de
 
 ###### un cluster pour les gouverner tous =========================================================
 
-aggregat_filter_matthieu <- st_read("data/verif/aggregat_filter_matthieu(1).geojson")
+aggregat_filter_matthieu <- sf::st_read("data/verif/aggregat_filter_matthieu(1).geojson")
 aggregat_filter_matthieu$source_codage <- "Main"
-aggregat_filter_olivier <- st_read("data/verif/aggregat_filter_olivier.geojson")
+aggregat_filter_olivier <- sf::st_read("data/verif/aggregat_filter_olivier.geojson")
 aggregat_filter_olivier$source_codage <- "Main"
 
 aggregat_filter <- rbind(aggregat_filter_matthieu, aggregat_filter_olivier)
@@ -51,12 +51,12 @@ rm(aggregat_filter_matthieu, aggregat_filter_olivier)
 # un peu de nettoyage on garde le cluster le plus large
 # on eneleve le cluster si idem == 0 ie n'est pas un cluster et du coup prend la valeur de 0
 cluster.shp <- aggregat_filter %>%
-    mutate(cluster = ifelse(verif == 1, clust_100, 0) ) %>%
-    filter(cluster != 0) # on retire les non clusters
+    dplyr::mutate(cluster = ifelse(verif == 1, clust_100, 0) ) %>%
+    dplyr::filter(cluster != 0) # on retire les non clusters
 
 pas_cluster.shp <-  aggregat_filter %>%
-    mutate(cluster = ifelse(verif == 1, clust_100, 0) ) %>%
-    filter(cluster == 0) # on garde les clusters
+    dplyr::mutate(cluster = ifelse(verif == 1, clust_100, 0) ) %>%
+    dplyr::filter(cluster == 0) # on garde les clusters
 
 rm(aggregat_filter)
 
@@ -65,13 +65,13 @@ rm(aggregat_filter)
 # cas avec deux points et cas avec plus de deux points
 
 centre_cluster <- cluster.shp %>%
-    filter(comptage_100 >= 2) %>%
-    group_by(cluster) %>%
-    distinct(count = n_distinct(geometry) ) %>% # on produit un comptage de geometry distinct
-    st_drop_geometry() %>%
-    right_join(cluster.shp, by = "cluster") %>%
+    dplyr::filter(comptage_100 >= 2) %>%
+    dplyr::group_by(cluster) %>%
+    dplyr::summarise(count = dplyr::n_distinct(geometry) ) %>% # on produit un comptage de geometry distinct
+    sf::st_drop_geometry() %>%
+    dplyr::right_join(cluster.shp, by = ("cluster" = "cluster")) %>%
     ungroup() %>%
-    st_as_sf(sf_column_name = "geometry")
+    sf::st_as_sf(sf_column_name = "geometry")
 
 
 table(centre_cluster$count)
@@ -98,7 +98,7 @@ centre_cluster_ligne <- aggregate(
 # match est utilise pour produire un vecteur d'indexation attribuant on va attribuer le point
 centre_cluster$geometry[centre_cluster$count == 2] <- st_sfc(centre_cluster_ligne$geometry)[match(centre_cluster$clust_100[centre_cluster$count == 2],  centre_cluster_ligne$Group.1)]
     
-#st_write(centre_cluster, "data/verif/verif_cluster.geojson")
+st_write(centre_cluster, "data/verif/verif_cluster2.geojson")
 
 # on prepare pour un rajout
 transit <- data.frame(
@@ -113,7 +113,7 @@ rm(transit)
 
 # un bout de la futur table de passage
 transit_passage <- centre_cluster %>%
-    st_drop_geometry() %>%
+    sf::st_drop_geometry() %>%
     dplyr::select(addresse_passage, ID_CARTO)  
 
 # centre_cluster_clean <- centre_cluster %>%
@@ -127,16 +127,19 @@ transit_passage <- centre_cluster %>%
 # puis les rajouter et ceux non definit comme cluster
 # # c'est un peu lourd en computation pour ce que cela fait ...
 # # il y a l'ajout puis la mise en forme
-table_adresse.shp <- adresse_pre_cluster[!adresse_pre_cluster$ID_CARTO %in% centre_cluster$ID_CARTO,] %>%
-    select(-c(date_start, date_end, commune, adresse, cp, info_sup,  nb_cluster, nb_bigcluster)) %>%
-    bind_rows(centre_cluster_clean) %>%
-    group_by(adresse_id) %>% # c'est pas ultra propre
-    summarize(sujet_id = first(sujet_id),
-              precision = first(precision),
-              source_codage = first(source_codage)) %>%
-    dplyr::mutate(adresse_clb = adresse_id) %>%
-    dplyr::mutate(adresse_id = 1:length(adresse_id))  %>%
-    dplyr::select(adresse_id, sujet_id, adresse_clb, precision, source_codage)
+table_adresse.shp <- adresse_pre_cluster[!adresse_pre_cluster$ID_CARTO %in% centre_cluster$ID_CARTO,] 
+
+
+# %>%
+#     select(-c(date_start, date_end, commune, adresse, cp, info_sup,  nb_cluster, nb_bigcluster)) %>%
+#     bind_rows(centre_cluster_clean) %>%
+#     group_by(adresse_id) %>% # c'est pas ultra propre
+#     summarize(sujet_id = first(sujet_id),
+#               precision = first(precision),
+#               source_codage = first(source_codage)) %>%
+#     dplyr::mutate(adresse_clb = adresse_id) %>%
+#     dplyr::mutate(adresse_id = 1:length(adresse_id))  %>%
+#     dplyr::select(adresse_id, sujet_id, adresse_clb, precision, source_codage)
 # 
 # # il y a des id de sujet avec  des fautes de frappes à corriger
 # # oui j'ai verifier 08_006X