Skip to content

Commit aaca45f

Browse files
committedApr 1, 2021
correction et mise en forme du cluster
1 parent be7693e commit aaca45f

File tree

1 file changed

+28
-25
lines changed

1 file changed

+28
-25
lines changed
 

‎Prétraitement_ETL/normalize_adressev2.R

+28-25
Original file line numberDiff line numberDiff line change
@@ -24,7 +24,7 @@ pas_verif_a_la_main[,"preci_evs"] <- NULL # o
2424
pas_verif_a_la_main$preci_clb <- substr(pas_verif_a_la_main$preci_clb, 1, 1) # pour homogeneiser
2525

2626
# Ici ce sont ceux qui n'ont pas de comparaison avec evs
27-
de_cotecorrigé.shp <- st_read("data/verif/de_coteMatthieu.geojson")
27+
de_cotecorrigé.shp <- sf::st_read("data/verif/de_coteMatthieu.geojson")
2828
de_cotecorrigé.shp$preci_clb <- substr(de_cotecorrigé.shp$Loc_name, 1, 1)
2929
de_cotecorrigé.shp$distance <- "NA"
3030

@@ -39,9 +39,9 @@ rm(a_garder, adresse_complement, adresse_complement_distance, adresse_filtre, de
3939

4040
###### un cluster pour les gouverner tous =========================================================
4141

42-
aggregat_filter_matthieu <- st_read("data/verif/aggregat_filter_matthieu(1).geojson")
42+
aggregat_filter_matthieu <- sf::st_read("data/verif/aggregat_filter_matthieu(1).geojson")
4343
aggregat_filter_matthieu$source_codage <- "Main"
44-
aggregat_filter_olivier <- st_read("data/verif/aggregat_filter_olivier.geojson")
44+
aggregat_filter_olivier <- sf::st_read("data/verif/aggregat_filter_olivier.geojson")
4545
aggregat_filter_olivier$source_codage <- "Main"
4646

4747
aggregat_filter <- rbind(aggregat_filter_matthieu, aggregat_filter_olivier)
@@ -51,12 +51,12 @@ rm(aggregat_filter_matthieu, aggregat_filter_olivier)
5151
# un peu de nettoyage on garde le cluster le plus large
5252
# on eneleve le cluster si idem == 0 ie n'est pas un cluster et du coup prend la valeur de 0
5353
cluster.shp <- aggregat_filter %>%
54-
mutate(cluster = ifelse(verif == 1, clust_100, 0) ) %>%
55-
filter(cluster != 0) # on retire les non clusters
54+
dplyr::mutate(cluster = ifelse(verif == 1, clust_100, 0) ) %>%
55+
dplyr::filter(cluster != 0) # on retire les non clusters
5656

5757
pas_cluster.shp <- aggregat_filter %>%
58-
mutate(cluster = ifelse(verif == 1, clust_100, 0) ) %>%
59-
filter(cluster == 0) # on garde les clusters
58+
dplyr::mutate(cluster = ifelse(verif == 1, clust_100, 0) ) %>%
59+
dplyr::filter(cluster == 0) # on garde les clusters
6060

6161
rm(aggregat_filter)
6262

@@ -65,13 +65,13 @@ rm(aggregat_filter)
6565
# cas avec deux points et cas avec plus de deux points
6666

6767
centre_cluster <- cluster.shp %>%
68-
filter(comptage_100 >= 2) %>%
69-
group_by(cluster) %>%
70-
distinct(count = n_distinct(geometry) ) %>% # on produit un comptage de geometry distinct
71-
st_drop_geometry() %>%
72-
right_join(cluster.shp, by = "cluster") %>%
68+
dplyr::filter(comptage_100 >= 2) %>%
69+
dplyr::group_by(cluster) %>%
70+
dplyr::summarise(count = dplyr::n_distinct(geometry) ) %>% # on produit un comptage de geometry distinct
71+
sf::st_drop_geometry() %>%
72+
dplyr::right_join(cluster.shp, by = ("cluster" = "cluster")) %>%
7373
ungroup() %>%
74-
st_as_sf(sf_column_name = "geometry")
74+
sf::st_as_sf(sf_column_name = "geometry")
7575

7676

7777
table(centre_cluster$count)
@@ -98,7 +98,7 @@ centre_cluster_ligne <- aggregate(
9898
# match est utilise pour produire un vecteur d'indexation attribuant on va attribuer le point
9999
centre_cluster$geometry[centre_cluster$count == 2] <- st_sfc(centre_cluster_ligne$geometry)[match(centre_cluster$clust_100[centre_cluster$count == 2], centre_cluster_ligne$Group.1)]
100100

101-
#st_write(centre_cluster, "data/verif/verif_cluster.geojson")
101+
st_write(centre_cluster, "data/verif/verif_cluster2.geojson")
102102

103103
# on prepare pour un rajout
104104
transit <- data.frame(
@@ -113,7 +113,7 @@ rm(transit)
113113

114114
# un bout de la futur table de passage
115115
transit_passage <- centre_cluster %>%
116-
st_drop_geometry() %>%
116+
sf::st_drop_geometry() %>%
117117
dplyr::select(addresse_passage, ID_CARTO)
118118

119119
# centre_cluster_clean <- centre_cluster %>%
@@ -127,16 +127,19 @@ transit_passage <- centre_cluster %>%
127127
# puis les rajouter et ceux non definit comme cluster
128128
# # c'est un peu lourd en computation pour ce que cela fait ...
129129
# # il y a l'ajout puis la mise en forme
130-
table_adresse.shp <- adresse_pre_cluster[!adresse_pre_cluster$ID_CARTO %in% centre_cluster$ID_CARTO,] %>%
131-
select(-c(date_start, date_end, commune, adresse, cp, info_sup, nb_cluster, nb_bigcluster)) %>%
132-
bind_rows(centre_cluster_clean) %>%
133-
group_by(adresse_id) %>% # c'est pas ultra propre
134-
summarize(sujet_id = first(sujet_id),
135-
precision = first(precision),
136-
source_codage = first(source_codage)) %>%
137-
dplyr::mutate(adresse_clb = adresse_id) %>%
138-
dplyr::mutate(adresse_id = 1:length(adresse_id)) %>%
139-
dplyr::select(adresse_id, sujet_id, adresse_clb, precision, source_codage)
130+
table_adresse.shp <- adresse_pre_cluster[!adresse_pre_cluster$ID_CARTO %in% centre_cluster$ID_CARTO,]
131+
132+
133+
# %>%
134+
# select(-c(date_start, date_end, commune, adresse, cp, info_sup, nb_cluster, nb_bigcluster)) %>%
135+
# bind_rows(centre_cluster_clean) %>%
136+
# group_by(adresse_id) %>% # c'est pas ultra propre
137+
# summarize(sujet_id = first(sujet_id),
138+
# precision = first(precision),
139+
# source_codage = first(source_codage)) %>%
140+
# dplyr::mutate(adresse_clb = adresse_id) %>%
141+
# dplyr::mutate(adresse_id = 1:length(adresse_id)) %>%
142+
# dplyr::select(adresse_id, sujet_id, adresse_clb, precision, source_codage)
140143
#
141144
# # il y a des id de sujet avec des fautes de frappes à corriger
142145
# # oui j'ai verifier 08_006X

0 commit comments

Comments
 (0)
Please sign in to comment.