diff --git a/pyproject.toml b/pyproject.toml index eb4e874..e302b36 100644 --- a/pyproject.toml +++ b/pyproject.toml @@ -1,6 +1,6 @@ [tool.poetry] name = "sloyka" -version = "0.1.4" +version = "0.1.6" description = "Library for city identity analysis from social media posts and comments" authors = ["sandrro, georgekontsevik"] readme = "README.md" diff --git a/sloyka/src/utils/constants.py b/sloyka/src/utils/constants.py index bac36d3..fa1a2c0 100644 --- a/sloyka/src/utils/constants.py +++ b/sloyka/src/utils/constants.py @@ -18,6 +18,8 @@ "проезде", "дорога", "дороге", + "линия", + "линии" ] REPLACEMENT_DICT = { "пр": "проспект", @@ -28,6 +30,7 @@ "площади": "площадь", "проезде": "проезд", "дороге": "дорога", + "линии": "линия" } GLOBAL_CRS = 4326 diff --git a/sloyka/src/utils/data_getter/street_getter.py b/sloyka/src/utils/data_getter/street_getter.py index 43cf5a6..bd43394 100644 --- a/sloyka/src/utils/data_getter/street_getter.py +++ b/sloyka/src/utils/data_getter/street_getter.py @@ -83,7 +83,7 @@ def drop_words_from_name(x: str) -> str: r"путепровод|улица|набережная реки|проспект" r"|бульвар|мост|переулок|площадь|переулок" r"|набережная|канала|канал|дорога на|дорога в" - r"|шоссе|аллея|проезд", + r"|шоссе|аллея|проезд|линия", x, ) lst.remove("") diff --git a/tests/test_geocoder.py b/tests/test_geocoder.py index 31bea62..e55e374 100644 --- a/tests/test_geocoder.py +++ b/tests/test_geocoder.py @@ -6,7 +6,7 @@ def sample_dataframe(): s_data = { "text": [ - "Рубинштейна 25 дворовую территорию уберите, где работники?" + "Биржевая линия 16 дворовую территорию уберите, где работники?" ] } return pd.DataFrame(s_data) @@ -17,5 +17,5 @@ def test_run_function(sample_dataframe): result_df = instance.run(df=sample_dataframe) - assert result_df.loc[0, "Street"] == "рубинштейна" - assert result_df.loc[0, "Numbers"] == "25" \ No newline at end of file + assert result_df.loc[0, "Street"] == "Биржевая" + assert result_df.loc[0, "Numbers"] == "16"