Merge branch 'main' of https://github.com/MobileTeleSystems/RecTools into release/0.10.0

Daria Tikhonovich · Daria Tikhonovich · commit a3b2112d0916 · 2025-01-16T13:09:09.000+03:00
diff --git a/rectools/models/implicit_bpr.py b/rectools/models/implicit_bpr.py
@@ -101,6 +101,9 @@ class ImplicitBPRWrapperModel(VectorModel[ImplicitBPRWrapperModelConfig]):
 
     See https://benfred.github.io/implicit/api/models/cpu/bpr.html for details of the base model.
 
+    Please note that implicit BPR model training is not deterministic with num_threads > 1 or use_gpu=True.
+    https://github.com/benfred/implicit/issues/710
+
     Parameters
     ----------
     model : BayesianPersonalizedRanking
diff --git a/tests/models/test_implicit_bpr.py b/tests/models/test_implicit_bpr.py
@@ -40,6 +40,10 @@
     assert_second_fit_refits_model,
 )
 
+# Note that num_threads > 1 for BayesianPersonalizedRanking CPU training will make model training undeterministic
+# https://github.com/benfred/implicit/issues/710
+# GPU training is always underministic
+
 
 @pytest.mark.parametrize("use_gpu", (False, True) if HAS_CUDA else (False,))
 class TestImplicitBPRWrapperModel:
@@ -71,7 +75,7 @@ def dataset(self) -> Dataset:
                 pd.DataFrame(
                     {
                         Columns.User: [10, 10, 20, 20],
-                        Columns.Item: [17, 15, 17, 15],
+                        Columns.Item: [17, 13, 17, 15],
                         Columns.Rank: [1, 2, 1, 2],
                     }
                 ),
@@ -111,7 +115,7 @@ def test_basic(
         use_gpu: bool,
     ) -> None:
         base_model = BayesianPersonalizedRanking(
-            factors=2, num_threads=2, iterations=100, use_gpu=use_gpu, random_state=42
+            factors=2, num_threads=1, iterations=100, use_gpu=use_gpu, random_state=42
         )
         self._init_model_factors_inplace(base_model, dataset)
         model = ImplicitBPRWrapperModel(model=base_model).fit(dataset)
@@ -130,7 +134,7 @@ def test_basic(
 
     def test_consistent_with_pure_implicit(self, dataset: Dataset, use_gpu: bool) -> None:
         base_model = BayesianPersonalizedRanking(
-            factors=2, num_threads=2, iterations=100, use_gpu=use_gpu, random_state=42
+            factors=2, num_threads=1, iterations=100, use_gpu=use_gpu, random_state=42
         )
         self._init_model_factors_inplace(base_model, dataset)
         users = np.array([10, 20, 30, 40])
@@ -164,7 +168,7 @@ def test_gpu_ranking_consistent_with_pure_implicit(
         use_gpu: bool,
     ) -> None:
         base_model = BayesianPersonalizedRanking(
-            factors=2, num_threads=2, iterations=100, use_gpu=False, random_state=42
+            factors=2, num_threads=1, iterations=100, use_gpu=False, random_state=42
         )
         self._init_model_factors_inplace(base_model, dataset)
         users = np.array([10, 20, 30, 40])
@@ -219,7 +223,7 @@ def test_with_whitelist(
         use_gpu: bool,
     ) -> None:
         base_model = BayesianPersonalizedRanking(
-            factors=32, num_threads=2, iterations=100, use_gpu=use_gpu, random_state=42
+            factors=32, num_threads=1, iterations=100, use_gpu=use_gpu, random_state=42
         )
         model = ImplicitBPRWrapperModel(model=base_model).fit(dataset)
         actual = model.recommend(
@@ -279,7 +283,7 @@ def test_i2i(
         use_gpu: bool,
     ) -> None:
         base_model = BayesianPersonalizedRanking(
-            factors=2, num_threads=2, iterations=100, use_gpu=use_gpu, random_state=1
+            factors=2, num_threads=1, iterations=100, use_gpu=use_gpu, random_state=1
         )
         self._init_model_factors_inplace(base_model, dataset)
         model = ImplicitBPRWrapperModel(model=base_model).fit(dataset)
@@ -297,8 +301,6 @@ def test_i2i(
         )
 
     def test_second_fit_refits_model(self, dataset: Dataset, use_gpu: bool) -> None:
-        # note that num_threads > 1 will make model training undeterministic
-        # https://github.com/benfred/implicit/issues/710
         # GPU training is always nondeterministic so we only test for CPU training
         if use_gpu:
             pytest.skip("BPR is nondeterministic on GPU")
@@ -312,7 +314,7 @@ def set_random_state() -> None:
         assert_second_fit_refits_model(model, dataset, set_random_state)
 
     def test_dumps_loads(self, dataset: Dataset, use_gpu: bool) -> None:
-        base_model = BayesianPersonalizedRanking(factors=8, num_threads=2, use_gpu=use_gpu, random_state=1)
+        base_model = BayesianPersonalizedRanking(factors=8, num_threads=1, use_gpu=use_gpu, random_state=1)
         model = ImplicitBPRWrapperModel(model=base_model).fit(dataset)
         assert_dumps_loads_do_not_change_model(model, dataset)
 
@@ -503,8 +505,6 @@ def test_custom_model_class(self) -> None:
     def test_get_config_and_from_config_compatibility(
         self, simple_types: bool, recommend_use_gpu: tp.Optional[bool], recommend_n_threads: tp.Optional[int]
     ) -> None:
-        # note that num_threads > 1 will make model training undeterministic
-        # https://github.com/benfred/implicit/issues/710
         initial_config = {
             "model": {"factors": 4, "num_threads": 1, "iterations": 2, "random_state": 42},
             "verbose": 1,