microsoft · ClaudioSalvatoreArcidiacono · Sep 15, 2023 · Sep 18, 2023 · Sep 20, 2023 · Jan 16, 2024
@@ -244,6 +244,10 @@ This works with both metrics to minimize (L2, log loss, etc.) and to maximize (N
 Note that if you specify more than one evaluation metric, all of them will be used for early stopping.
 However, you can change this behavior and make LightGBM check only the first metric for early stopping by passing ``first_metric_only=True`` in ``early_stopping`` callback constructor.
 
+In the scikit-learn API of lightgbm, early stopping can also be enabled by setting the parameter ``early_stopping`` to ``True``
+When early stopping is enabled and no validation set is provided, a portion of the training data will be used as validation set.
+The amount of data to use for validation is controlled by the parameter ``validation_fraction`` and defaults to 0.1.
+
 Prediction
 ----------
 

@@ -1134,6 +1134,9 @@ def __init__(
         random_state: Optional[Union[int, np.random.RandomState, "np.random.Generator"]] = None,
         n_jobs: Optional[int] = None,
         importance_type: str = "split",
+        early_stopping: bool = False,
+        n_iter_no_change: int = 10,
+        validation_fraction: Optional[float] = 0.1,
         client: Optional[Client] = None,
         **kwargs: Any,
     ):
@@ -1337,6 +1340,9 @@ def __init__(
         random_state: Optional[Union[int, np.random.RandomState, "np.random.Generator"]] = None,
         n_jobs: Optional[int] = None,
         importance_type: str = "split",
+        early_stopping: bool = False,
+        n_iter_no_change: int = 10,
+        validation_fraction: Optional[float] = 0.1,
         client: Optional[Client] = None,
         **kwargs: Any,
     ):
@@ -1504,6 +1510,9 @@ def __init__(
         random_state: Optional[Union[int, np.random.RandomState, "np.random.Generator"]] = None,
         n_jobs: Optional[int] = None,
         importance_type: str = "split",
+        early_stopping: bool = False,
+        n_iter_no_change: int = 10,
+        validation_fraction: Optional[float] = 0.1,
         client: Optional[Client] = None,
         **kwargs: Any,
     ):

@@ -510,11 +510,9 @@ def _make_n_folds(
     nfold: int,
     params: Dict[str, Any],
     seed: int,
-    fpreproc: Optional[_LGBM_PreprocFunction],
     stratified: bool,
     shuffle: bool,
-    eval_train_metric: bool,
-) -> CVBooster:
+) -> Iterable[Tuple[np.ndarray, np.ndarray]]:
     """Make a n-fold list of Booster from random indices."""
     full_data = full_data.construct()
     num_data = full_data.num_data()
@@ -559,7 +557,16 @@ def _make_n_folds(
             test_id = [randidx[i : i + kstep] for i in range(0, num_data, kstep)]
             train_id = [np.concatenate([test_id[i] for i in range(nfold) if k != i]) for k in range(nfold)]
             folds = zip(train_id, test_id)
+    return folds
 
+
+def _make_cvbooster(
+    full_data: Dataset,
+    params: Dict[str, Any],
+    folds: Iterable[Tuple[np.ndarray, np.ndarray]],
+    fpreproc: Optional[_LGBM_PreprocFunction],
+    eval_train_metric: bool,
+) -> CVBooster:
     ret = CVBooster()
     for train_idx, test_idx in folds:
         train_set = full_data.subset(sorted(train_idx))
@@ -764,10 +771,11 @@ def cv(
         nfold=nfold,
         params=params,
         seed=seed,
-        fpreproc=fpreproc,
         stratified=stratified,
         shuffle=shuffle,
-        eval_train_metric=eval_train_metric,
+    )
+    cvbooster = _make_cvbooster(
+        full_data=train_set, params=params, folds=cvfolds, fpreproc=fpreproc, eval_train_metric=eval_train_metric
     )
 
     # setup callbacks
@@ -802,24 +810,24 @@ def cv(
         for cb in callbacks_before_iter:
             cb(
                 callback.CallbackEnv(
-                    model=cvfolds,
+                    model=cvbooster,
                     params=params,
                     iteration=i,
                     begin_iteration=0,
                     end_iteration=num_boost_round,
                     evaluation_result_list=None,
                 )
             )
-        cvfolds.update(fobj=fobj)  # type: ignore[call-arg]
-        res = _agg_cv_result(cvfolds.eval_valid(feval))  # type: ignore[call-arg]
+        cvbooster.update(fobj=fobj)  # type: ignore[call-arg]
+        res = _agg_cv_result(cvbooster.eval_valid(feval))  # type: ignore[call-arg]
         for _, key, mean, _, std in res:
             results[f"{key}-mean"].append(mean)
             results[f"{key}-stdv"].append(std)
         try:
             for cb in callbacks_after_iter:
                 cb(
                     callback.CallbackEnv(
-                        model=cvfolds,
+                        model=cvbooster,
                         params=params,
                         iteration=i,
                         begin_iteration=0,
@@ -828,14 +836,14 @@ def cv(
                     )
                 )
         except callback.EarlyStopException as earlyStopException:
-            cvfolds.best_iteration = earlyStopException.best_iteration + 1
-            for bst in cvfolds.boosters:
-                bst.best_iteration = cvfolds.best_iteration
+            cvbooster.best_iteration = earlyStopException.best_iteration + 1
+            for bst in cvbooster.boosters:
+                bst.best_iteration = cvbooster.best_iteration
             for k in results:
-                results[k] = results[k][: cvfolds.best_iteration]
+                results[k] = results[k][: cvbooster.best_iteration]
             break
 
     if return_cvbooster:
-        results["cvbooster"] = cvfolds  # type: ignore[assignment]
+        results["cvbooster"] = cvbooster  # type: ignore[assignment]
 
     return dict(results)
@@ -46,7 +46,7 @@
     dt_DataTable,
     pd_DataFrame,
 )
-from .engine import train
+from .engine import _make_n_folds, train
 
 if TYPE_CHECKING:
     from .compat import _sklearn_Tags
@@ -509,7 +509,10 @@ def __init__(
         random_state: Optional[Union[int, np.random.RandomState, np.random.Generator]] = None,
         n_jobs: Optional[int] = None,
         importance_type: str = "split",
-        **kwargs: Any,
+        early_stopping: bool = False,
-        early_stopping: bool = False,
+        *,
+        early_stopping: bool = False,
-        early_stopping: bool = False,
+        *,
+        early_stopping: bool = False,
+        n_iter_no_change: int = 10,
+        validation_fraction: Optional[float] = 0.1,
+        **kwargs,
-        **kwargs,
+        **kwargs: Any,
-        **kwargs,
+        **kwargs: Any,
     ):
         r"""Construct a gradient boosting model.
 
@@ -589,6 +592,16 @@ def __init__(
             The type of feature importance to be filled into ``feature_importances_``.
             If 'split', result contains numbers of times the feature is used in a model.
             If 'gain', result contains total gains of splits which use the feature.
+        early_stopping : bool, optional (default=False)
+            Whether to enable early stopping. If set to True, training will stop if the validation score does not improve
+            for a specified number of rounds (controlled by `n_iter_no_change`).
+        n_iter_no_change : int, optional (default=10)
+            If early stopping is enabled, this parameter specifies the number of iterations with no
+            improvement after which training will be stopped.
+        validation_fraction : float or None, optional (default=0.1)
+            Proportion of training data to set aside as
+            validation data for early stopping. If None, early stopping is done on
+            the training data. Only used if early stopping is performed.
         **kwargs
             Other parameters for the model.
             Check http://lightgbm.readthedocs.io/en/latest/Parameters.html for more parameters.
@@ -653,6 +666,9 @@ def __init__(
         self.random_state = random_state
         self.n_jobs = n_jobs
         self.importance_type = importance_type
+        self.early_stopping = early_stopping
+        self.n_iter_no_change = n_iter_no_change
+        self.validation_fraction = validation_fraction
         self._Booster: Optional[Booster] = None
         self._evals_result: _EvalResultDict = {}
         self._best_score: _LGBM_BoosterBestScoreType = {}
@@ -812,11 +828,19 @@ def _process_params(self, stage: str) -> Dict[str, Any]:
         params.pop("importance_type", None)
         params.pop("n_estimators", None)
         params.pop("class_weight", None)
+        params.pop("validation_fraction", None)
+        params.pop("early_stopping", None)
+        params.pop("n_iter_no_change", None)
 
         if isinstance(params["random_state"], np.random.RandomState):
             params["random_state"] = params["random_state"].randint(np.iinfo(np.int32).max)
         elif isinstance(params["random_state"], np.random.Generator):
             params["random_state"] = int(params["random_state"].integers(np.iinfo(np.int32).max))
+
+        params = _choose_param_value("early_stopping_round", params, self.n_iter_no_change)
+        if self.early_stopping is not True:
+            params["early_stopping_round"] = None
-        if self.early_stopping is not True:
-            params["early_stopping_round"] = None
-        if self.early_stopping is not True:
-            params["early_stopping_round"] = None
+
         if self._n_classes > 2:
             for alias in _ConfigAliases.get("num_class"):
                 params.pop(alias, None)
@@ -953,54 +977,75 @@ def fit(
             params=params,
         )
 
-        valid_sets: List[Dataset] = []
-        if eval_set is not None:
-            if isinstance(eval_set, tuple):
-                eval_set = [eval_set]
-            for i, valid_data in enumerate(eval_set):
-                # reduce cost for prediction training data
-                if valid_data[0] is X and valid_data[1] is y:
-                    valid_set = train_set
-                else:
-                    valid_weight = _extract_evaluation_meta_data(
-                        collection=eval_sample_weight,
-                        name="eval_sample_weight",
-                        i=i,
-                    )
-                    valid_class_weight = _extract_evaluation_meta_data(
-                        collection=eval_class_weight,
-                        name="eval_class_weight",
-                        i=i,
-                    )
-                    if valid_class_weight is not None:
-                        if isinstance(valid_class_weight, dict) and self._class_map is not None:
-                            valid_class_weight = {self._class_map[k]: v for k, v in valid_class_weight.items()}
-                        valid_class_sample_weight = _LGBMComputeSampleWeight(valid_class_weight, valid_data[1])
-                        if valid_weight is None or len(valid_weight) == 0:
-                            valid_weight = valid_class_sample_weight
-                        else:
-                            valid_weight = np.multiply(valid_weight, valid_class_sample_weight)
-                    valid_init_score = _extract_evaluation_meta_data(
-                        collection=eval_init_score,
-                        name="eval_init_score",
-                        i=i,
-                    )
-                    valid_group = _extract_evaluation_meta_data(
-                        collection=eval_group,
-                        name="eval_group",
-                        i=i,
-                    )
-                    valid_set = Dataset(
-                        data=valid_data[0],
-                        label=valid_data[1],
-                        weight=valid_weight,
-                        group=valid_group,
-                        init_score=valid_init_score,
-                        categorical_feature="auto",
-                        params=params,
-                    )
-
-                valid_sets.append(valid_set)
+        if self.early_stopping is True and eval_set is None:
+            if self.validation_fraction is not None:
+                n_splits = max(int(np.ceil(1 / self.validation_fraction)), 2)
+                stratified = isinstance(self, LGBMClassifier)
+                cvfolds = _make_n_folds(
+                    full_data=train_set,
+                    folds=None,
+                    nfold=n_splits,
+                    params=params,
+                    seed=self.random_state,
+                    stratified=stratified,
+                    shuffle=True,
+                )
+                train_idx, val_idx = next(cvfolds)
+                valid_set = train_set.subset(sorted(val_idx))
+                train_set = train_set.subset(sorted(train_idx))
+            else:
+                valid_set = train_set
+            valid_set = valid_set.construct()
+            valid_sets = [valid_set]
+        else:
+            valid_sets: List[Dataset] = []
+            if eval_set is not None:
+                if isinstance(eval_set, tuple):
+                    eval_set = [eval_set]
+                for i, valid_data in enumerate(eval_set):
+                    # reduce cost for prediction training data
+                    if valid_data[0] is X and valid_data[1] is y:
+                        valid_set = train_set
+                    else:
+                        valid_weight = _extract_evaluation_meta_data(
+                            collection=eval_sample_weight,
+                            name="eval_sample_weight",
+                            i=i,
+                        )
+                        valid_class_weight = _extract_evaluation_meta_data(
+                            collection=eval_class_weight,
+                            name="eval_class_weight",
+                            i=i,
+                        )
+                        if valid_class_weight is not None:
+                            if isinstance(valid_class_weight, dict) and self._class_map is not None:
+                                valid_class_weight = {self._class_map[k]: v for k, v in valid_class_weight.items()}
+                            valid_class_sample_weight = _LGBMComputeSampleWeight(valid_class_weight, valid_data[1])
+                            if valid_weight is None or len(valid_weight) == 0:
+                                valid_weight = valid_class_sample_weight
+                            else:
+                                valid_weight = np.multiply(valid_weight, valid_class_sample_weight)
+                        valid_init_score = _extract_evaluation_meta_data(
+                            collection=eval_init_score,
+                            name="eval_init_score",
+                            i=i,
+                        )
+                        valid_group = _extract_evaluation_meta_data(
+                            collection=eval_group,
+                            name="eval_group",
+                            i=i,
+                        )
+                        valid_set = Dataset(
+                            data=valid_data[0],
+                            label=valid_data[1],
+                            weight=valid_weight,
+                            group=valid_group,
+                            init_score=valid_init_score,
+                            categorical_feature="auto",
+                            params=params,
+                        )
+
+                    valid_sets.append(valid_set)
 
         if isinstance(init_model, LGBMModel):
             init_model = init_model.booster_