apache · Mady356 · Jun 26, 2026 · Jun 26, 2026 · Jun 26, 2026 · pierrejeambrun
diff --git a/airflow-core/src/airflow/config_templates/config.yml b/airflow-core/src/airflow/config_templates/config.yml
@@ -2743,6 +2743,24 @@ scheduler:
       type: integer
       default: "20"
       see_also: ":ref:`scheduler:ha:tunables`"
+    dag_cache_size:
+      description: |
+        Size of the LRU cache for SerializedDAG objects in the scheduler.
+        Set to 0 to use an unbounded dict with no eviction.
+        The cache is keyed by Dag version ID.
+      version_added: 3.3.0
+      type: integer
+      example: ~
+      default: "1024"
+    dag_cache_ttl:
+      description: |
+        Time-to-live in seconds for cached SerializedDAG objects in the scheduler.
+        After this time, cached DAGs will be re-fetched from the database on next access.
+        Set to 0 to disable TTL, so entries will only be evicted by the LRU policy.
+      version_added: 3.3.0
+      type: integer
+      example: ~
+      default: "10800"
     partition_mapper_max_downstream_keys:
       description: |
         Maximum number of downstream partition keys produced by a single

@@ -347,8 +347,25 @@ def __init__(
 
         if log:
             self._log = log
+        dag_cache_size = conf.getint("scheduler", "dag_cache_size", fallback=1024)
+        dag_cache_ttl_config = conf.getint("scheduler", "dag_cache_ttl", fallback=10800)
-        dag_cache_size = conf.getint("scheduler", "dag_cache_size", fallback=1024)
-        dag_cache_ttl_config = conf.getint("scheduler", "dag_cache_ttl", fallback=10800)
+        dag_cache_size = conf.getint("scheduler", "dag_cache_size")
+        dag_cache_ttl_config = conf.getint("scheduler", "dag_cache_ttl")
-        dag_cache_size = conf.getint("scheduler", "dag_cache_size", fallback=1024)
-        dag_cache_ttl_config = conf.getint("scheduler", "dag_cache_ttl", fallback=10800)
+        dag_cache_size = conf.getint("scheduler", "dag_cache_size")
+        dag_cache_ttl_config = conf.getint("scheduler", "dag_cache_ttl")
 
-        self.scheduler_dag_bag = DBDagBag(load_op_links=False)
+        if dag_cache_size < 0:
+            self.log.warning("scheduler dag_cache_size must be >= 0, using unbounded dict")
+            dag_cache_size = 0
+
+        if dag_cache_ttl_config < 0:
+            self.log.warning("scheduler dag_cache_ttl must be >= 0, disabling TTL")
+            dag_cache_ttl_config = 0
+
+        dag_cache_ttl = dag_cache_ttl_config if dag_cache_ttl_config > 0 else None
+
+        self.scheduler_dag_bag = DBDagBag(
+            load_op_links=False,
+            cache_size=dag_cache_size,
+            cache_ttl=dag_cache_ttl,
+            stats_prefix="scheduler.dag_bag",
+        )
 
         # Set of (dag_id, asset_name, asset_uri) tuples for trigger policies that
         # are permanently unreachable for the rollup window's cardinality — the

@@ -63,8 +63,7 @@ class DBDagBag:
     Internal class for retrieving dags from the database.
 
     Optionally supports LRU+TTL caching when cache_size is provided.
-    The scheduler uses this without caching, while the API server can
-    enable caching via configuration.
+    Callers can enable bounded caching by passing cache_size and cache_ttl.
 
     :meta private:
     """
@@ -74,15 +73,18 @@ def __init__(
         load_op_links: bool = True,
         cache_size: int | None = None,
         cache_ttl: int | None = None,
+        stats_prefix: str = "api_server.dag_bag",
     ) -> None:
         """
         Initialize DBDagBag.
 
         :param load_op_links: Should the extra operator link be loaded when de-serializing the DAG?
         :param cache_size: Size of LRU cache. If None or 0, uses unbounded dict (no eviction).
         :param cache_ttl: Time-to-live for cache entries in seconds. If None or 0, no TTL (LRU only).
+        :param stats_prefix: Prefix for cache-related metrics emitted by this DBDagBag.
         """
         self.load_op_links = load_op_links
+        self._stats_prefix = stats_prefix
         self._dags: MutableMapping[UUID | str, _CacheEntry] = {}
         self._use_cache = False
 
@@ -111,7 +113,7 @@ def _read_dag(self, serdag: SerializedDagModel) -> SerializedDAG | None:
             self._dags[serdag.dag_version_id] = _CacheEntry(dag, serdag.dag_hash, time.monotonic())
             cache_size = len(self._dags)
         if self._use_cache:
-            stats.gauge("api_server.dag_bag.cache_size", cache_size, rate=0.1)
+            stats.gauge(f"{self._stats_prefix}.cache_size", cache_size, rate=0.1)
         return dag
 
     @staticmethod
@@ -134,7 +136,7 @@ def _get_dag(self, version_id: UUID | str, session: Session) -> SerializedDAG |
             # cannot have gone stale yet -- serve it without touching the DB.
             if now - cached.last_validated < self._revalidation_interval:
                 if self._use_cache:
-                    stats.incr("api_server.dag_bag.cache_hit")
+                    stats.incr(f"{self._stats_prefix}.cache_hit")
                 return cached.dag
             # Past the window: a version may have been updated in place (same dag_version_id, new
             # content + new dag_hash) by SerializedDagModel.write_dag, so confirm the cached copy
@@ -149,7 +151,7 @@ def _get_dag(self, version_id: UUID | str, session: Session) -> SerializedDAG |
                     if current is not None and current.dag_hash == cached.dag_hash:
                         self._dags[version_id] = current._replace(last_validated=now)
                 if self._use_cache:
-                    stats.incr("api_server.dag_bag.cache_hit")
+                    stats.incr(f"{self._stats_prefix}.cache_hit")
                 return cached.dag
             # Stale (updated in place) or the version no longer exists: drop and reload below.
             with self._lock:
@@ -169,9 +171,9 @@ def _get_dag(self, version_id: UUID | str, session: Session) -> SerializedDAG |
         if self._use_cache:
             with self._lock:
                 if (cached := self._dags.get(version_id)) is not None:
-                    stats.incr("api_server.dag_bag.cache_hit")
+                    stats.incr(f"{self._stats_prefix}.cache_hit")
                     return cached.dag
-            stats.incr("api_server.dag_bag.cache_miss")
+            stats.incr(f"{self._stats_prefix}.cache_miss")
         return self._read_dag(serdag)
 
     def get_dag(self, version_id: UUID | str, session: Session) -> SerializedDAG | None:
@@ -203,8 +205,8 @@ def clear_cache(self) -> int:
             self._dags.clear()
 
         if self._use_cache:
-            stats.incr("api_server.dag_bag.cache_clear")
-            stats.gauge("api_server.dag_bag.cache_size", 0)
+            stats.incr(f"{self._stats_prefix}.cache_clear")
+            stats.gauge(f"{self._stats_prefix}.cache_size", 0)
         return count
 
     @staticmethod

diff --git a/airflow-core/tests/unit/jobs/test_scheduler_job.py b/airflow-core/tests/unit/jobs/test_scheduler_job.py
@@ -408,6 +408,24 @@ def test_heartrate(self, heartrate):
             _ = SchedulerJobRunner(job=scheduler_job, executors=[self.null_exec])
             assert scheduler_job.heartrate == heartrate
 
+    @patch("airflow.jobs.scheduler_job_runner.DBDagBag")
+    def test_scheduler_dag_bag_uses_scheduler_cache_config(self, mock_db_dag_bag):
+        with conf_vars(
+            {
+                ("scheduler", "dag_cache_size"): "123",
+                ("scheduler", "dag_cache_ttl"): "456",
+            }
+        ):
+            scheduler_job = Job()
+            SchedulerJobRunner(job=scheduler_job, executors=[self.null_exec])
+
+        mock_db_dag_bag.assert_called_once_with(
+            load_op_links=False,
+            cache_size=123,
+            cache_ttl=456,
+            stats_prefix="scheduler.dag_bag",
+        )
+
     def test_no_orphan_process_will_be_left(self):
         current_process = psutil.Process()
         old_children = current_process.children(recursive=True)

@@ -345,6 +345,24 @@ metrics:
     legacy_name: "-"
     name_variables: []
 
+  - name: "scheduler.dag_bag.cache_hit"
+    description: "Number of cache hits when retrieving SerializedDAG from DBDagBag in the scheduler"
+    type: "counter"
+    legacy_name: "-"
+    name_variables: []
+
+  - name: "scheduler.dag_bag.cache_miss"
+    description: "Number of cache misses when retrieving SerializedDAG from DBDagBag in the scheduler"
+    type: "counter"
+    legacy_name: "-"
+    name_variables: []
+
+  - name: "scheduler.dag_bag.cache_clear"
+    description: "Number of times the DBDagBag cache was cleared in the scheduler"
+    type: "counter"
+    legacy_name: "-"
+    name_variables: []
+
   - name: "connection_test.success"
     description: "Number of worker-dispatched connection tests that completed successfully."
     type: "counter"
@@ -379,6 +397,12 @@ metrics:
     legacy_name: "-"
     name_variables: []
 
+  - name: "scheduler.dag_bag.cache_size"
+    description: "Number of SerializedDAG objects currently cached in DBDagBag in the scheduler"
+    type: "gauge"
+    legacy_name: "-"
+    name_variables: []
+
   - name: "connection_test.active"
     description: "Number of connection tests currently in flight (``queued`` + ``running``), sampled by the
     scheduler each tick."