NexusGPU · Code2Life · Jul 20, 2025 · Jul 15, 2025 · Jul 15, 2025 · Jul 15, 2025
diff --git a/.vscode/settings.json b/.vscode/settings.json
@@ -8,6 +8,7 @@
         "Aliyun",
         "AMDCDNA",
         "AMDRDNA",
+        "apierrors",
         "apimachinery",
         "apimachineryruntime",
         "apiruntime",
@@ -37,8 +38,10 @@
         "CUDA",
         "cycjimmy",
         "datanode",
+        "deepcopy",
         "defaultbinder",
         "dylib",
+        "eastus",
         "envtest",
         "essd",
         "Eventf",
@@ -57,6 +60,7 @@
         "gosec",
         "gpuallocator",
         "gpunode",
+        "gpunodeclaim",
         "gpunodeclaims",
         "gpunodeclasses",
         "gpunodes",
@@ -75,6 +79,7 @@
         "influxdata",
         "jsonpatch",
         "karpenter",
+        "karpv",
         "klog",
         "Klogr",
         "kubebuilder",
@@ -86,13 +91,16 @@
         "libcuda",
         "libnvidia",
         "lineprotocol",
+        "mapstructure",
         "metav",
         "metricsserver",
         "Milli",
+        "mitchellh",
         "mito",
         "mutatingwebhookconfiguration",
         "ngpu",
         "nindent",
+        "nodeclassref",
         "noderesources",
         "nolint",
         "NVML",
@@ -126,6 +134,7 @@
         "statefulsets",
         "strategicpatch",
         "strategicpatches",
+        "stretchr",
         "subresource",
         "Tabler",
         "tensorfusion",

diff --git a/Makefile b/Makefile
@@ -64,6 +64,10 @@ vet: ## Run go vet against code.
 test: manifests generate fmt vet envtest ## Run tests.
 	KUBEBUILDER_ASSETS="$(shell $(ENVTEST) use $(ENVTEST_K8S_VERSION) --bin-dir $(LOCALBIN) -p path)" GO_TESTING=true go run github.com/onsi/ginkgo/v2/ginkgo -p -timeout 0 -cover -coverprofile cover.out -r --skip-file ./test/e2e
 
+.PHONY: test-serial
+test-serial: manifests generate fmt vet envtest ## Run tests.
+	KUBEBUILDER_ASSETS="$(shell $(ENVTEST) use $(ENVTEST_K8S_VERSION) --bin-dir $(LOCALBIN) -p path)" GO_TESTING=true go run github.com/onsi/ginkgo/v2/ginkgo -timeout 0 -r --skip-file ./test/e2e
+
 .PHONY: ut
 ut: manifests generate ## Run unit tests by make ut F=<focus-file>
 	KUBEBUILDER_ASSETS="$(shell $(ENVTEST) use $(ENVTEST_K8S_VERSION) --bin-dir $(LOCALBIN) -p path)" cd internal/controller && GO_TESTING=true go run github.com/onsi/ginkgo/v2/ginkgo -p -timeout 0 --focus-file $F && cd ../../

diff --git a/PROJECT b/PROJECT
@@ -87,4 +87,20 @@ resources:
   kind: TensorFusionWorkload
   path: github.com/NexusGPU/tensor-fusion/api/v1
   version: v1
+- api:
+    crdVersion: v1
+    namespaced: true
+  controller: true
+  domain: tensor-fusion.ai
+  kind: GPUResourceQuota
+  path: github.com/NexusGPU/tensor-fusion/api/v1
+  version: v1
+- api:
+    crdVersion: v1
+    namespaced: true
+  controller: true
+  domain: tensor-fusion.ai
+  kind: GPUNodeClaim
+  path: github.com/NexusGPU/tensor-fusion/api/v1
+  version: v1
 version: "3"
diff --git a/api/v1/gpunode_funcs.go b/api/v1/gpunode_funcs.go
@@ -1,8 +1,6 @@
 package v1
 
 import (
-	"time"
-
 	"k8s.io/apimachinery/pkg/api/resource"
 )
 
@@ -18,10 +16,3 @@ func (node *GPUNode) InitializeStatus(initTFlops, initVRAM resource.Quantity, in
 		ObservedGeneration:  node.Generation,
 	}
 }
-
-func (node *GPUNode) SetAnnotationToTriggerNodeSync() {
-	if node.Annotations == nil {
-		node.Annotations = make(map[string]string)
-	}
-	node.Annotations["tensor-fusion.ai/refresh-node-state"] = time.Now().String()
-}
diff --git a/api/v1/gpunode_types.go b/api/v1/gpunode_types.go
@@ -54,9 +54,6 @@ const (
 
 // GPUNodeStatus defines the observed state of GPUNode.
 type GPUNodeStatus struct {
-	// the identifier of the kubernetes node, in nodeSelector mode, GPUNode name is the same as kubernetes node name because of it's owned by the Kubernetes node, while in node provisioning mode owned by the GPUNode, and K8S Node name is uncontrollable
-	KubernetesNodeName string `json:"kubernetesNodeName"`
-
 	// +kubebuilder:default=Pending
 	Phase TensorFusionGPUNodePhase `json:"phase"`
 
@@ -112,21 +109,6 @@ const (
 )
 
 type GPUNodeInfo struct {
-	// +optional
-	// only set when node is managed by TensorFusion
-	InstanceID string `json:"instanceID,omitempty"`
-	Region     string `json:"region,omitempty"`
-
-	Hostname         string `json:"hostname,omitempty"`
-	IP               string `json:"ip,omitempty"`
-	KernelVersion    string `json:"kernelVersion,omitempty"`
-	OSImage          string `json:"osImage,omitempty"`
-	GPUDriverVersion string `json:"gpuDriverVersion,omitempty"`
-	GPUModel         string `json:"gpuModel,omitempty"`
-	GPUCount         int32  `json:"gpuCount,omitempty"`
-	OperatingSystem  string `json:"operatingSystem,omitempty"`
-	Architecture     string `json:"architecture,omitempty"`
-
 	// Additional space for L1/L2 VRAM buffer
 	RAMSize      resource.Quantity `json:"ramSize,omitempty"`
 	DataDiskSize resource.Quantity `json:"dataDiskSize,omitempty"`

diff --git a/api/v1/gpunodeclaim_types.go b/api/v1/gpunodeclaim_types.go
@@ -0,0 +1,102 @@
+/*
+Copyright 2024.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+*/
+
+package v1
+
+import (
+	"k8s.io/apimachinery/pkg/api/resource"
+	metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
+)
+
+// GPUNodeClaimStatus defines the observed state of GPUNodeClaim.
+type GPUNodeClaimStatus struct {
+
+	// +kubebuilder:default=Pending
+	Phase GPUNodeClaimPhase `json:"phase"`
+
+	InstanceID string `json:"instanceID,omitempty"`
+}
+
+type GPUNodeClaimPhase string
+
+const (
+	GPUNodeClaimPending  GPUNodeClaimPhase = "Pending"
+	GPUNodeClaimCreating GPUNodeClaimPhase = "Creating"
+	GPUNodeClaimBound    GPUNodeClaimPhase = "Bound"
+)
+
+const GPUNodeClaimKind = "GPUNodeClaim"
+
+// +kubebuilder:object:root=true
+// +kubebuilder:subresource:status
+// +kubebuilder:resource:scope=Cluster
+// +kubebuilder:printcolumn:name="Phase",type="string",JSONPath=".status.phase"
+
+// GPUNodeClaim is the Schema for the gpunodeclaims API.
+type GPUNodeClaim struct {
+	metav1.TypeMeta   `json:",inline"`
+	metav1.ObjectMeta `json:"metadata"`
+
+	Spec   GPUNodeClaimSpec   `json:"spec,omitempty"`
+	Status GPUNodeClaimStatus `json:"status,omitempty"`
+}
+
+// +kubebuilder:object:root=true
+
+// GPUNodeClaimList contains a list of GPUNodeClaim.
+type GPUNodeClaimList struct {
+	metav1.TypeMeta `json:",inline"`
+	metav1.ListMeta `json:"metadata"`
+	Items           []GPUNodeClaim `json:"items"`
+}
+
+func init() {
+	SchemeBuilder.Register(&GPUNodeClaim{}, &GPUNodeClaimList{})
+}
+
+type CapacityTypeEnum string
+
+const (
+	CapacityTypeOnDemand CapacityTypeEnum = "OnDemand"
+
+	CapacityTypeReserved CapacityTypeEnum = "Reserved"
+
+	// Spot and Preemptive are aliases of each other, used by different providers
+	CapacityTypeSpot CapacityTypeEnum = "Spot"
+)
+
+// GPUNodeClaimSpec defines the desired state of GPUNodeClaim.
+type GPUNodeClaimSpec struct {
+	NodeName     string           `json:"nodeName,omitempty"`
+	Region       string           `json:"region,omitempty"`
+	Zone         string           `json:"zone,omitempty"`
+	InstanceType string           `json:"instanceType,omitempty"`
+	NodeClassRef GroupKindName    `json:"nodeClassRef,omitempty"`
+	CapacityType CapacityTypeEnum `json:"capacityType,omitempty"`
+
+	TFlopsOffered    resource.Quantity `json:"tflopsOffered"`
+	VRAMOffered      resource.Quantity `json:"vramOffered"`
+	GPUDeviceOffered int32             `json:"gpuDeviceOffered"`
+
+	ExtraParams map[string]string `json:"extraParams,omitempty"`
+}
+
+type GroupKindName struct {
+	Group   string `json:"group"`
+	Kind    string `json:"kind"`
+	Version string `json:"version"`
+	Name    string `json:"name"`
+}
diff --git a/api/v1/gpunodeclass_types.go b/api/v1/gpunodeclass_types.go
@@ -154,6 +154,10 @@ type GPUNodeClassList struct {
 	Items           []GPUNodeClass `json:"items"`
 }
 
+const (
+	GPUNodeClassKind = "GPUNodeClass"
+)
+
 func init() {
 	SchemeBuilder.Register(&GPUNodeClass{}, &GPUNodeClassList{})
 }
diff --git a/api/v1/gpupool_types.go b/api/v1/gpupool_types.go
@@ -111,8 +111,14 @@ const (
 // NodeProvisioner or NodeSelector, they are exclusive.
 // NodeSelector is for existing GPUs, NodeProvisioner is for Karpenter-like auto management.
 type NodeProvisioner struct {
+
+	// TensorFusion GPUNodeClass name
 	NodeClass string `json:"nodeClass,omitempty"`
 
+	// Karpenter NodeClass name
+	// +optional
+	KarpenterNodeClassRef *GroupKindName `json:"karpenterNodeClassRef,omitempty"`
+
 	// +optional
 	GPURequirements []Requirement `json:"gpuRequirements,omitempty"`
 	// +optional
@@ -167,13 +173,13 @@ type Requirement struct {
 	Values []string `json:"values,omitempty"`
 }
 
-// +kubebuilder:validation:Enum=node.kubernetes.io/instance-type;kubernetes.io/arch;kubernetes.io/os;topology.kubernetes.io/region;topology.kubernetes.io/zone;karpenter.sh/capacity-type;tensor-fusion.ai/gpu-arch;tensor-fusion.ai/gpu-instance-family;tensor-fusion.ai/gpu-instance-size
+// +kubebuilder:validation:Enum=node.kubernetes.io/instance-type;kubernetes.io/arch;kubernetes.io/os;topology.kubernetes.io/region;topology.kubernetes.io/zone;karpenter.sh/capacity-type;tensor-fusion.ai/gpu-vendor;tensor-fusion.ai/gpu-instance-family;tensor-fusion.ai/gpu-instance-size
 type NodeRequirementKey string
 
 const (
-	NodeRequirementKeyInstanceType    NodeRequirementKey = "node.kubernetes.io/instance-type"
-	NodeRequirementKeyArchitecture    NodeRequirementKey = "kubernetes.io/arch"
-	NodeRequirementKeyGPUArchitecture NodeRequirementKey = "tensor-fusion.ai/gpu-arch"
+	NodeRequirementKeyInstanceType NodeRequirementKey = "node.kubernetes.io/instance-type"
+	NodeRequirementKeyArchitecture NodeRequirementKey = "kubernetes.io/arch"
+	NodeRequirementKeyGPUVendor    NodeRequirementKey = "tensor-fusion.ai/gpu-vendor"
 
 	NodeRequirementKeyOS     NodeRequirementKey = "kubernetes.io/os"
 	NodeRequirementKeyRegion NodeRequirementKey = "topology.kubernetes.io/region"
@@ -401,6 +407,10 @@ type GPUPoolStatus struct {
 	// TODO not implemented yet
 	BudgetExceeded string `json:"budgetExceeded,omitempty"`
 
+	// +optional
+	// +kubebuilder:default="None"
+	ProvisioningPhase ProvisioningPhase `json:"provisioningPhase,omitempty"`
+
 	// +optional
 	LastCompactionTime *metav1.Time `json:"lastCompactionTime,omitempty"`
 }
@@ -416,6 +426,21 @@ const (
 	TensorFusionPoolPhaseDestroying = TensorFusionPoolPhase(constants.PhaseDestroying)
 )
 
+// +kubebuilder:validation:Enum=None;Initializing;Provisioning;Completed
+type ProvisioningPhase string
+
+const (
+	// None means not in provisioning mode
+	ProvisioningPhaseNone = ProvisioningPhase("None")
+
+	// When NodeClaim created and pending GPUNodeClaim not empty, it's provisioning state,
+	// check until all GPUNodeClaims are bound, unless next scale up should not happen
+	ProvisioningPhaseProvisioning = ProvisioningPhase("Provisioning")
+
+	// When all GPUNodeClaims are bound, set to Completed
+	ProvisioningPhaseCompleted = ProvisioningPhase("Completed")
+)
+
 type PoolProvisioningStatus struct {
 	InitializingNodes int32 `json:"initializingNodes,omitempty"`
 	TerminatingNodes  int32 `json:"terminatingNodes,omitempty"`