Merge pull request #166 from ecmwf/feature/cuda

pmaciel · web-flow · commit 3d7f4fe7f480 · 2025-02-19T20:38:55.000Z
Get CUDA backend for eckit_linalg working again
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -260,9 +260,8 @@ ecbuild_add_option( FEATURE JEMALLOC
 
 ecbuild_add_option( FEATURE CUDA
                     DEFAULT OFF
-                    CONDITION HAVE_EXPERIMENTAL
                     DESCRIPTION "CUDA GPU linear algebra operations"
-                    REQUIRED_PACKAGES CUDA )
+                    REQUIRED_PACKAGES CUDAToolkit )
 
 ### ViennaCL
 
diff --git a/src/eckit/config/Configuration.h b/src/eckit/config/Configuration.h
@@ -190,9 +190,7 @@ class Configuration : public Parametrisation {
                 return isStringList(name);
             }
         }
-        else {
-            return false;
-        }
+        return false;
     }
 
     template <typename T>
diff --git a/src/eckit/linalg/CMakeLists.txt b/src/eckit/linalg/CMakeLists.txt
@@ -47,8 +47,7 @@ if( eckit_HAVE_CUDA )
           detail/CUDA.h
           sparse/LinearAlgebraCUDA.cc
           sparse/LinearAlgebraCUDA.h )
-    list( APPEND eckit_la_pincludes "${CUDA_INCLUDE_DIRS}" )
-    list( APPEND eckit_la_plibs "${CUDA_LIBRARIES}" "${CUDA_cusparse_LIBRARY}" )
+    list( APPEND eckit_la_plibs CUDA::cudart CUDA::cusparse CUDA::cublas )
 endif()
 
 if( eckit_HAVE_EIGEN )
@@ -105,9 +104,3 @@ if( eckit_HAVE_EIGEN )
     # Add include directories with "SYSTEM" to avoid warnings from within Eigen headers
     target_include_directories( eckit_linalg SYSTEM PRIVATE ${EIGEN3_INCLUDE_DIRS} )
 endif()
-
-if( CUDA_FOUND )
-  set( CUDA_LINK_LIBRARIES_KEYWORD PRIVATE )
-  cuda_add_cublas_to_target( eckit_linalg )
-endif()
-
diff --git a/src/eckit/linalg/sparse/LinearAlgebraCUDA.cc b/src/eckit/linalg/sparse/LinearAlgebraCUDA.cc
@@ -49,40 +49,90 @@ void LinearAlgebraCUDA::spmv(const SparseMatrix& A, const Vector& x, Vector& y)
     Scalar* d_A_values;  ///< device memory matrix A values
     Scalar* d_x;         ///< device memory vector x
     Scalar* d_y;         ///< device memory vector y
-    cusparseHandle_t handle;
-    cusparseMatDescr_t descr;
 
     CALL_CUDA(cudaMalloc((void**)&d_A_rowptr, sizeArowptr));
     CALL_CUDA(cudaMalloc((void**)&d_A_colidx, sizeAcolidx));
     CALL_CUDA(cudaMalloc((void**)&d_A_values, sizeAvalues));
     CALL_CUDA(cudaMalloc((void**)&d_x, sizex));
     CALL_CUDA(cudaMalloc((void**)&d_y, sizey));
 
-    CALL_CUSPARSE(cusparseCreate(&handle));
-    CALL_CUSPARSE(cusparseCreateMatDescr(&descr));
-    cusparseSetMatType(descr, CUSPARSE_MATRIX_TYPE_GENERAL);
-    cusparseSetMatIndexBase(descr, CUSPARSE_INDEX_BASE_ZERO);
-
     CALL_CUDA(cudaMemcpy(d_A_rowptr, A.outer(), sizeArowptr, cudaMemcpyHostToDevice));
     CALL_CUDA(cudaMemcpy(d_A_colidx, A.inner(), sizeAcolidx, cudaMemcpyHostToDevice));
     CALL_CUDA(cudaMemcpy(d_A_values, A.data(), sizeAvalues, cudaMemcpyHostToDevice));
     CALL_CUDA(cudaMemcpy(d_x, x.data(), sizex, cudaMemcpyHostToDevice));
 
+    cusparseHandle_t handle;
+    CALL_CUSPARSE(cusparseCreate(&handle));
+
+    cusparseSpMatDescr_t matA;
+    CALL_CUSPARSE( cusparseCreateCsr(
+        &matA,
+        A.rows(), A.cols(), A.nonZeros(),
+        d_A_rowptr,
+        d_A_colidx,
+        d_A_values,
+        CUSPARSE_INDEX_32I,
+        CUSPARSE_INDEX_32I,
+        CUSPARSE_INDEX_BASE_ZERO,
+        CUDA_R_64F) );
+
+    cusparseDnVecDescr_t vecX;
+    CALL_CUSPARSE( cusparseCreateDnVec(
+        &vecX,
+        x.size(),
+        d_x,
+        CUDA_R_64F) );
+
+    cusparseDnVecDescr_t vecY;
+    CALL_CUSPARSE( cusparseCreateDnVec(
+        &vecY,
+        y.size(),
+        d_y,
+        CUDA_R_64F) );
+
     const Scalar alpha = 1.0;
     const Scalar beta  = 0.0;
-    // cusparseStatus_t
-    // cusparseDcsrmv(cusparseHandle_t handle, cusparseOperation_t transA,
-    //                int m, int n, int nnz,
-    //                const double *alpha, const cusparseMatDescr_t descrA,
-    //                const double *csrValA, const int *csrRowPtrA, const int *csrColIndA,
-    //                const double *x, const double *beta, double *y)
-    CALL_CUSPARSE(cusparseDcsrmv(handle, CUSPARSE_OPERATION_NON_TRANSPOSE, A.rows(), A.cols(), A.nonZeros(), &alpha,
-                                 descr, d_A_values, d_A_rowptr, d_A_colidx, d_x, &beta, d_y));
 
+    // Determine buffer size
+    size_t bufferSize = 0;
+    CALL_CUSPARSE( cusparseSpMV_bufferSize(
+        handle,
+        CUSPARSE_OPERATION_NON_TRANSPOSE,
+        &alpha,
+        matA,
+        vecX,
+        &beta,
+        vecY,
+        CUDA_R_64F,
+        CUSPARSE_SPMV_ALG_DEFAULT,
+        &bufferSize) );
+
+    // Allocate buffer
+    char* buffer;
+    CALL_CUDA( cudaMalloc(&buffer, bufferSize) );
+
+    // Perform SpMV
+    // y = alpha * A * x + beta * y
+    CALL_CUSPARSE( cusparseSpMV(
+        handle,
+        CUSPARSE_OPERATION_NON_TRANSPOSE,
+        &alpha,
+        matA,
+        vecX,
+        &beta,
+        vecY,
+        CUDA_R_64F,
+        CUSPARSE_SPMV_ALG_DEFAULT,
+        buffer) );
+
+    // Copy result back to host
     CALL_CUDA(cudaMemcpy(y.data(), d_y, sizey, cudaMemcpyDeviceToHost));
 
-    CALL_CUSPARSE(cusparseDestroyMatDescr(descr));
-    CALL_CUSPARSE(cusparseDestroy(handle));
+    CALL_CUSPARSE( cusparseDestroyDnVec(vecY) );
+    CALL_CUSPARSE( cusparseDestroyDnVec(vecX) );
+    CALL_CUSPARSE( cusparseDestroySpMat(matA) );
+    CALL_CUSPARSE( cusparseDestroy(handle) );
+
 
     CALL_CUDA(cudaFree(d_A_rowptr));
     CALL_CUDA(cudaFree(d_A_colidx));
@@ -107,44 +157,97 @@ void LinearAlgebraCUDA::spmm(const SparseMatrix& A, const Matrix& B, Matrix& C)
     Scalar* d_A_values;  ///< device memory matrix A values
     Scalar* d_B;         ///< device memory matrix B
     Scalar* d_C;         ///< device memory matrix C
-    cusparseHandle_t handle;
-    cusparseMatDescr_t descr;
 
     CALL_CUDA(cudaMalloc((void**)&d_A_rowptr, sizeArowptr));
     CALL_CUDA(cudaMalloc((void**)&d_A_colidx, sizeAcolidx));
     CALL_CUDA(cudaMalloc((void**)&d_A_values, sizeAvalues));
     CALL_CUDA(cudaMalloc((void**)&d_B, sizeB));
     CALL_CUDA(cudaMalloc((void**)&d_C, sizeC));
 
-    CALL_CUSPARSE(cusparseCreate(&handle));
-    CALL_CUSPARSE(cusparseCreateMatDescr(&descr));
-    cusparseSetMatType(descr, CUSPARSE_MATRIX_TYPE_GENERAL);
-    cusparseSetMatIndexBase(descr, CUSPARSE_INDEX_BASE_ZERO);
-
     CALL_CUDA(cudaMemcpy(d_A_rowptr, A.outer(), sizeArowptr, cudaMemcpyHostToDevice));
     CALL_CUDA(cudaMemcpy(d_A_colidx, A.inner(), sizeAcolidx, cudaMemcpyHostToDevice));
     CALL_CUDA(cudaMemcpy(d_A_values, A.data(), sizeAvalues, cudaMemcpyHostToDevice));
     CALL_CUDA(cudaMemcpy(d_B, B.data(), sizeB, cudaMemcpyHostToDevice));
 
-    // FIXME: Should we transpose B and use cusparseDcsrmm2 instread?
-    // http://docs.nvidia.com/cuda/cusparse/index.html#cusparse-lt-t-gt-csrmm2
+    cusparseHandle_t handle;
+    CALL_CUSPARSE(cusparseCreate(&handle));
+
+    cusparseSpMatDescr_t matA;
+    CALL_CUSPARSE( cusparseCreateCsr(
+        &matA,
+        A.rows(), A.cols(), A.nonZeros(),
+        d_A_rowptr,
+        d_A_colidx,
+        d_A_values,
+        CUSPARSE_INDEX_32I,
+        CUSPARSE_INDEX_32I,
+        CUSPARSE_INDEX_BASE_ZERO,
+        CUDA_R_64F) );
+
+    // Create dense matrix descriptors
+    cusparseDnMatDescr_t matB;
+    CALL_CUSPARSE(cusparseCreateDnMat(
+        &matB,
+        B.rows(), // rows
+        B.cols(), // cols
+        B.rows(), // leading dimension
+        d_B,
+        CUDA_R_64F,
+        CUSPARSE_ORDER_COL) );
+
+    cusparseDnMatDescr_t matC;
+    CALL_CUSPARSE(cusparseCreateDnMat(
+        &matC,
+        C.rows(), // rows
+        C.cols(), // cols
+        C.rows(), // leading dimension
+        d_C,
+        CUDA_R_64F,
+        CUSPARSE_ORDER_COL) );
+
     const Scalar alpha = 1.0;
     const Scalar beta  = 0.0;
-    // cusparseStatus_t
-    // cusparseDcsrmm(cusparseHandle_t handle, cusparseOperation_t transA,
-    //                int m, int n, int k, int nnz,
-    //                const double *alpha, const cusparseMatDescr_t descrA,
-    //                const double *csrValA, const int *csrRowPtrA, const int *csrColIndA,
-    //                const double *B, int ldb, const double *beta, double *C, int ldc)
-    CALL_CUSPARSE(cusparseDcsrmm(handle, CUSPARSE_OPERATION_NON_TRANSPOSE, A.rows(), A.cols(), B.cols(), A.nonZeros(),
-                                 &alpha, descr, d_A_values, d_A_rowptr, d_A_colidx, d_B, B.rows(), &beta, d_C,
-                                 C.rows()));
+
+    size_t bufferSize = 0;
+    CALL_CUSPARSE(cusparseSpMM_bufferSize(
+        handle,
+        CUSPARSE_OPERATION_NON_TRANSPOSE,
+        CUSPARSE_OPERATION_NON_TRANSPOSE,
+        &alpha,
+        matA,
+        matB,
+        &beta,
+        matC,
+        CUDA_R_64F,
+        CUSPARSE_SPMM_ALG_DEFAULT,
+        &bufferSize));
+
+    // Allocate buffer
+    char* buffer;
+    CALL_CUDA(cudaMalloc(&buffer, bufferSize));
+
+    // Perform SpMM
+    CALL_CUSPARSE(cusparseSpMM(
+        handle,
+        CUSPARSE_OPERATION_NON_TRANSPOSE,
+        CUSPARSE_OPERATION_NON_TRANSPOSE,
+        &alpha,
+        matA,
+        matB,
+        &beta,
+        matC,
+        CUDA_R_64F,
+        CUSPARSE_SPMM_ALG_DEFAULT,
+        buffer));
 
     CALL_CUDA(cudaMemcpy(C.data(), d_C, sizeC, cudaMemcpyDeviceToHost));
 
-    CALL_CUSPARSE(cusparseDestroyMatDescr(descr));
     CALL_CUSPARSE(cusparseDestroy(handle));
+    CALL_CUSPARSE(cusparseDestroyDnMat(matC));
+    CALL_CUSPARSE(cusparseDestroyDnMat(matB));
+    CALL_CUSPARSE(cusparseDestroySpMat(matA));
 
+    CALL_CUDA(cudaFree(buffer));
     CALL_CUDA(cudaFree(d_A_rowptr));
     CALL_CUDA(cudaFree(d_A_colidx));
     CALL_CUDA(cudaFree(d_A_values));

Original file line number	Diff line number	Diff line change
`@@ -190,9 +190,7 @@ class Configuration : public Parametrisation {`
`190`	`190`	`return isStringList(name);`
`191`	`191`	`}`
`192`	`192`	`}`
`193`		`- else {`
`194`		`- return false;`
`195`		`- }`
	`193`	`+ return false;`
`196`	`194`	`}`
`197`	`195`
`198`	`196`	`template <typename T>`