InfiniTensor
diff --git a/‎src/04kernel/src/collectors/concat.cc‎
Lines changed: 6 additions & 0 deletions b/‎src/04kernel/src/collectors/concat.cc‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎src/04kernel/src/collectors/mat_mul.cc‎
Lines changed: 6 additions & 0 deletions b/‎src/04kernel/src/collectors/mat_mul.cc‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎src/04kernel/src/collectors/slice.cc‎
Lines changed: 6 additions & 0 deletions b/‎src/04kernel/src/collectors/slice.cc‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎src/04kernel/src/collectors/split.cc‎
Lines changed: 6 additions & 0 deletions b/‎src/04kernel/src/collectors/split.cc‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎src/04kernel/src/kernels/concat/cnnl_kernel.cc‎
Lines changed: 93 additions & 0 deletions b/‎src/04kernel/src/kernels/concat/cnnl_kernel.cc‎
Lines changed: 93 additions & 0 deletions
diff --git a/‎src/04kernel/src/kernels/concat/cnnl_kernel.hh‎
Lines changed: 26 additions & 0 deletions b/‎src/04kernel/src/kernels/concat/cnnl_kernel.hh‎
Lines changed: 26 additions & 0 deletions
diff --git a/‎src/04kernel/src/kernels/mat_mul/cnnl_kernel.cc‎
Lines changed: 153 additions & 0 deletions b/‎src/04kernel/src/kernels/mat_mul/cnnl_kernel.cc‎
Lines changed: 153 additions & 0 deletions
diff --git a/‎src/04kernel/src/kernels/mat_mul/cnnl_kernel.hh‎
Lines changed: 32 additions & 0 deletions b/‎src/04kernel/src/kernels/mat_mul/cnnl_kernel.hh‎
Lines changed: 32 additions & 0 deletions
@@ -1,6 +1,7 @@
 #include "kernel/collectors/concat.h"
 #include "../kernels/concat/cpu_kernel.hh"
 #include "../kernels/concat/cuda_kernel.hh"
+#include "../kernels/concat/cnnl_kernel.hh"
 
 namespace refactor::kernel {
 
@@ -20,6 +21,11 @@ namespace refactor::kernel {
                     ans.emplace_back(std::move(ptr));
                 }
                 break;
+            case decltype(_target)::Mlu:
+                if (auto ptr = ConcatCnnl::build(axis, inputs, outputs[0].get()); ptr) {
+                    ans.emplace_back(std::move(ptr));
+                }
+                break;
             default:
                 UNREACHABLEX(void, "Unknown target");
         }
 
@@ -1,4 +1,5 @@
 #include "kernel/collectors/mat_mul.h"
+#include "../kernels/mat_mul/cnnl_kernel.hh"
 #include "../kernels/mat_mul/cpu_kernel.hh"
 #include "../kernels/mat_mul/cublas_kernel.hh"
 #include "kernel/attributes/mat_mul_info.h"
@@ -26,6 +27,11 @@ namespace refactor::kernel {
             case decltype(_target)::Nvidia:
                 REGISTER(MatMulCublas)
                 break;
+            case decltype(_target)::Mlu:
+                if (auto ptr = MatMulCnnl::build(inputs, outputs, transA, transB, alpha, beta); ptr) {
+                    ans.emplace_back(std::move(ptr));
+                }
+                break;
             default:
                 UNREACHABLEX(void, "Unknown target");
         }
 
@@ -1,6 +1,7 @@
 #include "kernel/collectors/slice.h"
 #include "../kernels/slice/cpu_kernel.hh"
 #include "../kernels/slice/cuda_kernel.hh"
+#include "../kernels/slice/cnnl_kernel.hh"
 
 namespace refactor::kernel {
 
@@ -26,6 +27,11 @@ namespace refactor::kernel {
                     ans.emplace_back(std::move(ptr));
                 }
                 break;
+            case decltype(_target)::Mlu:
+                if (auto ptr = SliceCnnl::build(inputs[0].get().dataType, dimentions, inputs[0].get().shape, outputs[0].get().shape); ptr) {
+                    ans.emplace_back(std::move(ptr));
+                }
+                break;
             default:
                 UNREACHABLEX(void, "Unknown target");
         }
 
@@ -1,4 +1,5 @@
 #include "kernel/collectors/split.h"
+#include "../kernels/split/cnnl_kernel.hh"
 #include "../kernels/split/cpu_kernel.hh"
 #include "../kernels/split/cuda_kernel.hh"
 
@@ -20,6 +21,11 @@ namespace refactor::kernel {
                     ans.emplace_back(std::move(ptr));
                 }
                 break;
+            case decltype(_target)::Mlu:
+                if (auto ptr = SplitCnnl::build(axis, inputs[0].get(), outputs); ptr) {
+                    ans.emplace_back(std::move(ptr));
+                }
+                break;
             default:
                 UNREACHABLEX(void, "Unknown target");
         }
 
@@ -0,0 +1,93 @@
+#include "cnnl_kernel.hh"
+
+#ifdef USE_BANG
+#include "../../utilities/bang/cnnl_context.hh"
+#include "../../utilities/bang/cnnl_functions.h"
+#include <cnnl.h>
+#endif
+
+namespace refactor::kernel {
+    using K = ConcatCnnl;
+
+    K::ConcatCnnl(SplitInfoCnnl info_) noexcept
+        : Kernel(), info(std::move(info_)) {}
+
+    auto K::build(int axis, TensorRefs inputs, Tensor output) noexcept -> KernelBox {
+#ifndef USE_BANG
+        return nullptr;
+#endif
+        return std::make_unique<K>(SplitInfoCnnl(axis, output, inputs));
+    }
+    auto K::typeId() noexcept -> size_t {
+        static uint8_t ID = 1;
+        return reinterpret_cast<size_t>(&ID);
+    }
+
+    auto K::kernelTypeId() const noexcept -> size_t {
+        return typeId();
+    }
+    auto K::description() const noexcept -> std::string_view {
+        return "Performing split operation using CNNL";
+    }
+
+#ifdef USE_BANG
+    auto ConcatCnnl::lower(Resources &res) const -> RoutineWorkspace {
+        using namespace cnnl;
+        using namespace runtime;
+        using DT = DataType;
+
+        struct Descriptors {
+            cnnlTensorDescriptor_t in;
+            std::vector<cnnlTensorDescriptor_t> out;
+            bool f32;
+
+            explicit Descriptors(int n, decltype(f32) f32_)
+                : in(nullptr),
+                  out(std::vector<cnnlTensorDescriptor_t>(n, nullptr)),
+                  f32(f32_) {
+                CNNL_ASSERT(cnnlCreateTensorDescriptor(&in));
+                for (auto i = 0; i < n; i++) {
+                    CNNL_ASSERT(cnnlCreateTensorDescriptor(&out[i]));
+                }
+            }
+            ~Descriptors() noexcept(false) {
+                CNNL_ASSERT(cnnlDestroyTensorDescriptor(in));
+                for (auto i = 0; i < out.size(); i++) {
+                    CNNL_ASSERT(cnnlDestroyTensorDescriptor(out[i]));
+                }
+            }
+
+            Descriptors(const Descriptors &) = delete;
+            Descriptors(Descriptors &&) = delete;
+        };
+        auto d = std::make_shared<Descriptors>(info.num, info.dataType != DT::F64);
+        setCnnlTensor(d->in, info.dataType, slice(info.inDim.data(), info.inDim.size()));
+        for (auto i = 0; i < info.outDims.size(); i++) {
+            setCnnlTensor(d->out[i], info.dataType, slice(info.outDims[i].data(), info.outDims[i].size()));
+        }
+
+        auto handle = res.fetchOrStore<CnnlContext>()->handle;
+        size_t workspaceSize;
+        CNNL_ASSERT(cnnlGetSplitWorkspaceSize(handle, info.num, &workspaceSize));
+
+        res.fetchOrStore<CnnlContext>();
+        auto routine = [d = std::move(d), n = info.num, axis = info.axis, workspaceSize](Resources &res, void *workspace, void const *const *inputs, void *const *outputs) {
+            // fetch cnnl handle from resources
+            auto handle = res.fetchOrStore<CnnlContext>()->handle;
+
+            const void *argv[n];
+            for (auto i = 0; i < n; i++) {
+                argv[i] = inputs[i];
+            }
+
+            CNNL_ASSERT(cnnlConcat(
+                handle, n, axis, d->out.data(), argv,
+                workspace, workspaceSize, d->in, outputs[0]));
+        };
+
+        return {std::move(routine), workspaceSize};
+    }
+
+#endif
+
+}// namespace refactor::kernel
@@ -0,0 +1,26 @@
+#ifndef KERNEL_CONCAT_CNNL_KERNEL_HH
+#define KERNEL_CONCAT_CNNL_KERNEL_HH
+
+#include "../../kernels/split/cnnl_kernel.hh"
+#include "kernel/kernel.h"
+
+namespace refactor::kernel {
+
+    struct ConcatCnnl final : public Kernel {
+        SplitInfoCnnl info;
+
+        explicit ConcatCnnl(SplitInfoCnnl) noexcept;
+
+        static KernelBox build(int, TensorRefs, Tensor) noexcept;
+        static size_t typeId() noexcept;
+
+        size_t kernelTypeId() const noexcept final;
+        std::string_view description() const noexcept final;
+#ifdef USE_BANG
+        RoutineWorkspace lower(Resources &) const final;
+#endif
+    };
+
+}// namespace refactor::kernel
+
+#endif// KERNEL_CONCAT_CNNL_KERNEL_HH
@@ -0,0 +1,153 @@
+#include "cnnl_kernel.hh"
+#include <numeric>
+
+#ifdef USE_BANG
+#include "../../utilities/bang/cnnl_context.hh"
+#include "../../utilities/bang/cnnl_functions.h"
+#include <cnnl.h>
+#endif
+
+namespace refactor::kernel {
+    using K = MatMulCnnl;
+    using DT = DataType;
+
+    K::MatMulCnnl(decltype(info) info_) noexcept
+        : Kernel(), info(std::move(info_)) {}
+
+    auto K::build(TensorRefs inputs_, TensorRefs outputs_, bool transA_, bool transB_, float alpha_, float beta_) noexcept -> KernelBox {
+#ifndef USE_BANG
+        return nullptr;
+#endif
+        auto dt = inputs_[0].get().dataType;
+        return dt.isIeee754() || dt == DT::I8
+                   ? std::make_unique<K>(decltype(info){
+                         dt,
+                         transA_,
+                         transB_,
+                         alpha_,
+                         beta_,
+                         std::vector<int>(inputs_[0].get().shape.begin(), inputs_[0].get().shape.end()),
+                         std::vector<int>(inputs_[1].get().shape.begin(), inputs_[1].get().shape.end()),
+                         std::vector<int>(outputs_[0].get().shape.begin(), outputs_[0].get().shape.end()),
+                         inputs_.size() == 3
+                             ? inputs_[2].get().shape.size() == 0 ? std::make_optional(std::vector<int>(1, 1))
+                                                                  : std::make_optional(std::vector<int>(
+                                                                        inputs_[2].get().shape.begin(),
+                                                                        inputs_[2].get().shape.end()))
+                             : std::nullopt,
+                     })
+                   : nullptr;
+    }
+
+    auto K::typeId() noexcept -> size_t {
+        static uint8_t ID = 1;
+        return reinterpret_cast<size_t>(&ID);
+    }
+
+    auto K::kernelTypeId() const noexcept -> size_t { return typeId(); }
+    auto K::description() const noexcept -> std::string_view {
+        return "Performing MatMul using CNNL";
+    }
+
+
+#ifdef USE_BANG
+    auto K::lower(Resources &res) const noexcept -> RoutineWorkspace {
+        using namespace cnnl;
+        using namespace runtime;
+        using DT = DataType;
+
+        // RAII for closure
+        struct Descriptors {
+            cnnlTensorDescriptor_t a, b, c;
+            cnnlMatMulDescriptor_t bmm;
+            cnnlMatMulAlgo_t algo;
+            cnnlMatMulHeuristicResult_t heuristic;
+            cnnlTensorDescriptor_t bias;
+            bool addBias, f32;
+
+            explicit Descriptors(bool addBias_, bool f32_)
+                : a(nullptr), b(nullptr), c(nullptr),
+                  bmm(nullptr), algo(nullptr), heuristic(nullptr),
+                  bias(nullptr), addBias(addBias_), f32(f32_) {
+                CNNL_ASSERT(cnnlCreateTensorDescriptor(&a));
+                CNNL_ASSERT(cnnlCreateTensorDescriptor(&b));
+                CNNL_ASSERT(cnnlCreateTensorDescriptor(&c));
+                if (addBias) {
+                    CNNL_ASSERT(cnnlCreateTensorDescriptor(&bias));
+                }
+                CNNL_ASSERT(cnnlMatMulDescCreate(&bmm));
+                CNNL_ASSERT(cnnlMatMulAlgoCreate(&algo));
+                CNNL_ASSERT(cnnlCreateMatMulHeuristicResult(&heuristic));
+            }
+            ~Descriptors() noexcept(false) {
+                CNNL_ASSERT(cnnlDestroyTensorDescriptor(a));
+                CNNL_ASSERT(cnnlDestroyTensorDescriptor(b));
+                CNNL_ASSERT(cnnlDestroyTensorDescriptor(c));
+                if (addBias) {
+                    CNNL_ASSERT(cnnlDestroyTensorDescriptor(bias));
+                }
+                CNNL_ASSERT(cnnlMatMulDescDestroy(bmm));
+                CNNL_ASSERT(cnnlMatMulAlgoDestroy(algo));
+                CNNL_ASSERT(cnnlDestroyMatMulHeuristicResult(heuristic));
+            }
+
+            Descriptors(const Descriptors &) = delete;
+            Descriptors(Descriptors &&) = delete;
+        };
+        auto d = std::make_shared<Descriptors>(info.biasDim.has_value(), info.dataType != DT::F64);
+        setCnnlTensor(d->a, info.dataType, slice(info.aDim.data(), info.aDim.size()));
+        setCnnlTensor(d->b, info.dataType, slice(info.bDim.data(), info.bDim.size()));
+        setCnnlTensor(d->c, info.dataType, slice(info.cDim.data(), info.cDim.size()));
+        if (d->addBias) {
+            CNNL_ASSERT(cnnlSetTensorDescriptor(
+                d->bias, CNNL_LAYOUT_NCHW, cnnlDataTypeConvert(info.dataType),
+                info.biasDim.value().size(), info.biasDim.value().data()));
+        }
+        int32_t tA = info.transA, tB = info.transB;
+        CNNL_ASSERT(cnnlSetMatMulDescAttr(d->bmm, CNNL_MATMUL_DESC_TRANSA,
+                                          &tA, sizeof(int32_t)));
+        CNNL_ASSERT(cnnlSetMatMulDescAttr(d->bmm, CNNL_MATMUL_DESC_TRANSB,
+                                          &tB, sizeof(int32_t)));
+        auto handle = res.fetchOrStore<CnnlContext>()->handle;
+        int returnedAlgoCount = 0;
+        CNNL_ASSERT(cnnlGetBatchMatMulAlgoHeuristic(
+            handle, d->bmm, d->a, d->b, d->c,
+            NULL, 1, &(d->heuristic), &returnedAlgoCount));
+
+        size_t algoWorkspaceSize;
+        CNNL_ASSERT(cnnlGetBatchMatMulHeuristicResult(d->heuristic, d->algo, &algoWorkspaceSize));
+
+        res.fetchOrStore<CnnlContext>();
+        auto routine = [d = std::move(d), algoWorkspaceSize,
+                        aa = info.alpha, bb = info.beta](Resources &res, void *workspace, void const *const *inputs, void *const *outputs) {
+            // fetch cnnl handle from resources
+            auto handle = res.fetchOrStore<CnnlContext>()->handle;
+
+            // build alpha/beta for double
+            auto alpha = d->f32 ? factor<fp32_t>(aa) : factor<fp64_t>(aa),
+                 beta = d->f32 ? factor<fp32_t>(bb) : factor<fp64_t>(bb),
+                //  one = d->f32 ? factor<fp32_t>(1) : factor<fp64_t>(1),
+                 zero = d->f32 ? factor<fp32_t>(0) : factor<fp64_t>(0);
+
+            if (d->addBias) {
+                CNNL_ASSERT(cnnlExpand(handle, d->bias, inputs[2], d->c, outputs[0]));
+            }
+
+            if (alpha != 0) {
+                CNNL_ASSERT(cnnlBatchMatMulBCast_v2(
+                    handle, d->bmm, d->algo, &alpha,
+                    d->a, inputs[0], d->b, inputs[1],
+                    d->addBias ? &beta : &zero, d->c, outputs[0],
+                    workspace, algoWorkspaceSize));
+            }
+
+            BANG_ASSERT(cnrtQueueSync(res.fetchOrStore<CnnlContext>()->queue));
+        };
+
+        return {std::move(routine), algoWorkspaceSize};
+    }
+
+
+#endif
+
+}// namespace refactor::kernel
@@ -0,0 +1,32 @@
+#ifndef KERNEL_MATMUL_CNNL_KERNEL_HH
+#define KERNEL_MATMUL_CNNL_KERNEL_HH
+
+#include "kernel/kernel.h"
+#include "kernel/tensor.h"
+
+namespace refactor::kernel {
+
+    struct MatMulCnnl final : public Kernel {
+        struct {
+            DataType dataType;
+            bool transA, transB;
+            float alpha, beta;
+            std::vector<int> aDim, bDim, cDim;
+            std::optional<std::vector<int>> biasDim;
+        } info;
+
+        explicit MatMulCnnl(decltype(info)) noexcept;
+
+        static KernelBox build(TensorRefs, TensorRefs, bool, bool, float, float) noexcept;
+        static size_t typeId() noexcept;
+
+        size_t kernelTypeId() const noexcept final;
+        std::string_view description() const noexcept final;
+#ifdef USE_BANG
+        RoutineWorkspace lower(Resources &) const noexcept final;
+#endif
+    };
+
+}// namespace refactor::kernel
+
+#endif// KERNEL_MATMUL_CNNL_KERNEL_HH