单算子 API 调用方式,是指直接调用单算子 API 接口,基于 C 语言的 API 执行算子。算子工程AscendC从入门到精通系列(三)基于自定义算子工程开发AscendC算子创建完成后,基于工程代码框架完成算子原型定义、kernel 侧算子实现、host 侧 tiling 实现,通过工程编译脚本完成算子的编译部署,之后再进行单算子 API 的调用。
1 基本原理
完成自定义算子编译后,会自动生成单算子 API,可以直接在应用程序中调用。单算子 API 的形式一般定义为“两段式接口”,形如:
aclnnStatus aclnnXxxGetWorkspaceSize(const aclTensor *src, ..., aclTensor *out, uint64_t *workspaceSize, aclOpExecutor **executor);
aclnnStatus aclnnXxx(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream);
复制代码
aclnnXxxGetWorkspaceSize 接口的输入输出参数生成规则参见:单算子API调用-工程化算子开发-Ascend C算子开发-算子开发-CANN社区版8.0.RC3.alpha003开发文档-昇腾社区
2 前置步骤
参考创建算子工程完成自定义算子工程的创建或者参考简易自定义算子工程完成简易自定义算子工程的创建。
参考 Kernel 侧算子实现完成 kernel 侧实现的相关准备,参考 Host 侧 tiling 实现、算子原型定义完成 host 侧实现相关准备。
对于自定义算子工程,参考算子工程编译、算子包部署完成算子的编译部署,编译部署时需要开启算子的二进制编译功能:修改算子工程中的编译配置项文件 CMakePresets.json,将 ENABLE_BINARY_PACKAGE 设置为 True。编译部署时可将算子的二进制部署到当前环境,便于后续算子的调用。
"ENABLE_BINARY_PACKAGE": {
"type": "BOOL",
"value": "True"
},
复制代码
算子编译部署后,会在算子包安装目录下的 op_api 目录生成单算子调用的头文件 aclnn_xx.h 和动态库 libcust_opapi.so。以默认安装场景为例,单算子调用的头文件.h 和动态库 libcust_opapi.so 所在的目录结构,如下所示:
├── opp //算子库目录
│ ├── vendors //自定义算子所在目录
│ ├── config.ini
│ └── vendor_name1 // 存储对应厂商部署的自定义算子,此名字为编译自定义算子安装包时配置的vendor_name,若未配置,默认值为customize
│ ├── op_api
│ │ ├── include
│ │ │ └── aclnn_xx.h
│ │ └── lib
│ │ └── libcust_opapi.so
...
复制代码
对于简易自定义算子开发工程,参考简易自定义算子工程完成算子的编译。编译完成后会在如下路径生成单算子调用的头文件 aclnn_xx.h 和动态库 libcust_opapi.so。其中 CMAKE_INSTALL_PREFIX 为开发者在 cmake 文件中配置的编译产物存放路径。
3 实现单算子调用
在 main.cpp 中实现调用,大概流程如下:
// 1.AscendCL初始化
aclRet = aclInit("../scripts/acl.json");
// 2.运行管理资源申请
int deviceId = 0;
aclRet = aclrtSetDevice(deviceid);
// 获取软件栈的运行模式,不同运行模式影响后续的接口调用流程(例如是否进行数据传输等)
aclrtRunMode runMode;
bool g_isDevice = false;
aclError aclRet = aclrtGetRunMode(&runMode);
g_isDevice = (runMode == ACL_DEVICE);
// 3.申请内存存放算子的输入输出
// ......
// 4.传输数据
if (aclrtMemcpy(devInputs_[i], size, hostInputs_[i], size, kind) != ACL_SUCCESS) {
return false;
}
// 5.计算workspace大小并申请内存
size_t workspaceSize = 0;
aclOpExecutor *handle = nullptr;
auto ret = aclnnAddCustomGetWorkspaceSize(inputTensor_[0], inputTensor_[1], outputTensor_[0],
&workspaceSize, &handle);
// ...
void *workspace = nullptr;
if (workspaceSize != 0) {
if (aclrtMalloc(&workspace, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST) != ACL_SUCCESS) {
ERROR_LOG("Malloc device memory failed");
}
}
// 6.执行算子
if (aclnnAddCustom(workspace, workspaceSize, handle, stream) != ACL_SUCCESS) {
(void)aclrtDestroyStream(stream);
ERROR_LOG("Execute Operator failed. error code is %d", static_cast<int32_t>(ret));
return false;
}
// 7.同步等待
aclrtSynchronizeStream(stream);
// 8.处理执行算子后的输出数据,例如在屏幕上显示、写入文件等,由用户根据实际情况自行实现
// ......
// 9.释放运行管理资源
aclRet = aclrtResetDevice(deviceid);
// ....
// 10.AscendCL去初始化
aclRet = aclFinalize();
复制代码
4 工程 CMakeLists
根据项目需要编写 CMakeLists,这里介绍需要包含的内容。算子编译后,会生成单算子调用的头文件 aclnn_xx.h 和动态库 libcust_opapi.so。编译算子调用程序时,需要在头文件的搜索路径 include_directories 中增加单算子调用的头文件目录,便于找到该头文件;同时需要链接 cust_opapi 动态库并在库文件的搜索路径 link_directories 中增加 libcust_opapi.so 所在目录。以下内容做个参考。头文件搜索路径
include_directories(
${INC_PATH}/runtime/include
${INC_PATH}/atc/include
../inc
${OP_API_PATH}/include
)
复制代码
链接 cust_opapi 链接库
target_link_libraries(execute_add_op
ascendcl
cust_opapi
acl_op_compiler
nnopbase
stdc++
)
复制代码
在库文件的搜索路径 link_directories 中增加 libcust_opapi.so 所在目录
link_directories(
${LIB_PATH}
${LIB_PATH1}
${OP_API_PATH}/lib
)
复制代码
详细工程文件请参考:operator/AddCustomSample/FrameworkLaunch/AclNNInvocation · Ascend/samples - 码云 - 开源中国 (gitee.com)
评论