写点什么

三文带你轻松上手鸿蒙的 AI 语音 01- 实时语音识别

作者:最新动态
  • 2025-07-22
    湖北
  • 本文字数:1447 字

    阅读完需:约 5 分钟

前言

HarmonyOSNext 中集成了强大的 AI 功能。Core Speech Kit(基础语音服务)是它提供的众多 AI 功能中的一种。

Core Speech Kit(基础语音服务)集成了语音类基础 AI 能力,包括文本转语音(TextToSpeech)及语音识别(SpeechRecognizer)能力,便于用户与设备进行互动,实现将实时输入的语音与文本之间相互转换。

简单来讲 Core Speech Kit 主要提供了两大语音 AI 功能:

1. 语音识别

2. 文本转语音

语音识别介绍

语音识别功能可以将一段音频信息(短语音模式不超过 60s,长语音模式不超过 8h)转换为文本。

其中语音识别又可以实现:

1. 实时语音转文本

2. 声音文件转文本

实时语音转文本

实现流程

先介绍语音识别的流程,后面的文字转语音大同小异

1. 申请权限

2. 创建 AI 语音引擎

3. 设置监听回调

4. 开始监听

tips: 完整代码在每一个功能的末尾,可以结合封装后的代码来阅读

申请权限



因为在开发功能过程中,需要调用手机的麦克风功能。所以需要主动申请权限。



申请权限分成 3 个步骤

1. 声明权限

2. 检查是否拥有权限

3. 申请权限

声明权限

在\entry\src\main\module.json5 中添加以下配置代码 requestPermissions



在\entry\src\main\resources\base\element\string.json 添加 申请原因 voice_reason



检查权限

实际开发中,我们在申请权限之前可以先调用接口 checkAccessTokenSync,检查下是否已经拥有权限。如果没有,则主动申请权限

申请权限

当我们需要申请某个功能的权限时,可以通过调用 requestPermissionsFromUser 来实现

封装好的权限代码

因为 HarmonyOSNext 中关于权限的代码,都是没有经过封装的,难以使用。所以这里提供了封装好的版本。

没有封装过的示例代码:



封装好的代码

entry\src\main\ets\utils\permissionMananger.ets



页面中使用权限代码

Index.ets




实时语音识别相关步骤

以下主要实现实时语音识别

创建 AI 语音引擎

创建 AI 语音引擎主要有以下几个步骤

声明 AI 语音引擎配置参数,主要有语种、区域信息等



调用开始创建 createEngine 方法开始创建,并且返回 AI 语音实例引擎

设置 AI 语音监听回调

在开始语音识别之前,需要先设置语音识别回调 setListener 。它主要有以下几个分类

1. 开始识别回调

2. 事件回调

3. 识别结果回调

4. 识别完成回调

5. 识别错误回调



开始监听实时语音

需要先配置监听的参数,便可以调用 startListening 实现语音识别了

参数配置 其中,实时语音识别和语音文件识别的主要配置在 recognitionMode 字段, 0 表示实时语音识别



封装好的语音识别代码

\entry\src\main\ets\utils\SpeechRecognizerManager.ets






页面中调用语音识别代码




语音识别结果分析

语音识别成功后的数据格式如下



其中需要关注的是:

识别功能是持续触发的,当收集到声音时持续触发

isFinal 表示一个句子是否结束



isLast 表示这一次语音识别是否结束

总结

HarmonyOSNext 中集成了强大的 AI 功能。Core Speech Kit(基础语音服务)是它提供的众多 AI 功能中的一种。

Core Speech Kit(基础语音服务)集成了语音类基础 AI 能力,包括文本转语音(TextToSpeech)及语音识别(SpeechRecognizer)能力,便于用户与设备进行互动,实现将实时输入的语音与文本之间相互转换。

简单来讲 Core Speech Kit 主要提供了两大语音 AI 功能:

1. 语音识别

2. 文本转语音

其中语音识别又可以实现:

1. 实时语音转文本

2. 声音文件转文本

本文主要实现了 实时语音转文本 , 声音文件转文本 将会在下文讲解。

踏入鸿蒙世界的敲门砖,标志着您在技术征途上的全新起点,提升就业竞争力,获得行业认可,点亮职业成长先机,快人一步抢占未来应用开发赛道!

用户头像

最新动态

关注

还未添加个人签名 2019-07-19 加入

还未添加个人简介

评论

发布
暂无评论
三文带你轻松上手鸿蒙的 AI 语音 01-实时语音识别_最新动态_InfoQ写作社区