写点什么

语音识别

1 人感兴趣 · 56 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/04/049ac7dd371febc5f189fb414fa17fcd.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

vue3+vite+ts 项目集成科大讯飞语音识别

本人最近在做数字人项目,用到科大讯飞的语音识别功能,遇到了许多坑,做个总结,给兄弟们铺铺路。

顺丰科技携手飞桨自研“智能外呼机器人”,为客户打造优质服务体验

顺丰科技的自然语言处理(NLP)团队基于飞桨语音模型库 PaddleSpeech 自研了“智能外呼机器人”的语音合成系统,于2022年双十一前夕正式上线并持续稳定运行,助力业务提质增效。

https://static001.geekbang.org/infoq/0d/0d49fb19c2841f3ad0aa730148045438.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

浅谈智能语音交互

浅谈智能语音交互相关内容以及功能体验、感受以及落地实践反馈

三点几嚟,饮茶先啦!PaddleSpeech 发布全流程粤语语音合成

大家好!今天带来的是基于PaddleSpeech的全流程粤语语音合成技术的分享~

https://static001.geekbang.org/infoq/41/41c919714cdbba092c680981154eb48b.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

最佳实践 | 用腾讯云智能语音打造智能对话机器人

作为开发者,你是否有想过基于语音技术打造一款智能对话机器人呢?本文将可以手把手教你技术实现细节。

一文读懂 PaddleSpeech 中英混合语音识别技术

本次PaddleSpeech发布的中英文语音识别预训练模型Conformer_talcs可以通过PaddleSpeech封装的命令行工具CLI或者Python接口快速使用,开发者们可以基于此搭建自己的智能语音应用,也可以参考示例训练自己的中英文语音识别模型。

https://static001.geekbang.org/infoq/41/41c919714cdbba092c680981154eb48b.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

最佳实践 | 基于腾讯云 MRCP-Server 打造简单智能外呼系统

与传统电销模式相比,智能外呼系统作为企业对外与客户连接的窗口,具有更低的使用成本、更丰富的系统功能以及更高的业务增益。本文将详细介绍如何基于腾讯云MRCP-Server打造简单智能外呼系统。

https://static001.geekbang.org/infoq/75/75361952773546b0e8537d9408642ed2.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

AI 科普 | 语音识别准不准?——ASR 效果评测原理与实践

纯干货!本文将带大家从原理到实践了解语音识别效果评测的方方面面。

https://static001.geekbang.org/infoq/04/0477c9354926cbf429f5ccf511d767b6.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

AI 技术实践|用腾讯云录音文件识别让无字幕视频自动生成字幕

本文将分享如何借助录音文件识别服务给无字幕视频自动生成字幕。

https://static001.geekbang.org/infoq/d0/d02989f7209153f70ae5bd6147c6ee6b.webp?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

AngularJS 进阶 (十六) 脏值检查及语音识别集成

    在项目开发过程中,需要对药店信息进行更改。如下图所示。现在的需求是:当药店信息没有发生变化时,点击“更新信息”按钮,提示“药店信息未做任何更改”。

【Python 实践】使用 Python 实时语音控制电脑全局音量

用户头像
迷彩
2022-09-27

说到人工智能中语言实时识别技术及通过人工智能控制设备,大家应该比较熟悉,基本充斥着我们生活的方方面面,比如智能家居,我们手机中的智能机器人,如:苹果的Siri,小米的小爱,天猫精灵,华为的小艺,微软的小冰,以及银行大堂或者酒店前台线下服务类的迎

https://static001.geekbang.org/infoq/f2/f2e7ac69cecfb2714405ad267d2985dc.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一文了解循环神经网络

循环神经网络(RNN)可是在语音识别、自然语言处理等其他领域中引起了变革!

https://static001.geekbang.org/infoq/8a/8a16ffec1d6a22d5a7c90aeb6fb6448c.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

揭秘 · 机器人酒店

用户头像
澳鹏Appen
2022-09-07

无论是人还是机器人,都不存在完美的服务。

https://static001.geekbang.org/infoq/c0/c07d1af21d910cfe8203fbfc00f7964d.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

FastCorrect:语音识别快速纠错模型丨 RTC Dev Meetup

用户头像
声网
2022-06-18

本文将介绍一种低延迟、高精度的纠错模型 FastCorrect,通过利用编辑对齐以及多个候选结果,在取得 10% 的词错误率下降的同时,将模型加速 6-9 倍,相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。

https://static001.geekbang.org/infoq/d6/d62df8529fa178d400fcc3c1cdbcdebb.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

马志强:语音识别技术研究进展和应用落地分享丨 RTC Dev Meetup

用户头像
声网
2022-06-09

本文内容源自「RTC Dev Meetup 丨语音处理在实时互动领域的技术实践和应用】的演讲分享,分享讲师为寰语科技语音识别研究主管马志强。

https://static001.geekbang.org/infoq/2b/2b8ed4ce7a5992f6845533806f2db869.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

AI 驱动音乐创新,网易数帆 X 云音乐刷新 MIREX 世界纪录

用户头像
网易数帆
2022-05-09

在近期揭榜的2021国际音频检索评测大赛(MIREX)上,网易数帆易智语音团队携手网易云音乐音视频实验室,凭借生产级AI技术创新能力,在歌词识别和歌单识别两个赛道大幅打破世界纪录夺得冠军。

使用 APICloud & 科大讯飞 SDK 快速实现语音识别功能

​语音识别功能已经是一个很普及的功能,在特定情境下,能带给人们方便的交互的体验,比如驾驶时使用语音进行唤醒手机,各类智能音响产品,语音控制智能电视等。本文主要介绍在APICloud平台使用科大讯飞的SDK快速实现语音识别功能。

AI 语音识别 - 我给浏览器加了个语音搜索功能

用户头像
DS小龙哥
2022-03-12

语音采集功能使用QT的QAudioInput类来实现,采集声卡的PCM数据,保存起来,通过华为云的语音识别HTTP接口完成文字识别,得到文字后再通过浏览器进行搜索文字相关内容。

https://static001.geekbang.org/infoq/20/20d3644cdfeff921bbe7bb7e9fbfd3a0.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

恒源云 (GPUSHARE)_ 语音识别与语义处理领域之低资源机器翻译综述

用户头像
恒源云
2022-01-13

文章来源 | 恒源云社区 神经机器翻译效果非常好,但需要大量的平行语料,因此有了低资源翻译的研究。本文按照按数据的利用对低资源翻译分为3类详解

https://static001.geekbang.org/infoq/20/20d3644cdfeff921bbe7bb7e9fbfd3a0.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

恒源云 (GPUSHARE)_ 字节跳动的 mRASP 预训练模型真香

用户头像
恒源云
2022-01-05

本文想构建一个统一的机器翻译模型,在提供任意语言对的情况下,可以快速适应新语言。于是提出一种通用的多语言机器翻译预训练模型:mRASP(多语言随机对齐预训练)

带你认识传统语音识别技术

摘要:隐马尔可夫链HMM模型自从1980年代被用于语音识别以来,一直都是实际语音识别系统的主流方法。

初探语音识别 ASR 算法

摘要:语音转写文字ASR技术的基本概念与数学原理简介。

https://static001.geekbang.org/infoq/ca/ca23e9d60df78388e7df3bfd5bf867df.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

恒源云 (GPUSHARE)_ 语音识别与语义处理领域之 [机器翻译] 21.7 mRASP2

用户头像
恒源云
2021-12-27

文章来源 | 恒源云社区(一个专注 AI 行业的共享算力平台恒源智享云)

AI 新手语音入门:认识词错率 WER 与字错率 CER

摘要:介绍了词错率WER和字错率CER的概念,引入了编辑距离的概念与计算方法,从而推导得到词错率或字错率的计算方法。

https://static001.geekbang.org/infoq/ca/ca23e9d60df78388e7df3bfd5bf867df.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

恒源云 (GPUSHARE)_ 文本数据扩增时,哪些单词 (不) 应该被选择?

用户头像
恒源云
2021-12-23

文章来源 | 恒源云社区(恒源云,专注 AI 行业的共享算力平台)

语音识别_语音识别技术文章_InfoQ写作社区