语音识别技术实战:从 iOS 到 GPT 的优化之路
语音识别
更新: Evan 告诉我 Whisper 已经解决了语音识别问题。他有一个封装程序可以从麦克风录音并在此处打印转录内容。Whisper 非常令人印象深刻,唯一的注意事项是它有时会在结尾插入完整的虚构句子。这些单词在上下文中总是有点合理,但没有任何声音可能导致这种情况。根据我的经验,这总是发生在最后,删除它没有问题。因此,请注意这一点,你应该忽略下面所有的内容,因为 Whisper 是更好的解决方案。
上周的博客文章相当长,而且拼写错误比平时多。(感谢指出错误的人。我想我已经修复了所有被报告的错误。)这是因为我在评测中看到 iOS 17 的语音识别应该有很大改进,我想我应该试一试。我一直发现 iOS 的识别优于 Google Docs,而且我有一台适合测试版的旧 iPad Pro。
iOS 的表现仍然很好,是的,我认为它比 iOS 16 更好。但它仍然远未达到“神奇”的水平,尤其是在使用技术术语时。以下是从上周文章的原始输出中直接提取的一个段落(我用斜体标出了错误):
它已集成到 W3C 凭证管理规范中,因此通过
navigator.credentials.create和navigator.credentials.get调用。本文档旨在理解支撑 Web 身份验证的深层结构,而不是详细指南。因此,我们将把许多细节留给网络上已有的众多 WebAuthn 指南,而是重点关注 U2F 中的结构如何被继承到 WebAuthn 中并进行了更新。
虽然很多单词都在那里很好,但错误密度如此之高,进行所有修正意味着它并不明显比打字更好。然而,如今全世界都对 LLMs 兴奋不已。它们能帮忙吗?
我写了一个脚本来将文本分段,使每段至少 500 字节,然后将它们发送到gpt-3.5-turbo,并前缀以下指令,温度为 0.6:
以下是一个糟糕的语音识别系统的输出。请纠正其错误并回复修正后的版本,无需任何前言。该系统无法识别的一些不常见单词包括 U2F、CTAP、FIDO、CTAP2、JSON、FIDO2、WebAuthn、持有者令牌、哈希、钓鱼、RP ID、通行密钥、caBLE 和密码管理器。
这是该段落的清理版本:
它已集成到 W3C 凭证管理规范中,因此通过
navigator.credentials.create和navigator.credentials.get调用。本文档旨在理解支撑 Web 身份验证的深层结构,而不是其细节指南。因此,我们将把许多细节留给网络上已有的众多 WebAuthn 指南,而是重点关注 U2F 中的结构如何被继承到 WebAuthn 中并进行了更新。
有一个地方它写了“web authentication”而不是“WebAuthn”,但它修复了所有其他问题!
这就是我尝试的方法:我向 iOS 口述长段落,然后运行脚本用 GPT 清理,然后在 Obsidian 中手动编辑。从 Obsidian 中,pandoc 转换为 HTML 和 EPUB 格式。
这个提示是一些实验的结果。最初,我要求 GPT 修复“错误和语法”,但在阅读结果时,一些句子不正确,我发现它“修复”成了无意义的内容。因此我去掉了“和语法”。你可以要求它以 Markdown 格式输出,我可能应该这样做,但当我想到时,我已经进行了太多手动编辑。
一个奇怪之处是,我用“recognise”(英式拼写)写了指令,但后来认为使用更常见的美式拼写(“recognize”)可能效果更好。但这似乎使它更糟!
一个明显的尝试是使用 GPT 4。然而,我误读了 OpenAI API 的成本,认为他们的收费是按令牌而不是每 1000 令牌。因此,由于估计偏差了三个数量级,GPT 4 对于一个随机实验来说似乎有点太贵了,我对所有内容都使用了 GPT 3.5。
我没有用同样的方式写这篇文章,但这个实验效果足够好,我将来可能会对更长的公开写作再次尝试。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码







评论