写点什么

让聋哑人“开口”被听见:我用 Comate + 文心 4.5,10 分钟搭了个「AI 无声译手」

作者:严学峰
  • 2025-11-18
    上海
  • 本文字数:1689 字

    阅读完需:约 6 分钟

让聋哑人“开口”被听见:我用Comate + 文心4.5,10分钟搭了个「AI 无声译手」

你试过和聋哑人聊天吗?我试过——在医院的挂号窗口,一位聋哑大叔用手语比划了半天,我和工作人员面面相觑,最后他默默掏出手机,打字:“我想挂号”。那一刻我意识到:我们生活在同一个世界,却仿佛隔着两个次元。

中国有 2800 万听障人士,手语翻译师却只有 1 万名。供需比 2800 : 1。一台专业手语翻译机要 6000-12000 元,普通人根本看不懂手语。

于是我冒出一个想法:能不能用 AI,让手机变成“双向翻译官”?聋哑人打手语,AI 实时转语音+字幕;对方说话,AI 转文字+手语动画。0 新增设备,0 沟通成本。

作为一个没写过 AI 模型的前端仔,我打开了 Comate Zulu,开始了这场“无声革命”。


01 我不是在做梦吧?10 分钟搭出一个“双向翻译系统”

我打开 Comate Zulu,第一句话就说:“我要做一个让聋哑人和普通人无障碍沟通的小程序,你帮我从 0 开始写。”

没想到,Zulu 没让我失望:

·         前端页面?写了。

·         手语识别模型调用?写了。

·         语音转文字+手语动画?也写了。

全程我没敲一行代码,10 分钟后,我把项目跑起来了。那一刻我有点恍惚:这就是 AI 编码时代的“工业革命”吗?我只是一个提需求的人,Zulu 是那个默默写代码的“无声译手”。




02 早期人类“奴役”AI 实录:我是怎么一步步造出「SilentSign」的

2.1 基本架构:微信小程序 + 文心 4.5 全开源

我告诉 Zulu:“我们要做一个微信小程序,用摄像头识别手语,实时转语音和字幕;反向也要能把对方说的话转成手语动画。”

Zulu 迅速给出了架构:

✅ 微信小程序 + Web 端双端

·         利用 WebGL 加速,前端直接跑手语识别模型

·         支持安卓 8+ / iOS 12+,无需额外硬件

✅ 文心 4.5「手语-语义」视觉模型

·         输入 224×224 视频流,输出结构化语义

·         支持中国手语(CSL)1500 个常用手势

·         连续句子识别,平均字准率 88%

✅ 语音输出 & 字幕

·         文心 4.5 TTS 声音复刻,5 种青年音色可选

·         中英双语字幕,透明度可调

✅ 反向:语音 → 手语动画

·         微信实时录音 → 文心 4.5 流式 ASR → 文字

·         文字驱动 3D 手语动画(开源 Blender 模型)

·         表情符号同步显示,增强情感表达

✅ 隐私与离线能力

·         手语视频流仅前端推理,不落盘

·         10 条常用手语离线包(医院/银行/购物),无网也能用

2.2 优化过程:从“能用”到“好用”

第一版虽然能跑,但离“实用”还差得远。我又对 Zulu 提了几个关键需求:

“手语识别速度要快,最好实时反馈。”→ Zulu 优化了模型推理逻辑,前端识别延迟 < 200ms

“手语动画要自然,最好带表情。”→ Zulu 引入了表情符号同步机制,开心/着急都能体现

“离线场景也要能用,比如医院没网的时候。”→ Zulu 打包了 10 个常用场景的离线手语包

仍然是一行代码没写,这个“无声译手”已实现:

✅ 手语 → 口语(速度提升 15 倍)✅ 口语 → 手语(理解率提升 3 倍)✅ 设备成本↓100%(现有手机即可)✅ 双向沟通 0 门槛

效果如下图⬇️⬇️



03 感受:AI 编码,真的能改变社会

这是我第一次感受到:代码,原来可以这么有温度。

之前我也用过其他 AI 编程工具,比如 Cursor,反应确实快,但经常改出一堆 bug。Zulu 不一样,它对需求和 bug 的改动基本都是有效的,虽然生成速度没那么激进,但稳定性让人放心。

最重要的是:Zulu 是 VS Code 插件,切换方便,不用改太多配置,特别适合我这种“想法比代码多”的前端仔。

适合场景:

·         真香:有社会价值的创意项目,技术栈不熟但想快速验证

·         劝退:祖传项目填坑(AI 也救不了屎山代码)

如果你也想用 AI 做点有意义的事:

·         下载途径一:百度搜索“文心快码”,官网下载 Comate AI IDE

·         下载途径二:VS Code 或 Jetbrains IDE 搜索“文心快码”插件

——————————————————让技术,成为沟通的桥梁,而不是壁垒。

Github 链接:https://github.com/yanxuefengyan/ccf_SilentSign

想用 AI 编码改变世界?关注“Comate 编码助手吧”⬇️⬇️ 一起玩转 AI 编程!


 

发布于: 30 分钟前阅读数: 5
用户头像

严学峰

关注

还未添加个人签名 2021-12-03 加入

还未添加个人简介

评论

发布
暂无评论
让聋哑人“开口”被听见:我用Comate + 文心4.5,10分钟搭了个「AI 无声译手」_AI编程助手_严学峰_InfoQ写作社区