让聋哑人“开口”被听见:我用 Comate + 文心 4.5,10 分钟搭了个「AI 无声译手」

你试过和聋哑人聊天吗?我试过——在医院的挂号窗口,一位聋哑大叔用手语比划了半天,我和工作人员面面相觑,最后他默默掏出手机,打字:“我想挂号”。那一刻我意识到:我们生活在同一个世界,却仿佛隔着两个次元。
中国有 2800 万听障人士,手语翻译师却只有 1 万名。供需比 2800 : 1。一台专业手语翻译机要 6000-12000 元,普通人根本看不懂手语。
于是我冒出一个想法:能不能用 AI,让手机变成“双向翻译官”?聋哑人打手语,AI 实时转语音+字幕;对方说话,AI 转文字+手语动画。0 新增设备,0 沟通成本。
作为一个没写过 AI 模型的前端仔,我打开了 Comate Zulu,开始了这场“无声革命”。
01 我不是在做梦吧?10 分钟搭出一个“双向翻译系统”
我打开 Comate Zulu,第一句话就说:“我要做一个让聋哑人和普通人无障碍沟通的小程序,你帮我从 0 开始写。”
没想到,Zulu 没让我失望:
· 前端页面?写了。
· 手语识别模型调用?写了。
· 语音转文字+手语动画?也写了。
全程我没敲一行代码,10 分钟后,我把项目跑起来了。那一刻我有点恍惚:这就是 AI 编码时代的“工业革命”吗?我只是一个提需求的人,Zulu 是那个默默写代码的“无声译手”。
02 早期人类“奴役”AI 实录:我是怎么一步步造出「SilentSign」的
2.1 基本架构:微信小程序 + 文心 4.5 全开源
我告诉 Zulu:“我们要做一个微信小程序,用摄像头识别手语,实时转语音和字幕;反向也要能把对方说的话转成手语动画。”
Zulu 迅速给出了架构:
✅ 微信小程序 + Web 端双端
· 利用 WebGL 加速,前端直接跑手语识别模型
· 支持安卓 8+ / iOS 12+,无需额外硬件
✅ 文心 4.5「手语-语义」视觉模型
· 输入 224×224 视频流,输出结构化语义
· 支持中国手语(CSL)1500 个常用手势
· 连续句子识别,平均字准率 88%
✅ 语音输出 & 字幕
· 文心 4.5 TTS 声音复刻,5 种青年音色可选
· 中英双语字幕,透明度可调
✅ 反向:语音 → 手语动画
· 微信实时录音 → 文心 4.5 流式 ASR → 文字
· 文字驱动 3D 手语动画(开源 Blender 模型)
· 表情符号同步显示,增强情感表达
✅ 隐私与离线能力
· 手语视频流仅前端推理,不落盘
· 10 条常用手语离线包(医院/银行/购物),无网也能用
2.2 优化过程:从“能用”到“好用”
第一版虽然能跑,但离“实用”还差得远。我又对 Zulu 提了几个关键需求:
“手语识别速度要快,最好实时反馈。”→ Zulu 优化了模型推理逻辑,前端识别延迟 < 200ms
“手语动画要自然,最好带表情。”→ Zulu 引入了表情符号同步机制,开心/着急都能体现
“离线场景也要能用,比如医院没网的时候。”→ Zulu 打包了 10 个常用场景的离线手语包
仍然是一行代码没写,这个“无声译手”已实现:
✅ 手语 → 口语(速度提升 15 倍)✅ 口语 → 手语(理解率提升 3 倍)✅ 设备成本↓100%(现有手机即可)✅ 双向沟通 0 门槛
效果如下图⬇️⬇️
03 感受:AI 编码,真的能改变社会
这是我第一次感受到:代码,原来可以这么有温度。
之前我也用过其他 AI 编程工具,比如 Cursor,反应确实快,但经常改出一堆 bug。Zulu 不一样,它对需求和 bug 的改动基本都是有效的,虽然生成速度没那么激进,但稳定性让人放心。
最重要的是:Zulu 是 VS Code 插件,切换方便,不用改太多配置,特别适合我这种“想法比代码多”的前端仔。
适合场景:
· 真香:有社会价值的创意项目,技术栈不熟但想快速验证
· 劝退:祖传项目填坑(AI 也救不了屎山代码)
如果你也想用 AI 做点有意义的事:
· 下载途径一:百度搜索“文心快码”,官网下载 Comate AI IDE
· 下载途径二:VS Code 或 Jetbrains IDE 搜索“文心快码”插件
——————————————————让技术,成为沟通的桥梁,而不是壁垒。
Github 链接:https://github.com/yanxuefengyan/ccf_SilentSign
想用 AI 编码改变世界?关注“Comate 编码助手吧”⬇️⬇️ 一起玩转 AI 编程!
版权声明: 本文为 InfoQ 作者【严学峰】的原创文章。
原文链接:【http://xie.infoq.cn/article/373e7200c6c9d214fb406a8a2】。文章转载请联系作者。







评论