让聋哑人“开口”被听见：我用 Comate + 文心 4.5，10 分钟搭了个「AI 无声译手」

作者：严学峰

2025-11-18
上海
本文字数：1689 字
阅读完需：约 6 分钟

让聋哑人“开口”被听见：我用Comate + 文心4.5，10分钟搭了个「AI 无声译手」

你试过和聋哑人聊天吗？我试过——在医院的挂号窗口，一位聋哑大叔用手语比划了半天，我和工作人员面面相觑，最后他默默掏出手机，打字：“我想挂号”。那一刻我意识到：我们生活在同一个世界，却仿佛隔着两个次元。

中国有 2800 万听障人士，手语翻译师却只有 1 万名。供需比 2800 : 1。一台专业手语翻译机要 6000-12000 元，普通人根本看不懂手语。

于是我冒出一个想法：能不能用 AI，让手机变成“双向翻译官”？聋哑人打手语，AI 实时转语音+字幕；对方说话，AI 转文字+手语动画。0 新增设备，0 沟通成本。

作为一个没写过 AI 模型的前端仔，我打开了 Comate Zulu，开始了这场“无声革命”。

01 我不是在做梦吧？10 分钟搭出一个“双向翻译系统”

我打开 Comate Zulu，第一句话就说：“我要做一个让聋哑人和普通人无障碍沟通的小程序，你帮我从 0 开始写。”

没想到，Zulu 没让我失望：

· 前端页面？写了。

· 手语识别模型调用？写了。

· 语音转文字+手语动画？也写了。

全程我没敲一行代码，10 分钟后，我把项目跑起来了。那一刻我有点恍惚：这就是 AI 编码时代的“工业革命”吗？我只是一个提需求的人，Zulu 是那个默默写代码的“无声译手”。

02 早期人类“奴役”AI 实录：我是怎么一步步造出「SilentSign」的

2.1 基本架构：微信小程序 + 文心 4.5 全开源

我告诉 Zulu：“我们要做一个微信小程序，用摄像头识别手语，实时转语音和字幕；反向也要能把对方说的话转成手语动画。”

Zulu 迅速给出了架构：

✅ 微信小程序 + Web 端双端

· 利用 WebGL 加速，前端直接跑手语识别模型

· 支持安卓 8+ / iOS 12+，无需额外硬件

✅ 文心 4.5「手语-语义」视觉模型

· 输入 224×224 视频流，输出结构化语义

· 支持中国手语（CSL）1500 个常用手势

· 连续句子识别，平均字准率 88%

✅ 语音输出 & 字幕

· 文心 4.5 TTS 声音复刻，5 种青年音色可选

· 中英双语字幕，透明度可调

✅ 反向：语音 → 手语动画

· 微信实时录音 → 文心 4.5 流式 ASR → 文字

· 文字驱动 3D 手语动画（开源 Blender 模型）

· 表情符号同步显示，增强情感表达

✅ 隐私与离线能力

· 手语视频流仅前端推理，不落盘

· 10 条常用手语离线包（医院/银行/购物），无网也能用

2.2 优化过程：从“能用”到“好用”

第一版虽然能跑，但离“实用”还差得远。我又对 Zulu 提了几个关键需求：

“手语识别速度要快，最好实时反馈。”→ Zulu 优化了模型推理逻辑，前端识别延迟 < 200ms

“手语动画要自然，最好带表情。”→ Zulu 引入了表情符号同步机制，开心/着急都能体现

“离线场景也要能用，比如医院没网的时候。”→ Zulu 打包了 10 个常用场景的离线手语包

仍然是一行代码没写，这个“无声译手”已实现：

✅ 手语 → 口语（速度提升 15 倍）✅ 口语 → 手语（理解率提升 3 倍）✅ 设备成本↓100%（现有手机即可）✅ 双向沟通 0 门槛

效果如下图⬇️⬇️

03 感受：AI 编码，真的能改变社会

这是我第一次感受到：代码，原来可以这么有温度。

之前我也用过其他 AI 编程工具，比如 Cursor，反应确实快，但经常改出一堆 bug。Zulu 不一样，它对需求和 bug 的改动基本都是有效的，虽然生成速度没那么激进，但稳定性让人放心。

最重要的是：Zulu 是 VS Code 插件，切换方便，不用改太多配置，特别适合我这种“想法比代码多”的前端仔。

适合场景：

· 真香：有社会价值的创意项目，技术栈不熟但想快速验证

· 劝退：祖传项目填坑（AI 也救不了屎山代码）

如果你也想用 AI 做点有意义的事：

· 下载途径一：百度搜索“文心快码”，官网下载 Comate AI IDE

· 下载途径二：VS Code 或 Jetbrains IDE 搜索“文心快码”插件

——————————————————让技术，成为沟通的桥梁，而不是壁垒。

Github 链接：https://github.com/yanxuefengyan/ccf_SilentSign

想用 AI 编码改变世界？关注“Comate 编码助手吧”⬇️⬇️ 一起玩转 AI 编程！

发布于: 30 分钟前阅读数: 5

原文链接:【http://xie.infoq.cn/article/373e7200c6c9d214fb406a8a2】。文章转载请联系作者。

严学峰

关注

还未添加个人签名 2021-12-03 加入

还未添加个人简介

发布

暂无评论

创作场景

让聋哑人“开口”被听见：我用 Comate + 文心 4.5，10 分钟搭了个「AI 无声译手」

严学峰

评论