写点什么

轻松上手 - 识图文字朗读

作者:最新动态
  • 2025-09-04
    湖北
  • 本文字数:1176 字

    阅读完需:约 4 分钟

踏入鸿蒙世界的敲门砖,标志着您在技术征途上的全新起点,提升就业竞争力,获得行业认可,点亮职业成长先机,快人一步抢占未来应用开发赛道!https://developer.huawei.com/consumer/cn/training/dev-cert-detail/101666948302721398?ha_source=hmosclass-juejin&ha_sourceId=89000434

介绍

本案例旨在介绍一种创新的图像识别与语音合成技术,专注于将图片中的文字内容精准识别并转化为可听的语音输出。通过集成先进的 OCR(光学字符识别)技术和 TTS(文本到语音)转换技术,本方案能够迅速捕捉图片中的文字信息,无论是文档扫描、书籍页面还是路标指示,都能实现高效准确的识别。随后,利用智能语音合成技术,将识别出的文字流畅地朗读出来,为视觉障碍人士、阅读不便者以及需要高效信息获取的用户提供极大便利。该技术不仅拓宽了信息获取的渠道,还极大地提升了信息处理的效率和用户体验,是现代智能科技助力生活品质提升的典型应用。

效果预览




知识点

1. Picker(选择器)

2. textRecognition(文字识别)

3. textToSpeech (文本转语音)

工程目录


具体实现

下面介绍一下如何实现识别图片文字,并朗读识别出来的文字,我习惯把逻辑功能放到单独的文件里,在界面上调用,这样 UI 和逻辑分开,从工程目录可以看出,Index.ets 文件是负责 UI 的,ImageUtils.ets 文件里包含两个 funtion,一个是 getChooseImage 从图库选择图片并返回,一个是 readImage2Text 把参数图片里的文字识别出来并返回,Speaker.ets 文件是文字转语音的逻辑,包含创建对象,调用播放、暂停接口。

1. 图片选择

选择器(Picker)是一个封装 PhotoViewPicker、DocumentViewPicker、AudioViewPicker 等 API 模块,具有选择与保存的能力。应用可以自行选择使用哪种 API 实现文件选择和文件保存的功能。该类接口,需要应用在界面 UIAbility 中调用,否则无法拉起 photoPicker 应用或 FilePicker 应用。


2. 识图文字

通用文字识别服务提供图像信息转换为字符信息的能力。通过拍照、扫描等光学输入方式,把各种票据、卡证、表格、报刊、书籍等印刷品文字转化为图像信息,再利用文字识别技术将图像信息转化为计算机等设备可以使用的字符信息,便于用户提取字符内容、屏幕坐标及外框。目前本服务支持识别的语言有:简体中文、英文、日文、韩文、繁体中文五种语言。


3. 朗读文字

文本转语音服务提供将文本信息转换为语音并进行播报的能力,便于用户与设备进行互动,实现实时语音交互,文本播报。




4. 界面布局

界面布局为垂直布局,最上面是两个按钮,水平布局,下来是选择图片后,预览图片,再下来是从图片识别出来的文字。



约束与限制

1.本示例仅支持标准系统上运行,支持设备:华为手机。

2.HarmonyOS 系统:HarmonyOS NEXT Developer Beta1 及以上。

3.DevEco Studio 版本:DevEco Studio NEXT Developer Beta1 及以上。

4.HarmonyOS SDK 版本:HarmonyOS NEXT Developer Beta1 SDK 及以上。

(转载自 51CTO,作者:狼哥 Army)

用户头像

最新动态

关注

还未添加个人签名 2019-07-19 加入

还未添加个人简介

评论

发布
暂无评论
轻松上手-识图文字朗读_最新动态_InfoQ写作社区