从直播硬件出发,浅析直播技术到物联网设备的智能化趋势
直播有个人直播(泛娱乐直播)和企业直播(商业 &商务直播)之分;个人直播的投入成本低,一部手机便可以随时随地开播,且各直播 App 有足够多的直播辅助工具来协助开播,对增值服务需求不高;企业直播讲究规范,有专门的直播间,投入的人力物力很大,直播影响面广泛,对专业的直播硬件,PaaS,SaaS 等软件服务以及运营指导,售后服务等多种增值服务都有明确诉求,故本次分析基于 TO B 的企业直播业务展开。
作者|秦宓
1.直播市场调研
背景
全世界的经济因疫情不断放缓,企业竞争激烈,企业开源节流,降本增效的核心诉求越来越强,而数字经济也在快速发展,逐渐成为新的经济增长动力;企业直播能推动企业的生产,经营等多个环节的价值提升,控制和节约成本,帮助企业传播,触达更多的用户,从而加速企业的数字化转型。
直播参与方
1. C 端用户:信息获取,休闲娱乐,购物等;
2. B 端企业:培训,会议,运营,营销等;
3. 直播服务商:直播硬件,软件,云服务,数据服务,营销服务,办公协同等。
B 端企业的直播场景
从教育,金融,汽车,医疗,互联网,传媒,家居,地产等多个垂直行业,从几十人的小企业到上万人的大型企业,企业直播都在快速应用;企业直播有对内,和对外双重需求;对内主要进行企业培训,会议会展,企业宣传;对外进行产品介绍,赛事直播,电商带货等。
B 端企业对直播的诉求
相比于公有云,企业更希望融合了公有云和私有云的混合云模式,在获取公有云的低成本功能迭代和稳定性能的同时,保持对业务定制的能力;兼具 PaaS 和 SaaS 特性的 aPaaS 服务能更好地满足企业搭建直播系统的需要(甚至是企业搭建自己的视频中台),aPaaS 提供的低代码,可扩展,弹性伸缩的能力让企业的直播服务可以进行更好地定制化;同时低延迟,超高清,高并发,高安全性是衡量用户体验的重要指标。
直播服务商的架构与生态
直播服务商提供了上游,中游,下游的一站式解决方案,同时不断地集成 CRM,HRM,协同办公,数据服务等企业级服务,让直播服务与其他企业级服务产生协同效应,打造以直播业务为核心的企业服务生态。
IoT 定位和机会在哪?
IoT 基于自身定位和技术优势,更有可能在上游提供直播所需的 CDN 分发,智能审核,转码,点播等基础能力,同时在中游聚焦智能化直播硬件,直播 PaaS(iPaaS,aPaaS),数据分析服务等方面的研发;在生态协上集成钉钉办公服务,友盟营销服务等来为直播服务商提供有竞争力的核心能力,先 TO B 再 TO C,输出有竞争力的核心软硬件能力来为直播服务商赋能。
2. 直播相关技术
直播相关的技术涉及到基本的设备端的推拉流以及对应协议,云端的转码,审核,水印等功能;也包含运行在设备端和云端的一些 AI 算法能力。
直播服务流程
1. 主播端:采集封装好的音视频直播流被推流 SDK 推送到直播服务中心;
2. 服务端:推送的视频流通过 CDN 分发节点进行加速,以此来保证上行传输的稳定性;
3. 服务端:视频流推送至多媒体直播中心后,可按需对视频流进行转码,录制,截图,安全审核等处理;
4. 观众端:处理好的视频流通过 CDN 分发节点下发至观众的设备中进行播放;
5. 观众端:直播视频还可以在云端录制下来后转至点播系统提供点播服务。
多媒体框架
FFmpeg:
集录制,转换,音/视频编码解码功能于一体的完整开源解决方案;
支持视频采集,视频格式转换,视频抓图,视频加水印,将音/视频转化成流;
可将摄像头的视频,麦克风的音频以指定格式(如 FLV)来进行 RTMP 协议的推流;
支持协议:HTTP,RTP,RTSP,RTMP 等。
核心模块:
读/写设备数据模块:libavdevice;
音/视频编解码模块:libavcodec(codec =enCode (编码)+ deCode(解码));
音/视频格式打包和解包模块:libavformat;
播放器(用 ffmpeg 解析和解码,可以用拉流播放):ffplay。
编码(压缩处理,便于存储和传输)格式:
视频:H.262,H.264,H.265(有版权);VP8,VP9,AV1(无版权);
音频:MP3,AAC 等;
常用编码器:
视频:libx264(H.264 格式),libx265,libvpx(VP8,VP9 格式),libaom(AV1 格式);
音频:aac(AAC 格式)。
推拉流流程:
硬件加速编解码:
FFmpeg 通过 hwaccel cuda,h264_cuvid,hevc_cuvid 和 h264_nvenc,hevc_nvenc 模块支持硬件加速编码和解码(存在 NVIDIA GPU 情况下),硬件编解码器能产生与软件编解码器相同的输出,但可能使用更少的功率和 CPU;
硬件编解码用到 GPU 处理能力,省电,性能快,分担 CPU 压力和减少 CPU 发热,由于不同硬件平台的芯片性能和接口参数不一样,需要硬件厂商在硬件和软件层面做适配;软件编解码不用 GPU,主要通过 CPU 进行的编解码,耗电,性能较差,但对各个硬件平台的兼容性强;一般的直播平台都会基于设备的具体配置做自适应来保障直播效果。
常用直播协议
RTMP(Real Time Streaming Protocol)
Adobe 实时消息传输协议,基于 TCP 长连接,支持 FLV 格式的连续视频流(收到数据立刻转发);
低延时(1~3S),但在 iOS 平台上没有提供原生支持 RTMP 的播放器;
默认使用 1935 非公共端口,易被防火墙阻拦,在 iOS 端需要使用第三方解码器;
适合用在推流端和拉流端双端。
HTTP-FLV(HTTP Flash Video)
基于 HTTP 长连接的 RTMP,低延时(1~3S),支持 HTML5;
将音/视频数据封装成 FLV 格式,然后通过 HTTP 协议传输;
结合了 RTMP 的低延时,以及复用现有 HTTP 分发资源的流式协议;
实时性和 RTMP 相等,与 RTMP 比省去部分协议交互时间,首屏时间更短,可拓展的功能更多;
HTTP-FLV 一般用于拉流播放。
HLS(HTTP Live Streaming)
Apple 视频直播技术,支持 m3u8 格式的切片视频流;
在服务端收集一段时间的流媒体并切割,生成连续的 ts 切片文件,并更新 m3u8 索引;
延迟性高(5~20S),基于 HTTP 短连接,需要不断地与服务器建立连接,支持 HTML5;
由于是基于 HTTP/80 传输,能有效避免防火墙拦截;
HLS 一般用于拉流播放或者回看。
直播相关算法
直播内容审核(云侧)
由于内容量巨大,人工审核成本高,AI 审核可以基于鉴黄,暴力,恐怖等内容进行过滤。
个性化推荐(云侧)
面向主动搜索,或场景识别的个性化推荐,基于实时兴趣进行相关内容推荐。
广告营销(云侧)
基于直播视频内容,场景等进行广告推广,进行直播内容的商业化变现。
直播美颜(设备侧)
直播美颜(美白,磨皮,贴纸,滤镜),美型(关键点检测,五官调整)等;
设备侧算法推理需要在满足效果的情况下兼顾实时性要求,同时要适配不同的硬件配置。
3. 直播一体机诉求
传统基于手机的直播存在各种各样的问题,市面上一直有对直播一体机这样的专业智能设备的诉求,用来进行直播活动的全流程功能管控和提效。
传统直播道具存在的问题
1. 手机直播发热卡顿,直播画面小,和粉丝互动不方便,也不能拓展到其他高端专业的直播外接设备;
2. 配齐手机,电脑,大屏同屏器,导播台,编码器,音控台等设备进行直播,协同麻烦,操作过于复杂;
3. 复杂的设备协同需要多人参与来进行一场直播,人力成本贵;
4. 直播间装饰,需要设计,材料,人工等额外费用,且不能一键随意切换来改变直播间的背景;
5. 无法同时支持多机位,多个摄像头之间无法协同工作,实现远/近景,产品特写,画中画等效果。
直播一体机可集成功能
1. 集多功能于一体:集成导播台,编码器,采集卡,监视器,音控台,同屏器,提词器于一体;
2. 实时抠图功能:一键可切换直播背景,免去直播间的装修;支持图片,PPT,视频作为直播背景;
3. 多机位可切换:全景,近景,特写机位,可以多角度呈现直播的卖点;
4. 支持多摄像头:可以支持 HDMI,USB 等多路摄像头接入;
5. 支持一键开播:内置主流的如淘宝直播,抖音,快手,小红书等直播平台,可以一键开播;
6. 多媒体接口扩展:可扩展单反,摄像机,微单,麦克风,声卡,键盘鼠标等多媒体设备;
7. 远程 OTA 能力:系统,功能(包括内置 App 升级,新装 App 等),性能等升级均可远程 OTA 升级。
直播一体机软硬件配置
硬件设备:
直播一体机(安卓系统,带 CPU,GPU 能力);
摄像头(支持多机位)。
辅助设备:
灯光,无线麦克风,绿幕抠像布。
软件套件:
集成绿幕抠图, 直播贴片, 多路导播,画中画,水印,机位切换,音频/画质调节,提词器等能力;
软件可拆分为基础软件包与直播高级功能辅助包。
商业模式:
硬件一次性采购,软件套件可以按年收取服务费用。
由直播一体机需求到物联网设备智能化普及的进阶
由于手机直播的不足带来的直播一体机的需求,推进了以直播硬件为载体的直播一体化完整解决方案的诉求,而这还只是当前万千行业的冰山一角。目前 IoT(物理网)已经在 AIoT(人工智能物联网)和 IIoT(工业物联网)两个方向上飞速发展;尤其是是在 AIoT 领域,已经渗透到社区,园区,城市,农业,商业等众多领域,并逐渐形成端,边,管,云一体化的各个细分方向的专业化解决方案。
硬件智能化便是这些解决方案的基石,被智能化的硬件本着数据就近消费,算力就近计算的原则,与边缘计算,云计算进行协同互联,推进了 AIoT 的加速普及;未来在端侧, 边缘侧将会有 120 亿的 IoT 设备,1500 亿的嵌入式设备,而这些都将是可以智能化的沃土。
本调研从大家熟悉的直播业务出发,拆解直播一体机这种智能化硬件设备诉求和组成。这样的智能化硬件已经非常多了,如云 POS 机,云投屏机,电子智能秤,AI 摄像头,Vlog 互动屏,安防边缘一体机,商业客流分析一体机,工业瑕疵检测一体机等,会逐一对以前已有的各种设备进行一遍智慧化的改造。
IoT 的时代永远不会到来,因为它从现在开始的每天都在不断地到来中,未来不管是在芯片硬件,操作系统,算法推理,数据分析,工程集成,云端监控 & 运维等都蕴含着巨量的机会,等待大家一起挖掘。
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。
版权声明: 本文为 InfoQ 作者【阿里云视频云】的原创文章。
原文链接:【http://xie.infoq.cn/article/5e7bf571b785641ae9c1f16f8】。文章转载请联系作者。
评论