写点什么

微软预计年底实现实时语音界面;硅基智能开源 AI 数字人交互平台 Duix 丨 RTE 开发者日报

作者:声网
  • 2024-07-02
    四川
  • 本文字数:2476 字

    阅读完需:约 8 分钟

微软预计年底实现实时语音界面;硅基智能开源 AI 数字人交互平台 Duix丨 RTE 开发者日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@JLT,@鲍勃

01 有话题的新闻

1、Meta 推出 LLM Compiler 代码优化模型,可搭配其他 AI 改善代码生成 / 编译能力


IT 之家 6 月 30 日消息,Meta 前天推出了一款名为「LLM Compiler」的模型,该模型基于 Meta 现有的 Code Llama 打造,主打代码优化,目前相关模型已登陆 Hugging Face,提供 70 亿参数及 130 亿参数两个版本,允许学术及商业使用。


Meta 认为,尽管业界各大语言模型已在各种编程代码任务中展现了出色的能力,但此类模型在代码优化还有进步空间,目前推出的 LLM Compiler 模型便是一款专为优化代码任务设计的预训练模型,能够模拟编译器对代码进行优化,或将「已经过优化的代码转换回原本的语言」。


IT 之家获悉,LLM Compiler 在 5460 亿个 LLVM-IR 和汇编代码标记的庞大语料库上进行了训练,据称能够达到 77% 的“代码优化潜力”,开发者可以自由将相关模型配合其他 AI 模型一起使用,从而改善生成代码的质量。(@IT 之家)


2、荣耀宣布与字节豆包大模型达成合作


据火山引擎官方消息,荣耀与字节豆包大模型现已达成合作,豆包大模型家族中的语音识别、角色扮演等多款模型将助力荣耀构建移动办公领域垂直模型落地应用的基础能力。据介绍,豆包大模型将为荣耀手机用户提供基于文档理解的互动问答、按照指定格式一键生成会议纪要,以及包括工作总结、演讲稿、会议议程、广告文案、现代诗等在内的多类型、多体裁、多风格智能辅助创作。


具体来看,以撰写企业全员活动邀请函这一场景为例,豆包大模型可以提供活动信息、撰写要求,并生成邀请函框架及具体内容,用户也可以通过自然语言对话来对成文进行后续的多次修改。(@CSDN)


3、马斯克宣布 xAI 将在 8 月份推出 Grok-2 大模型,预计年底推出 Grok-3


7 月 1 日消息,据国外媒体报道,在 3 月份推出 Grok-1.5,4 月份推出 Grok-1.5V 之后,由马斯克创立并领导的人工智能初创公司 xAI,在今年还将对 Grok 系列大模型进行两次重大更新,先后推出 Grok-2 和 Grok-3。


Grok-2 和 Grok-3 大模型将在今年推出,是由马斯克在社交媒体上透露的,其中 Grok-2 将在 8 月份推出,Grok-3 则是将在年底推出。


此外,马斯克还透露,计划年底推出的 Grok-3,将在 10 万块英伟达的 H100 上训练,有可能超越目前的人工智能基准,并真正抓住全球人工智能爱好者的想象力。(@TechWeb)


4、OpenAI CEO Sam Altman:GPT-5 将带来「巨大飞跃」


7 月 1 日消息,根据 Aspen Ideas Festival 上的一次访谈,Sam Altman 提到,开发「GPT-5」还需要一些时间。「我们目前持乐观态度,但还有很多工作要做。」Sam Altman 表示。


目前尚不清楚 GPT-5 的发布日期,但 Sam Altman 表示它将是「巨大飞跃(significant leap forward)」,或许是相较于其前辈 GPT-4 而言。此前,Sam Altman 曾公开表示 GPT-4「有些糟糕」,并委婉地称之为「充其量只是有点尴尬」。


Sam Altman 进一步解释说:「我希望它能取得重大飞跃。GPT-4 经常犯很多错误,比如在推理方面表现不佳,有时还会完全跑偏,犯下低级错误,就像连一个六岁孩子都不会犯的一样。」


Sam Altman 关于 GPT-5 的言论暗示,这个模型可能仍处于早期开发阶段。这可能归因于复杂算法、数据问题以及 GPT-5 本身庞大的体量。Sam Altman 将大型语言模型的开发类比为 iPhone 的发布,「第一款 iPhone 仍然存在很多漏洞,但足以让人们使用。」(@IT 之家)


5、硅基智能开源 AI 数字人交互平台 Duix,可快速创建部署逼真数字人


该平台旨在帮助开发者简化智能数字人的创建和部署过程,提供了丰富的工具和支持,无需技术团队的介入,即可在各种终端设备上部署数字人。用户可以下载多种数字人模型,适用于不同行业需求,并且该项目已开源,便于开发者进行二次开发和个性化定制。功能包括语音输入、语音输出、实时交互和多终端支持等。


此外,平台还提供虚拟助理服务,可应用于乘客服务、自动化客户服务、智能咨询服务、虚拟主持人等场景,提升用户体验和服务效率。(@AI 科技评论)

02 有态度的观点

1、微软 AI CEO Mustafa Suleyman:今年年底,我们将拥有实时的语音界面,允许完全动态的交互


在近日阿斯彭思想节上,微软 AI 负责人 Mustafa Suleyman 与著名财经记者 Andrew Ross Sorkin 进行了一场深入对话。


Mustafa Suleyman 预计年底将实现实时语音界面,实现完全动态交互。Suleyman 强调, AI 的发展并不会像加密货币那样成为一时的热潮,而是会持续对社会产生深远影响。他指出,当前的 AI 技术已经在多个领域展现了其价值,这与加密货币在短时间内的表现形成鲜明对比。


在谈及中美技术竞争时,Suleyman 呼吁在保持竞争的同时,也应寻求合作的机会。他指出,尽管中美之间存在技术上的分裂,但全球化背景下的合作仍然是不可忽视的趋势。通过共同努力,双方可以在各自的技术生态系统中找到共存的方式。(@有新 Newin)


2、扎克伯格最新万字洞察:信息流媒体将转向个人及 AI 互动,看好这三类硬件


Meta CEO 扎克伯格预测,未来十年信息流媒体将转向个人及 AI 互动,智能眼镜将逐步取代手机。他看好全息眼镜、神经腕带等三类硬件,认为它们将改变人类互动方式,提升个性化体验。


扎克伯格强调 AI 技术将多样化,助力创作者和小企业定制 AI,丰富用户互动。他还提到,技术发展将使更多人追求创造力,AI 不会取代创意工作,而是提供新工具。(@有新 Newin)


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
微软预计年底实现实时语音界面;硅基智能开源 AI 数字人交互平台 Duix丨 RTE 开发者日报_声网_InfoQ写作社区