写点什么

阿里发布革新的音频多模态模型 Qwen2-Audio;月之暗面回应大模型显示「9.11 大于 9.9」丨 RTE 开发者日报

作者:声网
  • 2024-07-18
    重庆
  • 本文字数:2077 字

    阅读完需:约 7 分钟

阿里发布革新的音频多模态模型 Qwen2-Audio;月之暗面回应大模型显示「9.11 大于 9.9」丨 RTE 开发者日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@JLT,@鲍勃

01 有话题的新闻

1、阿里云开源 Qwen2-Audio 音频聊天和预训练大型音频语言模型


Qwen2-Audio 由阿里巴巴集团 Qwen 团队开发,它能够接受各种音频信号输入,对语音指令进行音频分析或直接文本回复。与以往复杂的层次标签不同,Qwen2-Audio 通过使用自然语言提示简化了预训练过程,并扩大了数据量。


Qwen2-Audio 有两个显著的特点:它能够智能理解音频内容并按照声音命令做出适当的反应;而且,它在语音聊天和音频分析两种模式下都能工作,用户可以自由地与它进行语音互动,无需文字输入。例如,如果音频片段中同时包含声音、多人对话和语音命令,Qwen2-Audio 能够直接理解命令并提供对音频的解释和回应。


报告还提到,Qwen2-Audio 在事实性和遵循期望行为方面经过了优化,并且在音频中心指令跟随能力的测试中,其表现超过了以前的最先进技术,如 Gemini-1.5-pro。此外,Qwen2-Audio 是开源的,目的是推动多模态语言社区的发展。(@喜好儿网)


2、AI 视频转换:Live2Diff 实现实时流处理


上海人工智能实验室、萨尔兰计算机科学中心和麦克斯普尔特计算机科学研究所以及南洋理工大学的 S-Lab 的科研团队联合开发了一项名为 Live2Diff 的创新技术,为实时视频流转换领域带来重大突破。这项技术巧妙地将单向注意力机制应用于视频扩散模型,在不依赖未来帧的情况下实现了高质量的实时视频处理。


Live2Diff 在 RTX 4090 GPU 上可达到 16FPS 的处理速度,展现出卓越的性能。通过采用高效的去噪方案和流水线处理,该技术在时间平滑性、效率和生成质量方面都超越了现有方法。(@AI 科技评论)


3、ReadLecture 让视频内容瞬间化为精华笔记


ReadLecture 是一款视频转图文 AI 工具,能极大提升用户看视频的效率,原本 2 小时的讲座视频,只需要 5 分钟即可了解视频内容全貌。这款工具融入大语言模型、语音转文字和机器视觉等前沿技术,可以准确转录讲话稿和提取关键帧(如讲座的 PPT),并给出详细的总结、翻译和思考笔记。


该工具提供三种输出版式,适合沉浸式阅读、快速浏览和深入分析。ReadLecture 还能提供多种形式的内容总结,如思维导图、问答式理解和辩证性思考等。(@AI 科技评论)


4、曝 AI 学者李飞飞初创企业估值超 10 亿美元


据《金融时报》报道,知情人士透露,著名华裔计算机科学家李飞飞创办的「空间智能」企业 World Labs 估值已经超过 10 亿美元。据悉,该企业将尝试通过开发类似人类的视觉数据处理,以创造一种「空间智能」的 AI。


据透露,从 4 月成立至今,World Labs 已经进行了两轮融资,投资方包括顶级科技投资人 Andreessen Horowitz 和 AI 基金 Radical Ventures,最新一轮的融资金额可能达到约 1 亿美元。(@爱范儿)


5、月之暗面回应大模型显示「9.11 大于 9.9」


近日,有媒体记者测试了 12 个国内外主流大模型,其中 ChatGPT-4o、字节豆包、月之暗面 kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量等模型均在测试中回答:9.11 大于 9.9,相关话题登上微博热搜。


对于上述现象,月之暗面回应新浪科技称,目前对大模型的能力探索还处在非常早期的阶段,像是「9.9 和 9.11 哪个大」和「strawberry 有几个 r」这些边界案例的发现都有助于增加开发者对大模型能力边界的了解。


月之暗面也表示,要解决问题,需要不断增强底层基础模型的智能水平,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。


也有相关人士表示,大模型可能学习到的都是「版本号」、「章节」、「日期」等场景,这些场景下 9.11 确实大于 9.9,大模型回答错误可能是没有跟人类的需求对齐。(@爱范儿 )

02 有态度的观点

1、腾讯首席科学家张正友:仅把大模型塞进机器人产生不了真正的具身智能


腾讯首席科学家张正友在「AI 时代的人机关系展望」论坛上介绍了 Robotics X 实验室基于「层次化」控制研发智能机器人的进展,以及人机共生时代的经济发展机遇与应对策略。他认为长远来看,智能机器人会走进千家万户,尤其在康复养老、个性化教育等领域带来变化。他强调智能机器人需要有复杂的感知能力、强大的执行能力、学习能力和自适应能力等,以用于安全地生活在人类环境中并在遵循道德和法律规范的前提下,有效地服务人类。他分享了实验室的研究成果,如让机器狗学会真狗的运动方式和让机器人自主完成复杂任务等。(@腾讯研究院)


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
阿里发布革新的音频多模态模型 Qwen2-Audio;月之暗面回应大模型显示「9.11 大于 9.9」丨 RTE 开发者日报_声网_InfoQ写作社区