微信 Callkit 扩大测试范围;DeepSeek-R1 模型发布,性能对标 OpenAI o1 正式版丨 RTE 开发者日报
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@鲍勃
01 有话题的技术
1、DeepSeek-R1 模型发布,性能对标 OpenAI o1 正式版
昨日,幻方量化旗下 AI 公司深度求索(DeepSeek)正式发布 DeepSeek-R1 模型,并同步开源模型权重。
据官方介绍,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
DeepSeek 称,DeepSeek-R1 蒸馏小模型超越 OpenAI o1-mini。DeepSeek 在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
登录 DeepSeek 官网或官方 App,打开「深度思考」模式,即可调用最新版 DeepSeek-R1 完成各类推理任务。
(@ IT 之家)
2、k1.5 新模型登场:Kimi 如何做到满血版多模态 o1 水平
k1.5 多模态思考模型:
这是继去年 11 月发布 k0-math 数学模型,12 月发布 k1 视觉思考模型之后,Kimi 连续第三个月带来 k 系列强化学习模型的重磅升级。
从基准测试成绩看,k1.5 多模态思考模型实现了 SOTA (state-of-the-art)级别的多模态推理和通用推理能力。
在 short-CoT 模式下, Kimi k1.5 的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。
在 long-CoT 模式下, Kimi k1.5 的数学、代码、多模态推理能力,也达到长思考 SOTA 模型 OpenAI o1 正式版的水平。这应该是全球范围内,OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能。(@月之暗面 Kimi)
3、阶跃星辰推出 Step-2 mini/文学大师版
1 月 20 日,阶跃星辰宣布正式为用户带来两款 Step-2 系列新模型,Step-2 mini 和 Step-2 文学大师版。
Step-2 mini 和万亿参数大模型 Step-2 相比,以 3% 左右的参数量保有了其 80%以上的模型性能;同时,Step-2 mini 拥有更快的生成速度和极高的性价比,在输入 4000 tokens 的情况下,Step-2 mini 的平均首字时延仅 0.17 秒。Step-2 mini 还拥有极高性价比,官方表示,Step-2 mini 输入 1 元/百万 token,而输出 2 元/百万 token。
目前,用户已经可以在阶跃星辰开放平台调用 Step-2 mini 的 API 接口。同步推出的 Step-2 文学大师版沿袭了 Step-2 广袤的知识储备、对文字强大的细节把控能力,与此同时它还拥有更加强大的内容创作能力。Step-2 文学大师版目前已经上线跃问 App,网页端也将于本周全量上线。(@ APPSO)
4、微信 Callkit 扩大测试范围,更多人能使用了
近日,大量微信用户发现,自己的微信突然有了 CallKit 功能,觉得非常意外,相关话题冲上社交平台热搜榜。
诸多网友表示,确实在「设置-消息通知」中找到了「语音和视频通话用系统电话接听」选项,点击即可开启该功能。但 CallKit 功能仍在内测中,依旧有不少用户尚未获得更新。
CallKit 功能指的是可将第三方网络通信集成在 iPhone 自带的通话功能中,以提供更灵活的通话体验。微信支持 CallKit 后,即便微信在后台运行或处于关闭状态,乃至手机在锁屏的状态下,好友拨打的微信语音通话也能像普通电话一样,在系统级的通话界面显示出来。还能切换外放或者开启静音,十分方便。
而无论接听还是拒绝,此次语音通话记录还能自动在系统通话中保存下来,能一键回拨。
同时,因为接入 CallKit 功能,其通话提醒弹窗还会以「灵动岛」形式显示。因此,微信登上灵动岛的相关话题也冲上热搜。
早在 2016 年的 iOS 10 系统里,苹果就推出了这个开发框架,允许第三方 VoIP 应用将通话功能集成到 iPhone 自带的通话界面中,从而提升用户体验。但 2021 年该功能被禁用,直到现在都没有全面开放。
直至现在,CallKit 成为用户最「意难忘」的功能,微信更新十个小功能都不及这一个功能的上线能给用户带来惊喜。(@电脑报)
02 有亮点的产品
1、字节跳动推出 Trae :提供全面的中文界面及友好的代码注释支持
字节跳动近日推出了一款针对中文开发者的 AI 集成开发环境(IDE)——Trae。这一产品旨在与 Cursor 和 Windsurf 等国际知名工具竞争,特别是在中文开发者的使用体验上,Trae 希望能填补现有工具的短板。
在编程的日常中,许多开发者常常需要在英文和中文之间切换,这种中英混合的工作模式虽然习以为常,却让不少中文开发者感到不便。现有的 IDE 如 Cursor、Windsurf 和 Vscode,虽然功能强大,却未能对中文用户进行特别优化,造成使用时的不适感。Trae 的出现正是为了解决这一问题。
Trae IDE 从底层设计开始就充分考虑了中文开发者的需求,提供全面的中文界面及友好的代码注释支持,致力于带来更为顺畅的使用体验。此外,Trae 还集成了 Claude3.5 和 GPT-4o 等国际主流大模型,具备智能代码生成和逻辑优化的功能。虽然在理解中文的能力上还有提升空间,但 Trae 的重点在于提供符合中文开发者实际场景的使用体验。
在 Trae 的界面中,用户可以轻松选择内置的编程语言和主题,界面友好且简洁。此外,Trae 支持从 Vscode 或 Cursor 中迁移配置,极大地方便了用户的上手。同时,Trae 还提供了 AI Chat 功能,用户可以通过快捷键与 AI 进行交互,AI 则能够提供代码更新建议。尽管在某些方面与 Cursor 存在差异,比如在对话过程中的上下文引用,Trae 却展现出独特的实用性。
值得注意的是,Trae 还具备一个强大的 Builder 功能,能够根据用户需求生成完整的代码项目。然而,用户在项目开发过程中仍需手动确认 AI 生成的代码,确保代码的完整性和准确性。这一过程或许略显繁琐,但也为用户提供了更大的控制权。
Trae 的上线不仅丰富了中文开发者的工具选择,也为提升其编程体验开辟了新的可能性。(@ AIbase 基地)
2、猫与星:AI 定制孩子自己的童话故事音频
「猫与星」是一款能帮助孩子们根据兴趣,快速生成有趣的专属童话,并在睡前温柔的叙述给小朋友们,陪伴其入眠的 App。在「猫与星」中,你只需要输入孩子的信息,就能生成出一段专属于孩子自己的童话冒险,App 内包含多套有趣的故事主题,确保所生成出的每一个故事都能保证独一无二。
「猫与星」刚刚上架 App Store,目前正在为年度会员提供早鸟优惠,家里有小朋友的小伙伴们可以考虑下载体验,当作送给小朋友的新年礼物也会是一个不错的选择。(@ PriceTag 发现好应用)
03 有态度的观点
1、比尔盖茨:人类还将迎来一些新的 AI 突破,比如所谓的「元认知」(metacognition)
近期,比尔盖茨与阿布扎比 CNN 学院的学生进行交流,并接受了深度专访,其表示人类还将迎来一些新的 AI 突破。比尔盖茨在采访中提到,OpenAI 旗下的 ChatGPT-4 突破了电脑并不能真正「阅读」这一问题;比尔盖茨还以此表示,人类还正在迎来一些新的 AI 突破,比如所谓的「元认知(metacognition)」。当学生提及「应该采取什么措施来确保资源匮乏地区也能够受益」,比尔盖茨认为,真正的难点在于,让这些智能服务所需的云计算资源能在哪些国家使用。同时比尔盖茨建议,只有通过有意识的努力,比如准备好合适的数据,支持当地语言,帮助这些国家建立符合他们需求的监管体系,并且为他们提供一定比例的云计算资源捐赠,就能覆盖很多基本需求。最后,对于 AI 本身与能源该如何平衡,比尔盖茨觉得相较于其他工业,人工智能对能源的消耗还算小。但他也提醒,人类需要考虑混合多种能源技术,让核能更便宜,也需要探索各种方式让天然气使用没有任何泄漏,甚至实现零二氧化碳排放。(@ APPSO)
更多 Voice Agent 学习笔记:
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
评论