面壁智能小钢炮重磅升级 MiniCPM3-4B 开源;字节跳动 Loopy,音频驱动的 AI 视频生成技术丨 RTE 开发者日报
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、面壁智能推出小钢炮开源 MiniCPM3-4B AI 模型,宣称「端侧 ChatGPT 时刻到来」
面壁智能官方公众号昨日(9 月 5 日)发布博文,宣布推出开源 MiniCPM3-4B AI 模型,声称「端侧 ChatGPT 时刻到来」。
MiniCPM3-4B 是 MiniCPM 系列的第三代产品,整体性能超过了 Phi-3.5-mini-Instruct 和 GPT-3.5-Turbo-0125,媲美多款 70 亿~90 亿参数的 AI 模型。
相比 MiniCPM1.0 / MiniCPM2.0,MiniCPM3-4B 拥有更强大、更多用途的技能集,可用于更广泛的用途,支持函数调用和代码解释器。
3 个版本的模型结构(1->2->3)区别如下所示:
词表大小:123K->73K->73K
模型层数:40->52->62
隐藏层节点:2304->1536->2560
最大长度:4k->4K->32k
系统提示词:不支持-> 不支持-> 支持
工具调用和代码解释器:不支持-> 不支持-> 支持
MiniCPM3-4B 有一个 32k 上下文窗口,借助 LLMxMapReduce,不需要占用太高的内存,可以处理理论上的无限上下文。
面壁智能还发布了 RAG 套件 MiniCPM-Embedding 模型和 MiniCPM-Reranker 模型,针对 RAG 场景还发布了微调版 MiniCPM3-RAG-LoRA 模型。(@IT 之家)
2、腾讯发布新一代大模型「混元 Turbo」:推理效率提升 100%,成本降低 50%
在今日的 2024 腾讯全球数字生态大会上,腾讯正式发布新一代大模型 —— 腾讯混元 Turbo。
据腾讯官方介绍,该模型采用 MoE 架构,比上一代产品推理效率提升 100%,推理成本降低 50%。
对外,腾讯混元 Turbo 的价格也比混元 Pro 降低 50%,输出价格为 0.05 元 / 千 tokens,输入价格为 0.015 元 / 千 tokens。
9 月 2 日,中文大模型测评基准 SuperCLUE 发布《中文大模型基准测评 2024 年 8 月报告》,混元新一代大语言模型预览版(Turbo-Preview)在理科、文科均居于第一名。Hard 任务上腾讯混元 Turbo-Preview 取得 74.33 分,是国内唯一超过 70 分的大模型,与 ChatGPT-4o 有微小差距。
目前腾讯内部近 700 个业务及场景已接入,包含腾讯元宝、腾讯云、QQ、微信读书、腾讯新闻、腾讯客服等。此前,腾讯旗下协作 SaaS(软件即服务)产品全面接入腾讯混元大模型。(@IT 之家)
3、AI 文字生成音乐模型:FluxMusic
FluxMusic 是一种基于类似 Flux 的 Transformer 架构的新型模型,专门用于从文本生成音乐。这个模型的创新之处在于,它采用了双文本音乐流的独立注意力机制,随后应用去噪补丁预测来处理堆叠的单音乐流。通过这一系列步骤,FluxMusic 模型能够有效捕获字幕语义信息,并在生成过程中保持较高的推理灵活性。该模型在生成音乐时展现出更高的准确性、灵活性和逼真度,为文本到音乐的生成开创了新的方向。(@ AIGC Research)
4、字节跳动新 AI 项目 Loopy,音频驱动的 AI 视频生成技术
字节跳动的 Loopy 项目在音频驱动的 AI 视频生成领域实现了显著进展,提出了一个端到端的纯音频条件视频扩散模型,能够处理长期运动依赖性,生成连续动作和表情变化,包括语言和非语言动作。
Loopy 项目展示了对唱歌音频和二次元图片的良好处理能力,实现了在运动自然度和肖像细节合成方面的重大突破。通过音频分析,Loopy 生成与声音同步的面部运动,无需额外的空间模板,能够为同一参考图像生成适应不同音频输入的运动,包括非语音运动、情绪驱动的眉毛和眼睛运动以及自然的头部运动。(@雷锋网)
5、智源研究院推出全球首个包含文生视频的模型对战评测服务
智源研究院推出了全球首个包含文生视频的模型对战评测服务,FlagEval 大模型角斗场。这一服务开放给用户使用,涵盖了约 40 款大模型,支持多种任务的在线或离线评测。通过引入主观倾向阶梯评分体系,提供更精确的模型性能评估。评测过程采取匿名机制,确保公正性。用户可通过网页端或移动端访问入口参与评测,体验高效的模型对战评测。(@AIbase 基地)
02 有态度的观点
1、Demis Hassabis:人类的未来是实现 AGI 自由的未来
随着 AI 技术的突飞猛进,行内人对 AI 的看法也越来越多样复杂。前有马斯克四处宣扬「AI 可能使人类灭亡」,后有 Andrew Ng 嗤之以鼻「担心超级智能 AI 的人就像是在担心火星人口太多」,还有奥特曼坚持「加速 AI 研发才能解决全球挑战」,李飞飞反复强调「必须确保 AI 为人服务」。各种论点争得热火朝天,DeepMind 的创始人 Demis Hassabis 也发表了自己的观点。
Hassabis 冷静地指出,现在有些初创公司和投资者已经被 AI 的短期潜力冲昏了头脑。虽然 AI 未来的发展潜力无限,但目前那些听起来像科幻电影的目标,其实大多只是噱头,技术远未成熟。要识别这些 AI 公司宣传是真是假,Hassabis 的秘诀是:「了解他们的技术背景和趋势,尽量远离那些盲目跟风的公司。」
面对当前的 AI 热潮,Hassabis 心情复杂。一方面,他怀念 AI 尚未受到太多关注时的宁静,没有那么多喧嚣和干扰;另一方面,他也认可如今的关注推动了 AI 在现实世界中的积极应用。
虽然 Hassabis 支持 AI 开源,但也清醒地意识到这背后的巨大风险,特别是 AI 被用作不良目的的潜在威胁。他提出了一个折中方案:延迟发布开源模型,让它们落后于前沿技术一两年,以减少安全隐患。
Hassabis 特别强调了对 AGI 和 AI 管控的担忧。他认为开源模型一旦发布便无法收回,需更严格的安全措施和测试环境。他提议开发 AI 助手以监控和测试下一代 AI 系统,同时建议在发布 AI 系统时附带使用说明,帮助用户理解其功能和风险。
虽然也有担忧,但 Hassabis 对实现 AGI 的未来抱有极其乐观的态度。他相信,AGI 将帮助人类解决重大科学难题,通过帮助人类治疗疾病、开发清洁能源等方式提升人类社会生活质量。Hassabis 描绘了一个梦幻的未来场景,「未来的 AI 将让我们彻底告别工作,尽情享乐,专注于探索生活的意义。」(@雷锋网)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
评论