写点什么

Google PaliGemma 2 新增情绪识别能力;OpenAI 即将发布全新 Sora 视频生成器丨 RTE 开发者日报

作者:声网
  • 2024-12-09
    四川
  • 本文字数:4375 字

    阅读完需:约 14 分钟


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、Google PaliGemma 2-新增情绪识别能力,引发相关思考



12 月 8 日消息,谷歌表示,其新的人工智能模型系列有一个奇特的功能:能够「识别」情绪。


谷歌周四发布了其最新 AI 模型系列 PaliGemma 2,该模型具备图像分析能力,可以生成图像描述并回答有关照片中人物的问题。谷歌在其博客中介绍,PaliGemma 2 不仅能识别物体,还能生成详细且与上下文相关的图片说明,涵盖动作、情感以及整体场景的叙述。


PaliGemma 2 的情感识别功能并非开箱即用,需要进行专门的微调,但专家们仍然对此表示担忧。


多年来,许多科技公司一直在尝试开发能够识别情感的 AI,尽管一些公司声称已经取得突破,但这一技术的基础仍然存在争议。大多数情感识别系统都基于心理学家 Paul Ekman 的理论,即人类有六种基本情绪:愤怒、惊讶、厌恶、喜悦、恐惧和悲伤。然而后续的研究表明,来自不同文化背景的人们在表达情感时存在显著差异,这使得情感识别的普遍性受到质疑。


情感识别系统的另一个问题是其可靠性和偏见。一些研究表明,面部分析模型可能会对某些表情(如微笑)产生偏好,而最近的研究则表明,情感分析模型对黑人面孔的负面情绪判断比白人面孔更多。


谷歌表示,PaliGemma 2 在进行「广泛测试」后,评估了其在人群偏见方面的表现,结果显示其「毒性和粗俗内容的水平低于行业基准」。但该公司并未公开测试所依据的完整基准,也没有明确表示所进行的测试类型。谷歌披露的唯一基准是 FairFace——一个包含数万张人像的面部数据集。谷歌声称,PaliGemma 2 在该数据集上的表现良好,但一些研究者批评 FairFace 存在偏见,认为该数据集仅代表少数几种族群。(@极客公园)


2、Meta 今年压轴开源 AI 模型 Llama 3.3 登场:700 亿参数,性能比肩 4050 亿



Meta 于上周发布 Llama 3.3,共有 700 亿参数,不过性能方面媲美拥有 4050 亿参数的 Llama 3.1。


Meta 强调 Llama 3.3 模型效率更高、成本更低,可以在标准工作站上运行,降低运营成本的同时,提供高质量文本 AI 解决方案。


Llama 3.3 模型重点优化了多语言支持,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语 8 种语言。


在架构方面,Llama 3.3 是一款自回归(auto-regressive)语言模型,使用优化的 transformer 架构,其微调版本使用了监督式微调(SFT)和基于人类反馈的强化学习(RLHF),让其与人类对有用性和安全性的偏好保持一致。


Llama 3.3 上下文长度为 128K,支持多种工具使用格式,可与外部工具和服务集成,扩展模型的功能。


安全方面,Meta 采用数据过滤、模型微调和系统级安全防护等措施,以降低模型滥用的风险;此外 Meta 鼓励开发者在部署 Llama 3.3 时采取必要的安全措施,例如 Llama Guard 3、Prompt Guard 和 Code Shield,以确保模型的负责任使用。(@IT 之家)


3、消息称阿里大模型核心人物跳槽字节,年薪高达八位数


12 月 6 日,关于「字节跳动以八位数年薪挖走阿里大模型人才」的消息迅速引发社交平台热议。据报道,阿里巴巴原「通义千问」大模型技术负责人周畅(花名:钟煌)于今年 7 月 18 日宣布离职创业,但仅两个月后,便有消息称周畅已低调加入字节跳动。


这一消息得到字节跳动相关人士的证实。据悉,周畅的跳槽并非单人行动,他的团队也有十多人随他一同加盟字节跳动。根据第一财经的报道,字节为周畅提供了一份几乎无法拒绝的合同:职位为 4-2 职级,年薪达到八位数(按阿里职级体系计算,相当于连跳两级,薪资翻倍)。同样,他的团队成员也都获得了 4-1、3-2 的职级,折算为阿里 P10、P9 的级别。


周畅自 2020 年起在阿里巴巴达摩院工作,带领团队研发了名为 M6 的多模态大模型,并在 2023 年随着 ChatGPT 的流行,基于 M6 模型开发出了「通义千问」大模型。通义千问如今已成为阿里通义系列 AI 产品的核心技术,周畅因此被誉为「最懂阿里大模型的人」。(@AIbase 基地)

02 有亮点的产品

1、OpenAI 即将发布全新 Sora 视频生成器,支持多种生成方式


近日,OpenAI 在伦敦 C21Media 大会上透露,公司的 Sora 视频生成器即将推出更新版本。OpenAI 的代表查德・尼尔森在会上表示,这款新版本将会支持三种视频生成方式,具体包括:文字生成视频、文字和图像生成视频,以及文字和视频生成视频,每个视频的时长可达一分钟。


据了解,Sora 视频生成器的升级版在效率和速度上都有所提升,相关的 API 泄漏信息也证实了这一点。此次更新将极大地丰富用户的视频创作体验,使他们能够更加灵活地使用各种输入形式,生成多样化的视频内容。


根据目前的信息,OpenAI 可能会在 12 月的冬季推广活动中正式发布这一新版本,预计发布的时间可能会早至下周一。同时,OpenAI 还可能会在此次活动中宣布其他重要更新,包括 GPT-4.5 版本以及为 GPT-4o 提供的新图像功能。这一系列更新无疑将进一步推动人工智能技术在创作领域的应用,吸引更多用户的关注和参与。


随着 AI 技术的快速发展,视频生成工具的普及化也在逐渐成为趋势。OpenAI 作为这一领域的领军者之一,其 Sora 视频生成器的更新无疑将成为行业内的热点话题,值得期待。(@AIbase 基地)


2、苹果 iOS 18.2 RC 版更新:Siri 接入 ChatGPT


苹果公司上周向 iPhone 用户推出了 iOS18.2RC 版本的系统更新,这一准正式版更新标志着苹果在用户体验上的又一次重大进步。更新的核心在于对 Apple Intelligence 的进一步完善,尤其是引入了全新的 Visual Intelligence 视觉智能功能,这项技术能够让用户通过手机摄像头识别物体并获取更多相关信息。


对于 iPhone16 系列用户来说,这次更新尤为重要。例如,用户只需将手机摄像头对准建筑物并长按拍照按钮,Visual Intelligence 便能提供该建筑物的地理位置信息。而对于餐厅等场所,该功能还能展示其营业时间和菜单等实用信息。


在 Siri 方面,苹果也进行了创新。全新的 Siri 将整合 ChatGPT 技术,以更智能地回答用户的问题。在调用 ChatGPT 之前,Siri 会先征得用户的同意,确保用户的隐私和选择权得到尊重。


除了上述功能,iOS18.2RC 版本还新增了 Image Playground 等多种 Apple Intelligence 功能,进一步丰富了用户的智能体验。


然而,目前国行用户和许多非英语用户还无法享受 Apple Intelligence 的全部功能。苹果计划在未来一年内,逐步推出包括中文、印度英语、法语、德语、日语在内的多语言版本的 Apple Intelligence。


此外,据最新爆料,苹果已确认与百度合作,计划将百度作为国行版本的 ChatGPT 替代方案。不过,双方合作目前遇到了一些障碍,导致原定的上线时间被推迟。尽管如此,苹果仍在积极推进这一合作,以期为国行用户提供更加丰富的智能服务体验。(@AIbase 基地)


3、Salesforce 收购 Tenyx,强化语音 AI 布局,巩固客户服务地位


Tenyx 的智能语音代理技术旨在解决传统语音交互系统的痛点。通过融合大型语言模型(LLM)和先进的语音技术,Tenyx 为企业提供更智能、更高效的对话体验。


在今年 9 月被 Salesforce 收购之前,Tenyx 曾获得 1500 万美元融资。此次收购将凭借 Tenyx 领先的语音代理技术,进一步巩固 Salesforce 在全球 CRM 市场的领导地位。


兼顾实时性与准确性


Tenyx 的核心产品面向企业级市场,注重高准确度和实时响应。在传统的呼叫中心、销售支持和医疗服务等领域,语音代理需要实时响应用户需求并确保信息准确。Tenyx 专注于边缘场景的准确性、RAG 工作流程优化以及延迟控制,有效解决了企业在语音交互中面临的常见挑战。


打造安全、可扩展的定制化体验


Tenyx 的 AI 核心采用多 LLM 架构,支持持续学习。 该公司在大型语言模型方面的创新研究,例如几何特性探索和灾难性遗忘问题的解决,为企业提供了可靠的模型微调方案。


语音代理的快速部署与灵活扩展


企业级客户通常需要语音代理系统具备快速部署和动态扩展的能力。Tenyx 能够在数周内提供定制化演示,并在一个月内完成全面部署,展现了其快速响应市场需求的优势。此外,Tenyx 的语音代理可以根据呼叫量的变化灵活扩展,轻松适应大规模运营环境下的各种需求。(@Z potentials)

03 有态度的观点

1、a16z 对话机器学习领军人物:即便只达到 AGI 的 10%,也会显著改变世界


a16z 合伙人 Martin Casado 与机器学习研究的领军人物 Pedro Domingos 近期在一档播客中谈论了对 AI 的看法。Pedro 是华盛顿大学的名誉教授,自 20 世纪 90 年代以来一直活跃于机器学习领域,著有 2015 年广受欢迎的书籍《万能算法》(The Master Algorithm)。


Domingos 认为尽管 AI 研究取得了显著进展,尤其是在大型语言模型和扩展法则方面,但这只是「通往局部最优的冲刺」,距离实现真正的通用人工智能(AGI)还有很大差距。他主张我们需要突破性的全新思路,而不仅仅是扩展现有模型,强调多种研究方法的重要性。


尽管他认可当前的重大进步,Domingos 提倡一种更全面、少依赖数据的方法来实现 AGI,指出目前在 AI 数据中心的大量投资可能是有误的。他对 AI 的未来持谨慎乐观态度,预计在未来几年将有显著进展,同时警告应警惕该领域过度的炒作。


Domingos 深信 AI 是一场马拉松,而非短跑。若能够在六个月内解决 AI 的问题,那就是认为 AI 问题只是规模化的问题。「如果只是规模化,那么我所做的事情就完全是在浪费时间,但我真的认为我们需要根本性的全新想法。」


Domingos 指出,虽然如今的研究比以往任何时候都多,但实际上却比以前更单一化,话虽如此,Domingos 还是相信,即便只是达到 AGI 的 10%,也会显著改变世界。(@Z potentials)



更多 Voice Agent 学习笔记:


2024 语音模型前沿研究整理,Voice Agent 开发者必读


从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户


WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?


人类级别语音 AI 路线图丨 Voice Agent 学习笔记


语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服


语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场


下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》


Voice-first,闭关做一款语音产品的思考|社区来稿


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
Google PaliGemma 2 新增情绪识别能力;OpenAI 即将发布全新 Sora 视频生成器丨 RTE 开发者日报_声网_InfoQ写作社区