写点什么

GPT 论文作者 Alec Radford 离开 OpenAI,曾参与开发 Whisper;闪极 AI 拍照眼镜支持全天候记录

作者:声网
  • 2024-12-20
  • 本文字数:4188 字

    阅读完需:约 14 分钟


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。 我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、GPT 系列开创者,人工智能大神 Alec Radford 从 OpenAI 离职



Alec Radford,于周四向同事宣布,他将离职并独立从事研究。据一位看到 Radford 离职消息的人透露,他计划与 OpenAI 以及其他人工智能开发者展开合作。


Alec Radford 不仅是 OpenAI 的核心人物,更是改变自然语言处理(NLP)游戏规则的关键推手。作为 GPT 系列模型的主创之一,他推动了从语言到图像再到多模态 AI 技术的全面革新。2016 年,Radford 加入刚刚成立的 OpenAI,并迅速成为该组织的核心研究员之一。在 OpenAI,他开启了一段传奇旅程:


GPT:重塑自然语言处理


Radford 是 GPT(Generative Pre-trained Transformer)初代论文的第一作者,首次提出基于 Transformer 架构的预训练语言模型。他的研究表明,通过在海量无标签文本上进行预训练,再通过少量任务数据进行微调,模型可以在多个任务上展现出强大的泛化能力。这一突破直接引领了 NLP 从任务专属模型向通用模型的转变


随后的 GPT-2 和 GPT-3 更是将这一理念推向极致。通过大规模参数和数据的加持,这些模型不仅在生成文本的连贯性和上下文理解上达到了新的高度,还实现了少样本学习(Few-Shot Learning)的能力,彻底改变了行业对大规模预训练模型的认知


DALL-E 和 CLIP:文本与视觉的融合


在语言之外,Radford 还深入探索了多模态领域。他主导了 DALL-E 和 CLIP 的开发:


• DALL-E 是一款可以将文本描述转化为高质量图像的生成模型。这一技术展示了 Transformer 架构在跨模态任务中的潜力,进一步拉近了自然语言和视觉处理的距离


• CLIP 则通过对比学习(Contrastive Learning)方法,打破了传统分类模型的限制,使得图像和文本可以在共享空间中表达。这不仅提升了模型的多样性和适应性,也为下游任务提供了前所未有的灵活性


Whisper:让机器「听懂」世界


除了语言和图像,Radford 还涉足了语音领域。他开发的 Whisper 是一款通用语音识别模型,不仅能听懂多语言内容,还能处理各种口音和语速的语音输入,被认为是目前最强大的语音识别工具之一。(@AI 寒武纪)


2、OpenAI 展示全新桌面版 ChatGPT


今天凌晨,OpenAI 发布会重点展示了桌面版 ChatGPT 与 Mac 应用的深度集成能力。


据官方介绍,全新桌面版 ChatGPT 将超越单纯的问答,能够通过与 30 多种应用协作来辅助提升用户的写作和编程能力。同时也放出了所支持的程序名单,如 Apple Notes、Notion、Xcode、VS Code、Warp 等应用程序程序。


使用方式十分简单,用户只需确保目标应用正在运行,然后在 ChatGPT 聊天栏中点击「与应用协作」(Work With Apps)按钮并选择相应应用即可。


目前,上述提到的新功能已在 macOS ChatGPT 最新版本中上线,而 Windows 版本很快也会推出。发布会最后,OpenAI CPO Kevin Weil 还预告明天将会发布「令人兴奋」的新产品。(@ APPSO)


3、Google 版 o1 重磅推出


今天凌晨,Google 重磅推出了 Gemini 2.0 Flash Thinking 模型。


新的 Thinking 模型支持多模态推理,使用类似 o1 模型的慢思维思考方式,可以深度可视化展示整个思维链过程,尤其是在执行数学、编程等复杂问题方面,能持续输出全部推理过程,而不是直接给出答案。


据悉,在大模型排行榜 LMSYS 上,所有综合类别指标中显示,目前 Gemini 2.0 Flash Thinking 排名第一,包括数学、代码、指令跟随、长 QA、创意写作等等各方面。


目前在 Google AI Studio 就可以免费使用 Gemini 2.0 Flash Thinking。(@ APPSO)

02 有亮点的产品

1、Runway 更新重磅功能:支持插入中间帧控制视频生成


Runway 平台迎来了一个重要更新,用户现在不仅可以在视频生成中选择首尾帧,还可以插入中间帧来进行控制。


此前,许多用户一直期待这一关键帧功能,借助这一新特性,用户能够在视频制作过程中有更多的创作自由和灵活性。


具体来说,大家在图生视频功能中,除了上传首尾帧两张图,还可以增加中间帧,让生成的视频画面更为丰富和协调。(@AIbase 基地)


2、YC 支持的 CozmoX AI 推出语音 AI 员工平台!



Y Combinator 毕业生 CozmoX AI 今天宣布在中东和非洲推出首个企业级 AI 员工平台,该平台具有先进的语音交互功能。这些 AI 员工是成熟的数字劳动力成员,能够端到端处理完整的业务流程,同时通过阿拉伯方言、英语、西班牙语、法语、德语、印地语和 70 多种其他语言通过语音自然交流。


CozmoX AI 的诞生源于创始人在应对 AI 工具扩展挑战方面的亲身经历,经过几个月的潜伏,团队与金融服务、医疗保健、电子商务、房地产和物流行业的企业客户一起对其 AI 员工进行了严格测试。该平台的企业级架构确保与现有业务系统的无缝集成、强大的安全协议以及可扩展的部署选项(包括本地和云端部署),覆盖中东、非洲、东南亚和印度,目前已有多家客户在欧洲、海湾合作委员会和美国全面运营。


与传统自动化工具不同,CozmoX AI 的员工是完全数字化的员工,他们独立管理整个业务流程。通过创新的无代码平台,企业可以部署这些 AI 员工来处理通常需要人工协调和沟通的复杂任务,从潜在客户生成和销售成交到付款收集和客户支持。


该公司推出了三名专业的 AI 员工,每个员工都能够管理各自领域的端到端流程:


人工智能销售主管 Liza:管理从勘探到成交的整个销售周期,查找潜在客户的详细信息,包括电话号码、电子邮件和他们感兴趣的内容,对潜在客户进行深入研究,进行自然语音对话以确定潜在客户资格、进行谈判和跟进,同时维护详细的 CRM 记录。


人工智能债务催收员 Alex:负责整个催收流程,从初次联系到付款确认,管理付款计划和后续行动,同时确保完全遵守法规。


人工智能接待员 Zara:提供全面的前台管理,处理从呼叫路由和预约安排到详细留言和客户咨询解决等所有事务。该地区一些最大的医疗保健提供商已部署 Zara 来自动化他们的接待员服务。(@ wamda)


3、闪极推出国内首款 999 元 AI 眼镜:30g 重量挑战可穿戴新赛道


闪极科技于 12 月 19 日晚发布国内首款量产 AI 眼镜——闪极 AI「拍拍镜」,起售价 999 元,正式打响 AI 眼镜量产第一枪。产品预计将于 2025 年 1 月 15 日开始发货,目前已在各大电商平台开启预售。


这款眼镜采用经典黑框设计,通过电池后置技术和创新散热设计,将整机重量控制在 50g,实际佩戴体感仅约 30g。硬件配置方面,搭载索尼 1600 万像素摄像头,配备瑞声科技 Hi-Fi 扬声器,内置三块共 1350mAh 容量电池,并推出 6500mAh 的专用增程环,可实现反向为手机充电。


在软件层面,闪极 A1 运行自研的 Loomo OS 系统,已接入包括云天励飞、讯飞、通义千问在内的多个大模型,支持语音识别、实时翻译等 AI 功能。通过内置的 AI 应用商店(Agent Store),用户可以调用更多 AI 能力。


闪极创始人兼 CEO 张波表示,目前产品核心功能已趋于完备,未来将通过在线升级实现时光回溯、直播推流等更多功能。他强调,AI 眼镜作为记录用户全量交互数据的载体,有望帮助用户构建个人数字分身,实现跨越时空的沟通。


为吸引早期用户,闪极推出了多项促销活动,包括赠送价值 299 元的「AI 云盘+AI 闪记」一年使用权益,以及 90 天无理由退货、打卡返全款代金券等优惠政策。该产品已与 LOHO 等品牌达成合作,将通过京东、天猫、抖音等主流平台销售。(@AIbase 基地)

03 有态度的观点

1、微软 CEO 纳德拉:C 端 Agent 商业模式仍需摸索,广告流量模式或面临转变,B 端关键在生态集成


微软 CEO Satya Nadella 在近日与硅谷知名投资人 Brad Gerstner 以及 Bill Gurley 讨论了微软的战略转型、对 OpenAI 投资以及智能体(Agent)的未来。


Nadella 认为,当前 AI 领域的竞争将不再是赢家通吃,而是多个企业在不同层次的技术领域展开激烈角逐。特别是在基础设施(如云计算)和应用(如 AI 模型)之间,他认为微软的 Azure 和其他云服务将在未来的 AI 竞争中占据重要位置。


智能体(Agent)被视为比传统搜索引擎更为智能和个性化的工具,不再是简单的无状态查询工具,而是能够保持状态、记住用户历史并提供持续的互动。Satya Nadella 提到,随着消费者对 AI 的需求增加,传统搜索引擎(如 Bing)面临新挑战,未来将见证从传统搜索到基于 AI 的问答系统的转变。


智能体的出现可能打破了传统搜索引擎的界限,能够提供直接的答案,而不仅仅是链接,改变了用户的互动方式。通过 ChatGPT 和类似的工具,用户不再需要通过多次查询来获得答案,而是能得到更加即时和智能的反馈。


对于消费者端,智能体的商业模式仍在摸索中,传统的广告和流量驱动模式可能需要转变,尤其是在智能体能够通过简化的对话来获取和处理数据的情况下。


企业级的智能体接口可能会变得更加重要,微软已经在利用 AI 接入多个系统,如 Adobe、SAP 和自家的 CRM(Dynamics)。这种接口可以帮助 AI 获取和整合企业数据,进而提供更高效的服务。(@有新 Newin)



更多 Voice Agent 学习笔记:


Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……


帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记


市场规模超 60 亿美元,语音如何改变对话式 AI?


2024 语音模型前沿研究整理,Voice Agent 开发者必读


从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户


WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?


人类级别语音 AI 路线图丨 Voice Agent 学习笔记


语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服


语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场


下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》


Voice-first,闭关做一款语音产品的思考|社区来稿


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
GPT 论文作者 Alec Radford 离开 OpenAI,曾参与开发 Whisper;闪极 AI 拍照眼镜支持全天候记录_声网_InfoQ写作社区