写点什么

云知声多模态模型:实时多模态输入输出;独立于 Siri ,苹果或开发新 AI 用于机器人丨 RTE 开发者日报

作者:声网
  • 2024-08-27
    四川
  • 本文字数:2518 字

    阅读完需:约 8 分钟

云知声多模态模型:实时多模态输入输出;独立于 Siri ,苹果或开发新 AI 用于机器人丨 RTE 开发者日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、Anthropic 公开 Claude AI 模型的系统提示词


为了让 AI 模型更好地理解人类指令,提示词(Prompt)工程实际上包含 2 层核心内容,用户提示词(User prompt)和系统提示词(System prompt):


  • 用户提示词:用户输入的提示词,然后 AI 模型基于用户提示词生成答案。

  • 系统提示词:这是由系统生成的提示,通常用于设定对话的背景、提供指导或规定规则。


从 OpenAI 到 Anthropic,每一家生成式人工智能厂商都会使用系统提示来防止(或至少试图防止)模型出现不良行为,并引导模型回复的总体语气和情绪。例如,系统提示词可能会告诉模型,它应该礼貌但绝不能道歉,或者坦诚地承认它不可能知道所有事情。但厂商可能是出于竞争等方面原因,以及避免不良用户在了解这些信息后绕过安全防护,通常保密这些系统提示词。


不过,Anthropic 一直在努力将自己描绘成一家更道德、更透明的人工智能供应商,它已在 Claude iOS 和 Android 应用程序以及网络上公布了其最新模型(Claude 3.5 Opus、Sonnet 和 Haiku)的系统提示。Anthropic 开发者关系负责人亚历克斯・艾伯特(Alex Albert)在 X 上发表的一篇文章中说,Anthropic 计划在更新和微调系统提示的过程中,定期公布此类信息。(@IT 之家)


2、云知声推出山海多模态大模型:实时生成文本、音频和图像


云知声宣布推出山海多模态大模型,该模型能够通过整合跨模态信息,接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。


山海多模态大模型有如下特点:


  • 实时秒回,自由插话 :与现实对话中人类的响应时间相似;支持对话随时打断,用户可在对话中任意插话

  • 感知情绪,表达情绪 :通过语音文本判断用户情绪,还能捕捉用户语音的语气、节奏和音调等微妙变化,感知对方情绪状态

  • 音色自由切换 :根据用户的个性化需求,自由切换音色;学习用户的音色、风格,复刻用户声音

  • 视觉场景理解 :「看见」周围环境,结合图像和文字,提供易于理解的总结

  • 图像生成,构筑个性艺术 :根据用户指令创建视觉内容,提供符合个性化需求的定制画面(@AI 未来)


3、苹果被曝另起炉灶,独立于 Siri 为桌面机器人开发拟人个性化 AI


马克・古尔曼于 8 月 25 日发布博文,表示苹果公司决定另起炉灶,独立于 Siri 之外开发新一代人工智能技术。


苹果已官宣在 iOS 18 系统中引入 Apple Intelligence,通过整合 ChatGPT 或者 Gemini 等 AI 语音助手等,并改造 Siri 带来更智能、更全面的 AI 体验,不过部分功能需要等到 2025 年才会发布。


古尔曼表示尽管新诞生的 Siri 前景广阔,但苹果公司已经在开发另一种更个性化的 AI 体验。


其 Power On 部分内容翻译如下:「机器人工作的一个重要部分就是创造个性。Siri 是苹果现有设备上的数字助理,而该公司正在开发另一个基于生成式人工智能的类人界面。据我所知,它可以在桌面产品和其他未来的苹果机器人设备上运行。」(@IT 之家)


4、SuperCraft:通过无限工作流画布 将草图直接转换成真实产品图像 并自动生成 3D 渲染


SuperCraft 是一个帮助团队设计优质实物产品的平台。它提供了一个无限的协作画布,用户可以在上面通过手绘草图或使用文本提示生成草图来开始设计,这就像是 Figma 和 ComfyUI 的结合体。该平台利用生成式 AI 将粗略的草图转化为真实感强的产品图像,并自动生成产品的 3D 渲染,让用户能够更好地从三维角度感受设计。(@小互 AI)


5、IBM 中国回应关闭研发部门:不会影响客户


IBM 中国方面确认,IBM 将彻底关闭中国研发部门,涉及员工数量超过 1000 人。


在昨日上午,IBM 中国内部召开了一个时长 3 分钟的会议,宣布研发部门关闭,业务转移到其他地区。此次研发部门关闭涉及的业务线主要有两条,一个是 IBM 中国开发中心(CDL),另一个是 IBM 中国系统中心(CSL)。


IBM 中国声称,IBM 会根据需要调整运营,为客户提供最佳服务,这些变化不会影响 IBM 中国为大中华区客户提供支持的能力 。IBM 中国还表示,在中国的本地战略重点则是利用其在技术和咨询方面的丰富经验,组建具备相应技能的团队,帮助中国客户共创符合他们需求的解决方案。


据透露,IBM 将为相关员工提供 N+3 的赔偿。而部分员工提出了「2N」赔偿和「6 个月缓冲期」,以及年假、未休的带薪假、股票折现等等更多诉求。上周五,有 IBM 研发部门员工表示,访问权限被收回,影响北京、上海、大连多地员工,售后、咨询部门仍正常持有访问权限。(@爱范儿)

02 有态度的观点

1、百亿美金公司 Airtable 创始人:代码生成不会取代无代码平台


Airtable 的联合创始人兼首席执行官 Howie Liu 在一次访谈中谈到了自己对 AI 发展的看法。他认为,尽管随着 AI 技术的快速发展,代码生成变得越来越容易,但完全取代无代码平台还需要一定的时间,低代码和无代码平台依然有其不可替代的优势。Airtable 便是通过提供易于理解和操作的界面,让非技术人员也能参与应用程序的开发,从而增强了用户的创造力和生产力。


此外,他还谈到了企业在采用 AI 时面临的挑战,如缺乏对 AI 模型能力的理解以及应用 AI 的想象力不足。Airtable 通过培训和产品化帮助客户克服这些障碍,并且积极探索如何将 AI 功能集成到其平台中,开发出满足实际需求的 AI 工作流程和模板,甚至让用户能够构建自己的 AI 应用程序。


在未来,Airtable 将继续致力于通过无代码解决方案,帮助用户构建复杂的业务应用程序,实现更大的经济价值和创新。(@Z potentials)


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
云知声多模态模型:实时多模态输入输出;独立于 Siri ,苹果或开发新 AI 用于机器人丨 RTE 开发者日报_声网_InfoQ写作社区