写点什么

微软 Azure 推出文本到语音虚拟人;英伟达发布 8B 小语言模型,可在 RTX 工作站部署丨 RTE 开发者日报

作者:声网
  • 2024-08-23
    四川
  • 本文字数:3070 字

    阅读完需:约 10 分钟

微软 Azure 推出文本到语音虚拟人;英伟达发布 8B 小语言模型,可在 RTX 工作站部署丨 RTE 开发者日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、英伟达发布 80 亿参数新 AI 模型:精度、效率高,可在 RTX 工作站上部署


英伟达发布了 Mistral-NeMo-Minitron 8B 小语言 AI 模型,共 80 亿个参数,具备精度高、计算效率高等优点,可在 GPU 加速的数据中心、云和搭载英伟达 RTX 显卡的工作站上运行。


英伟达表示通过宽度剪枝(width-pruning)Mistral NeMo 12B,并知识蒸馏(knowledge distillation)轻度重新训练后获得 Mistral-NeMo-Minitron 8B,相关成果发表在《Compact Language Models via Pruning and Knowledge Distillation》论文中。


剪枝通过去除对准确率贡献最小的模型权重来缩小神经网络。在 「蒸馏」 过程中,研究小组在一个小型数据集上重新训练剪枝后的模型,以显著提高通过剪枝过程而降低的准确率。


就其规模而言,Mistral-NeMo-Minitron 8B 在语言模型的九项流行基准测试中遥遥领先。这些基准涵盖了各种任务,包括语言理解、常识推理、数学推理、总结、编码和生成真实答案的能力。(@IT 之家)


2、微软 Azure AI 语音服务推出虚拟人形象,支持文本转视频


微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用,Azure AI 语音服务最新推出了文本到语音虚拟人功能,可以将简单的文本转换为人类自然说话视频。


8 月 22 日,微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080,每秒 25 帧。


Text to Speech Avatar 具有以下功能:


  • 将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频,该视频具有自然的声音。

  • 提供不同的人物预设形象。

  • 形象的声音由 Azure AI 文本转语音生成。

  • 使用批量合成 API 异步或实时合成文本到语音人像视频。

  • 在 Speech Studio 中提供内容创建工具,无需编码即可创建视频内容。

  • 通过 Speech Studio 中的实时聊天头像工具启用实时人像对话。


定价方面,文本转视频服务的收费将根据视频输出的长度计算并按秒收费。该服务现已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区推出。(@IT 之家)


3、Ideogram 发布 2.0 全新版本,写实风格显著提升,接近真实照片,还能生成网页设计页面


Ideogram 发布 Ideogram 2.0 版本,这是一款功能强大的文字转图像模型,具有行业领先的生成真实图像、平面设计、排版等能力。


Ideogram 2.0 具有以下主要功能特点:


多种图像风格选择:


  • 现实主义风格:能够生成高度逼真的图像,纹理和细节(如皮肤和头发)都非常接近真实照片

  • 设计风格:强化了文本的准确性,非常适合制作带有长文本的图形设计,如贺卡、海报和社交媒体内容

  • 3D 风格: 支持生成三维立体感较强的图像

  • 动漫风格:专为生成动画或卡通风格的图像而设计


灵活的图像生成:


  • 任意宽高比:支持各种宽高比的图像生成,包括 3:1 和 1:3 等非传统比例

  • 颜色调控:用户可以指定颜色调色板,以便在生成的图像中保持一致的视觉风格,适用于艺术控制和品牌一致性


高级图像生成工具:


  • Magic Prompt: 自动生成创意性的提示词,帮助用户更轻松地开始创作

  • Describe 功能:根据已有图像生成详细的文本提示,以此为基础创建新的图像


API 与移动端支持:


  • Ideogram API: 开发者可以通过 API 将 Ideogram 的图像生成能力集成到他们的应用中,并且相比其他同类产品,价格更具竞争力

  • **iOS 应用:**提供了移动端应用程序,用户可以随时随地生成图像(Android 版本将在稍后推出)


庞大的图像库搜索:


  • 用户可以通过文本搜索访问超过 10 亿张公开生成的图像,找到灵感并探索他人的创作


(@小互 AI)


4、马斯克点赞可灵 AI


8 月 20 日,AI 插画艺术爱好者 Déborah 在推特上发布了一段由可灵 AI 完成、时长为五秒钟的视频。这条视频获得了埃隆·马斯克的关注,并且他在评论区回复「AI Entertainment is happening fast」。


可灵 AI 作为快手自研的视频生成大模型,自今年 6 月初发布以来便受到了国内外的广泛关注和好评。市场分析机构摩根士丹利公开评论:「可灵 AI 的表现要比抖音和腾讯过往发布的视频生成模型都更加优秀。」


从视频生成效果本身来看,可灵 AI 不仅能够模拟物理世界特性,还具备了强大的概念组合能力和想象力,生成的视频分辨率高达 1080p,时长最高可达 2 分钟。


6 月 21 日,可灵 AI 正式推出图生视频功能,支持用任意静态图像生成 5s 视频,并且可搭配不同的文本内容,实现丰富的视觉叙事 。马斯克点赞的视频,也是出自可灵 AI 这一核心爆款功能。在海外,快手的图生视频得到了广泛的使用。被点赞视频的作者 Déborah 也多次用可灵 AI 制作视频 。


7 月 6 日,在上海举行的 2024 世界人工智能大会上,可灵 AI 正式上线了网页端,推出了更加清晰的高画质版,在视频处理的精细度上有了大幅提升。其中,首尾帧控制、镜头控制等新功能也一起上线,并且创作者单次生成的文生视频时长也增加至 10 秒。


7 月底,可灵 AI 大模型全面开放内测,并正式面向全球上线会员体系,针对不同类别的会员,提供相应的专属功能服务。(@AI 科技评论)


5、原 Character.AI CEO 诺姆・沙泽尔将任谷歌 Gemini 联合技术负责人


根据谷歌发送给员工的消息,本月重返谷歌的 Character.AI 联合创始人兼原 CEO 诺姆・沙泽尔(Noam Shazeer)将担任谷歌 AI 项目 Gemini 的联合技术负责人。


沙泽尔将与谷歌长期从事人工智能研究的杰夫・迪恩(Jeff Dean)和奥里奥尔・维尼亚尔斯(Oriol Vinyals)一起开发 Gemini,其目标是与 OpenAI 的大语言模型 GPT 竞争。


本月初,初创公司 Character.AI 宣布,该公司已与谷歌母公司 Alphabet 签署了一项协议,授予这家搜索引擎巨头非独家使用其大型语言模型的许可。Character.AI 联合创始人诺姆・沙泽尔和丹尼尔・德・弗雷塔斯将重返谷歌,谷歌发言人曾宣布沙泽尔将加入 DeepMind 研究团队。(@IT 之家)

02 有态度的观点

1、Rippleing 创始人:你的公司 AI washing 了吗?


Rippling 创始人 Parker Conrad 对于 AI 技术的实际应用持怀疑态度,认为许多软件公司在产品中添加了新颖但不实用的 AI 功能。他指出,目前 AI 世界中存在大量无关紧要的东西,尽管 AI 有潜力带来变革,但他对目前所见的 AI 功能并不印象深刻。


Conrad 理解为什么公司会声称其产品具有 AI 功能,因为这可以提高公司的市场估值。数据显示,AI 公司在美国的投资中占有重要比重,超过 40% 的新独角兽企业是 AI 初创企业。Parkway Venture Capital 的管理合伙人 Nekeshia Woods 认为 AI 正在成为企业自动化日常任务的方式,并预计 AI 助手和通用机器人将在未来出现。Conrad 认为 AI 的强大在于其能力在处理大量非结构化信息,帮助公司更好地了解其业务。尽管存在 AI 疲劳现象,但人们对 AI 的问题正在增加,投资者和创始人开始关注对人工智能的大量投资何时能获得回报。Conrad 对 AI 的未来保持观望态度。(@AI 科技评论)


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
微软 Azure 推出文本到语音虚拟人;英伟达发布 8B 小语言模型,可在 RTX 工作站部署丨 RTE 开发者日报_声网_InfoQ写作社区