写点什么

NLP 大模型

0 人感兴趣 · 24 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/e9/e925b81685169aa080d87316a2f6d2d0.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

如何使用 Python 构建一个抄袭检测系统?

随着数字内容越来越受欢迎,保护它们免受复制和滥用变得比以往更加重要。抄袭检测工具可以帮助教师评估学生的作业,帮助机构审阅研究论文,帮助作家发现其知识产权被盗的现象。

https://static001.geekbang.org/infoq/9c/9caa2048e5687b62a4747cf1eac26818.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

基于中文金融知识的 LLaMA 系微调模型的智能问答系统

基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning) 的微调模型。通过中文金融公开问答数据+爬取的金融问答数据构建指令数据集,并在此基础上对 LLaMA 系模型进行了指令微调,提高了 LLaMA 在金融领域的问答效果。

https://static001.geekbang.org/infoq/24/24551addec808a479c3e3ebaa9cb273b.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

用于提取数据的三个开源 NLP 工具

开发人员和数据科学家使用生成式AI和大语言模型(LLM)来查询大量文档和非结构化数据。开源LLM包括Dolly 2.0、EleutherAI Pythia、Meta AI LLaMa和StabilityLM等,它们都是尝试人工智能的起点,可以接受自然语言提示,生成总结式响应。

https://static001.geekbang.org/infoq/f5/f5a8e8cfaf36ae1eda32f2429ec79831.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

大语言模型的预训练 [1]: 基本概念原理、神经网络的语言模型、Transformer 模型原理详解、Bert 模型原理介绍| 社区征文

预训练属于迁移学习的范畴。现有的神经网络在进行训练时,一般基于反向传播(Back Propagation,BP)算法,先对网络中的参数进行随机初始化,再利用随机梯度下降(Stochastic Gradient Descent,SGD)等优化算法不断优化模型参数。而预训练的思想是,模型参数

https://static001.geekbang.org/infoq/45/457c5a64c350251bc988b36cbd0bd086.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

搜索语义模型的大规模量化实践

目前大模型正在被研究和应用,算力资源已经成为瓶颈,如何以更低地成本进行落地是一个非常热点的问题。基于对模型压缩技术的实践和积累,我们能够更好地助力大模型的探索和应用。

https://static001.geekbang.org/infoq/a0/a0298134850bd63ed2caf3c300073e33.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

知行合一!AI 大模型与算法二三事

用户头像
深数
04-07

大脑中电信号的移动速度是硅芯片中信号的1/100,000!数十年后,当开发人员能够泛化算法并以计算机的速度运行它,我们将拥有令人难以置信的强大的通用人工智能。

https://static001.geekbang.org/infoq/a9/a9f266fbfa432c5870b59e9af5f339c8.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

AI 大模型已经出现不可预测的能力

编者按:日前,非盈利组织生命未来研究所发布了一封《暂停大型人工智能研究》的公开信,马斯克等千名科技人士进行了签名。虽然部分签署人的真实性存疑,但是大型语言模型(LLMs)的“涌现”能力确实可能会导致突然产生偏见、歧视和其他不可预测的风险。

https://static001.geekbang.org/infoq/df/df2bec3d1e506993516ba58bea993d7b.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

大语言模型 (LLMs) 和新兴机器学习技术栈

编者按:过去,NLP开发人员依赖于文本分类、命名实体识别和命名实体消歧等技术栈来优化NLP任务。然而,随着大语言模型(LLM)的快速发展,新的技术栈开始出现,以支持和加速这些大型语言模型的实现和应用。

https://static001.geekbang.org/infoq/b3/b3f0c0069f3b7e3b06c7cb5a69e3f779.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

【NLP 系列】Bert 词向量的空间分布

我们知道Bert 预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果,但在语义相似度任务上,表现相较于 Word2Vec、Glove 等并没有明显的提升。

图文实录|澜舟科技合伙人李京梅:基于预训练模型的 AIGC 技术与应用实践

在 AIGC 领域,人类应该持续提升创造力,不要停止,不要因为有了 AI 就不去创造了,而 AI 也将通过提升整个产业效率的方式来帮助人类更好地创造价值。

https://static001.geekbang.org/infoq/39/3983575b33e620c4a71102149b13a3e1.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

人人看得懂的 ChatGPT 技术原理解析

编者按:自ChatGPT面世以来,我们在热切挖掘其丰富应用的同时,也在孜孜探求其背后的工作原理。 今天我们为大家带来的文章,深入浅出地阐释了ChatGPT背后的技术原理,没有NLP或算法经验的小伙伴,也可以轻松理解ChatGPT是如何工作的。

https://static001.geekbang.org/infoq/87/87867baff5c14a8da47b77ea4b1fd54e.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

预告|第四届 OpenI/O 启智开发者大会 NLP 大模型论坛强势来袭!

论坛汇集NLP领域顶级专家学者与多家国产NLP大模型开发团队,共同探讨NLP领域前沿资讯与未来发展动向,就大模型在可信性、鲁棒性、安全性和应用落地等方面存在的困境进行研讨交流。

https://static001.geekbang.org/infoq/47/471f3bc870c8223a44842efad988f5bb.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

熊猫小说家功能升级:支持阅读原文 + 更多功能等你解锁

自去年发布以来,澜舟熊猫小说家依靠丰富的故事风格和快捷的 AI 写作方式收到了很多朋友的喜爱与支持。与此同时,我们也在不断听取大家的意见和想法。

https://static001.geekbang.org/infoq/07/07a482e4566b49a595702b01ac78c5e6.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

AI-002- 十分钟理解 ChatGPT 的技术逻辑及演进(前世、今生)

#41 AI-002-十分钟理解ChatGPT的技术逻辑及演进(前世、今生) 从google发布Transformer革命性开拓,一直到GPT-1、GPT-2、GPT-3的演进。未来GPT-4又会是何等强大?

https://static001.geekbang.org/infoq/09/09a6db019d8bd0ea80e8681434770169.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

预训练时代的自然语言处理 魔搭社区 NLP 模型全解析

用户头像
阿里技术
2022-12-15

“Pre-training + Fine-tune”正在重置AI领域的研究范式,预训练大模型已成为备受瞩目的研究方向。本文将着重介绍阿里通义大模型体系中的AliceMind,包括自然语言理解生成、对话问答、机器翻译等一系列预训练语言模型。

https://static001.geekbang.org/infoq/7b/7be92ca0705d0c15fd7d368f0c3bc8e0.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Vision Transformer 这两年

用户头像
OneFlow
2022-12-01

在NLP领域取得巨大成功后,Transformer架构在计算机视觉方面的作用日渐凸显,成为越来越普遍的CV工具。自2020年10月Vision Transformer模型推出以来,人们开始高度关注Transformer模型在计算机视觉上的应用。

PaddleNLP--UIE(二)-- 小样本快速提升性能(含 doccona 标注)

相关文章:1.快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化2.快递单信息抽取【二】基于ERNIE1.0至ErnieGram + CRF预训练模型3.快递单信息抽取【三】--五条标注数据提高准确率,仅需五条标注样本,快速完成快递单信息任务1)PaddleNLP通用信

https://static001.geekbang.org/infoq/cf/cf5aa74db7264fc456f16528509ce983.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

AIGC 时代到来?聊聊其中最出圈的语言模型 GPT-3

用户头像
Baihai IDP
2022-10-17

AIGC再度站在了聚光灯下,成为行业热门话题。AIGC的发展离不开大模型底层技术的支撑,而其中最为出圈的,当属“万能语言模型”GTP-3。本文中,我们将和大家一同走进GPT-3的发展史,了解GPT-3产生巨大飞跃的原因,探索GPT-3的商业化价值。

https://static001.geekbang.org/infoq/db/db5f8f0c9fa67582ceea0270a1e8e303.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

性能加速最高可达 28 倍!这个 NLP 工具包不容错过

近日,PaddleNLP v2.1正式发布,为开发者带来三项重要更新: 开箱即用的工业级NLP预置任务能力Taskflow:八大经典场景一键预测。 预训练时代的微调新范式应用:三行代码显著提升小样本学习效果。 高性能预测加速:文本生成任务高达28倍加速效果。

NLP 大模型_NLP 大模型技术文章_InfoQ写作社区