写点什么

2024 开源之夏|来自 MatrixOne 社区的邀请函

作者:MatrixOrigin
  • 2024-05-14
    上海
  • 本文字数:2342 字

    阅读完需:约 8 分钟

2024开源之夏|来自MatrixOne社区的邀请函

滴滴~ MatrixOne 第三年参与由中科院软件所“开源软件供应链点亮计划”发起的开源之夏啦!

希望这个夏天,MatrixOne 能陪伴同学们一起参与开源软件的开发维护,培养和发掘出更多的优秀在校开发者,也希望能吸引更多同学陪伴我们一同成长~

加入 MatrixOne 开源项目,您可以深入了解数据库产品架构和 AI 及大模型应用知识,更有机会与 MO 技术大牛一起并肩作战,成为社区的核心贡献者!

加入 MatrixOne 社区开源之夏沟通群, 一起交流探讨~

开源之夏 MatrixOne 项目主页:

https://summer-ospp.ac.cn/org/orgdetail/b4dd2fe5-5dd5-4d2e-b46b-26db21c8a01d

Github 项目仓库:

https://github.com/matrixorigin/matrixone

或点击文末“阅读原文”,一键直达


MatrixOne 项目介绍

我们准备了 3 个项目。成功通关结项的同学可以获得奖金与荣誉证书,同时也有可能掉落工作机会哦~

项目 01

MatrixAI Bot

MatrixAI Bot 是一款专为 GitHub 项目仓库设计的智能问答机器人,旨在基于 MatrixOne+多种开源/闭源的大模型打造一款 RAG 应用,用户可以向机器人提问任何关于仓库的问题,而无需亲自查阅代码。该系统采用微服务架构,通过 Kubernetes 部署,确保了高可用性和可扩展性。用户可以通过友好的前端界面轻松导入仓库信息,并获得即时的多轮对话体验。MatrixAI Bot 可以极大提升开发者获取仓库信息的效率,同时提供稳定、安全且用户友好的服务体验。

项目难度:进阶

产出要求:

  1. 从 0 到 1 实现一个基于 RAG+大模型的 AI 小助手,能够对用户指定的任意开源 GitHub 仓库进行智能信息提取与理解,并提供高质量的多轮问答服务。

  2. 编写详细使用文档,包括环境配置要求、详细安装、配置、使用手册。

技术要求:

  1. 掌握 Java 或 Go 语言,熟悉 Python 以及基本前端知识;

  2. 熟悉基本的数据库知识,了解 K8S;

  3. 了解大模型相关知识与向量数据库。

导师信息:

肖树伟

:xiaoshuwei@matrixorigin.cn

申请链接:

https://summer-ospp.ac.cn/org/prodetail/24b4d0349


项目 02

基于大语言模型的操作系统任务

自动识别、拆解、判断以及执行

利用当前语言模型对自然语义的理解能力,实现针对操作系统的自动化操作,实现真正意义上的基于自然语言的人机交互:

  1. 实现多语言的自然语言到操作任务的拆解和转化,针对自然语言输入,能够结合当前系统信息判断任务可行性,以及在可行性基础上的任务拆解能力;

  2. 在任务拆解的基础上,实现对不同步骤的串行或者并行操作,最终完成自然语言定义的任务范围内的目标任务;

  3. 任务执行评估,采集智能体运行中间步骤数据,可视化任务执行成功率的统计,为智能体的能力迭代提供可用训练数据。

项目难度:进阶

产出要求:

  1. 内容调研:调研现有的移动端,桌面端自动化工作流解决方案,有助于理解自动化工作流场景的内容,找到基于语言模型解决问题的切入点;

  2. 设计方案:设计一个适用于任何操作系统的基于智能体的自动化解决方案,包含数据采集,训练和反馈方案,技术架构,以及实现方案。

技术要求:

  1. 编程能力不限制,熟悉 python, mojo 任意即可,最好有智能体应用构建,模型微调经验;

  2. 能够解读模型训练的参数,对 Quantization 和 finetune 的理论基础有所了解。

导师信息:

lan Zhao

:zhaochenyang@matrixorigin.cn

申请链接:

https://summer-ospp.ac.cn/org/prodetail/24b4d0442


项目 03

Implement Document LLM

support in MatrixOrigin Database

The project will involve multiple phases:

  1. Add support for DATALINK type in MatrixOrigin [http://www09.sigmod.org/disc/disc99/disc/ibm/datalink.pdf].

  2. Support document CHUNKING and support for generating VECTOR EMBEDDING models inside MatrixOriging Database for a DATALINK record inserted. This should also cover ALTER, UPDATE, DELETE and DROP flow.

  3. Implementing QUERY functions to retrieve CHUNKS that are similar the input QUERY text.

  4. The end demo will involve a application (similar to chatbot), where we upload the document and the document gets persisted in Database and FileStore (AWS S3). Subquent query in chatbot should be able to retrieve details from the documents stored in the Database documents table.

  5. Bonus Goal: Access Control management.

项目难度:Advanced

产出要求:

  1. End User should be able to INSERT a document into our database, and internally it should build vector embedding and vector index for that document.

  2. During the QUERY, user should be able to pass the query, and retrieve document chunks matching the query using vector distance comparisions.

技术要求:

  1. Proficient in Golang.

  2. Knowledgable in LLM pipeline, Database Query Engine flow.

  3. Familiar with Python, FUSE, AWS S3 API.

  4. Proficient in English.

导师信息:

Arjun

:arjun@matrixorigin.io

申请链接:

https://summer-ospp.ac.cn/org/prodetail/24b4d0357


▌About MatrixOne

MatrixOne 是一款基于云原生技术,可同时在公有云和私有云部署的多模数据库。该产品使用存算分离、读写分离、冷热分离的原创技术架构,能够在一套存储和计算系统下同时支持事务、分析、流、时序和向量等多种负载,并能够实时、按需的隔离或共享存储和计算资源。云原生数据库 MatrixOne 能够帮助用户大幅简化日益复杂的 IT 架构,提供极简、极灵活、高性价比和高性能的数据服务。

MatrixOne 企业版和 MatrixOne 云服务自发布以来,已经在互联网、金融、能源、制造、教育、医疗等多个行业得到应用。得益于其独特的架构设计,用户可以降低多达 70%的硬件和运维成本,增加 3-5 倍的开发效率,同时更加灵活的响应市场需求变化和更加高效的抓住创新机会。在相同硬件投入时,MatrixOne 可获得数倍以上的性能提升

关键词:超融合数据库、多模数据库、云原生数据库、国产数据库

用户头像

MatrixOrigin

关注

还未添加个人签名 2021-12-06 加入

一个以技术创新和用户价值为核心的基础软件技术公司。

评论

发布
暂无评论
2024开源之夏|来自MatrixOne社区的邀请函_数据库_MatrixOrigin_InfoQ写作社区