TEM on 腾讯云安装 + 试用指南
作者: 社区小助手原文来源:https://tidb.net/blog/3cb0dabf
TEM on 腾讯云安装指南
1. 试用安装
安装应用
报名活动:https://forms.pingcap.com/f/tem-trial-use-event ,进群获取 TEM 腾讯云试用链接

配置安装参数
配置注意事项:
需要提前规划好 VPC 子网及 CIDR,网段必须以 192、172、10 开头,网络 ID 的位数为 17 ~ 27,且不能与 VPC 网段冲突
未成功安装应用需要及时销毁,否则有可能占用网段
CAM 角色权限在安装过程中会有勾选项,必须要勾选了才能继续执行
在配置过程中,有一些不太清楚的填写事项可以查看相关提示,或者在活动微信群进行交流


确认订单信息
如果是首次安装,需要勾选“允许服务角色调用其他云服务结构”


等待安装完成
TEM 腾讯云资源安装过程预计 5-10 分钟
如果安装失败,可点击安装日志查看失败原因,返回【配置安装参数】步骤,修改相关参数后重试
常见失败原因可参考文章最后的 QA

2. 访问 TEM
应用基础信息查看
进入“应用视图 -> 应用信息”页面,可以查看:
TEM 应用账号密码
TEM 访问入口
如果配置了域名访问:TEM 配置的入口地址,CLB 地址
如果 IP 访问,需要进入“容器服务 -> 节点管理”查看公网 IP, TEM 访问入口为:http://[IP]:32000
应用云主机 CVM 密码



添加 DNS 解析
需要手动对 TEM 应用入口域名添加 DNS 解析, 目标为 CLB 地址 /IP
访问 TEM
根据 2.1 步骤配置的 URL 或者 ip 进入浏览器访问
常见问题
腾讯云应用安装好后,会有 1-2 分钟 TEM 应用的安装过程
如果登录后提示安装证书,请检查 VPC 以及安全组是否有外网访问能力,可参考文章最后的 QA

3. 主机纳管
添加被纳管主机凭证
点击“凭证 -> 主机 -> 添加凭证”
填写被控主机 / 中控机的 ssh 登录凭证,点击“确认”添加



添加集群管理中控机
确认被控主机上已经安装 TiUP 组件

点击“主机 -> 集群管理中控机 -> 添加中控机”

填写中控机信息,点击确认
IP 地址:中控机 IP
名称:自定义
SSH 端口:中控机 SSH 端口
服务端口:中控机被控后提供服务的端口,自定义
凭证:之前步骤添加的 SSH 登录凭证
服务根目录:中控机被控后提供服务进程的安装目录,自定义
TiUP 元数据目录:TiUP 原数据目录,TiUP 默认安装后,该目录为 /root/.tiup
标签:自定义(可选)


添加集群主机
点击“主机 -> 主机 -> 添加主机”

填写主机信息,点击“预览”,预览无误后点击“确认添加”
IP 地址:主机 IP
SSH 端口:中控机 SSH 端口
凭证:之前步骤添加的 SSH 登录凭证



4. TiDB 集群部署
点击“集群 -> 创建集群”

填写创建集群基础信息,并点击“下一步”
可用版本建议选择 TiDB v8.4.0(如有需要可在 TEM 上体验版本升级 ➡️ V8.5.2)

点击“添加节点”,添加 TiDB 集群节点
注意事项:
搭建一个 TiDB 集群最少需要 1 pd + 1 TiDB + 1 TiKV
通过 TEM 新创建的 TiDB 集群 TiKV + TiDB + Tiflash 总节点数不能超过 10,否则有可能会导致节点添加不成功


点击“下一步”会进行部署预检查,如遇端口冲突等问题可以手动修改端口

检查无误后,会进入“配置集群参数和告警”页面,此处跳过配置,点击“下一步”

预览创建配置,确认无误后点击“创建”

创建过程可点击“查看详情”,或在“任务中心”查看


5. TiDB 集群纳管
点击“集群 -> 纳管集群”

选择中控机,并点击“下一步”

选择需要被纳管的 TiDB 集群,并点击“下一步”

配置被纳管集群的用户 / 密码,并点击“下一步”

预览被纳管集群信息,并点击“纳管集群”
被纳管的 TiDB 集群的 TiKV + TiDB + Tiflash 总节点数不能超过 10,否则会纳管不成功

可以点击“查看详情”,或在“任务中心”查看纳管进度

6. TiDB 集群管理
点击“集群 -> 集群名称”可进入对应集群管理


TEM on 腾讯云试用指南
以上操作配置完成后,就可以开始试用啦!
可以体验的功能有:
1. 概览页面直观查看集群状态及 SQL 性能表现

这是 TEM 系统的概览页面,呈现了集群、主机和备份的关键信息及前 5 SQL 性能数据:
集群、主机、备份统计:此处可以清楚的看到各个集群、主机和备份的数量和具体状态。
前 5 SQL 性能:展示了 Transaction OPS、QPS、Duration、Transaction Duration 四个维度数据,图表呈现了不同时段的性能指标变化及平均数值,便于直观了解集群 SQL 性能表现。
2. 集群管理
集群列表页

TEM 系统的集群列表页面呈现了集群相关的格式信息:
操作按钮:页面右上方设有 “创建集群” 和 “纳管集群” 按钮,可进行集群创建或纳管操作。
搜索筛选:具备搜索框,支持通过名称或 ID 查找集群,还能清空筛选条件。
集群信息展示:以表格形式呈现,包括名称、节点(细分 PD、TiDB、TiKV 等数量 )、版本、告警、状态等信息。同时支持分页浏览,底部显示集群总数及当前页码、每页展示数量 。
集群详情页
点击 集群名称,可以进入到集群详情页,如下所示:

这是 TEM 系统中某集群的详情页面,呈现了集群的各项格式信息:
集群概况:页面顶部展示集群状态、版本、CPU 架构、节点数、网络域、中控机、创建者、创建时间等基础信息。
告警情况:以分类统计形式呈现告警中(紧急、严重、警告 )及其他汇总(已解决、已屏蔽 )的数量,可按 24 小时、7 天、30 天查看。
节点详情:列出各组件,包括 Web UI 地址(若有 )、版本、节点数等信息,设有 “查看拓扑” 按钮用于深入了解节点布局。
资源水位:展示特定组件(如 TiKV )的磁盘资源使用情况,包括使用率、已用、可用及每日增长数据。
核心指标:通过图表展示 Duration、QPS、Transaction OPS 等核心性能指标,可按 1 小时、24 小时、7 天切换查看指标变化趋势和平均数值。
集群拓扑

TEM 系统的拓扑页面,呈现了集群各组件节点的分布与状态等格式信息:
搜索筛选:设有搜索框,可按节点 IP 地址搜索节点;还有节点状态筛选框,能筛选特定状态节点,且支持一键清空筛选条件。
组件节点展示:按组件分类列出,如 Alertmanager、Prometheus 等,显示各组件节点数量及运行状态。每个组件下展示节点地址、主机、位置、运行时长、状态等信息。
操作功能:部分节点右侧有操作菜单,可进行查看详情、停止、重启、删除等操作,便于对节点进行管理 。页面右上角设有 “扩容” 按钮,可用于扩展集群节点资源。
集群监控和诊断
集群监控能力是日常 TiDB 运维中必不可少的一部分功能,也是 TEM 中进行过重点优化的地方。集群监控页面如下图所示:

在页面顶部,从左至右依次是 “基础”“高级” 选项卡,用于切换不同监控视图模式;“SQL 诊断” 按钮,可跳转至对 SQL 性能诊断页面进行针对性的 SQL 问题定位;“所有图表已选” 下拉菜单,可选择监控图表范围;时间选择框 “30m Past 30 minutes”,用于设定监控数据的时间范围;“Refresh” 按钮用于手动刷新页面数据,其旁的 “1 min” 下拉菜单可设置自动刷新间隔时间 。通过这些按钮和选项,用户能灵活定制监控展示内容与更新频率,高效获取所需信息。
当前监控页面监控的指标除了对 TiDB 常见指标有相关监控外, 同时还基于 TiDB 常见问题做了高级看板,用于帮助用户对常见问题能够做到快速的根因定位或问题识别。
于此同时,当前 TEM 中所有的图表支撑展示下钻, 用户点击任意图表右上角的 下钻 标签,可以看到当前图表的数据展开页面,如下图所示:

基于以上能力, 用户可以便捷的进行看板查看和问题定位。当用户发现该问题是由 SQL 导致的问题时,用户可以点击 SQL 诊断 链接,此时用户将跳转到 SQL 诊断页面,如下图所示:

在此页面中,用户可以看到当前 TiDB 中的 慢查询 和 Top SQL 记录。当前所有的记录,支持基于多种阈值条件进行过滤筛选,如下图所示:

当用户发下相关问题 SQL 时,用户可以点击进入该 SQL 的详情页,当前 SQL 详情页如下图所示:


当前 SQL 诊断具备以下能力:
SQL 模板展示
清晰呈现 SQL 模板具体内容,包括完整的 SELECT、FROM 等语句结构,方便用户直观查看 SQL 的语法构成和逻辑。
提供 SQL 模板 ID,用于唯一标识该 SQL 模板;同时展示时间范围,明确数据统计的时间区间,以及执行数据库名称,让用户了解 SQL 执行的数据库环境。
SQL 历史分析
以图表形式展示 SQL 在特定时间内的累计耗时变化趋势,用户可直观了解 SQL 执行耗时的动态情况。
可按不同时间范围(如 1h )筛选查看,还能选择以累计耗时等维度分析,满足多样化分析需求。
执行计划管理
执行计划列表:展示执行计划 ID、累计耗时、平均耗时、执行次数、平均内存等关键指标,便于对比不同执行计划的性能表现。支持对执行计划进行 “修改绑定” 等操作,帮助优化 SQL 执行。
执行详情:给出具体执行计划的详细信息,如 SQL 查询样例,展示实际执行的 SQL 语句片段;提供执行计划的文本和表格展示方式,呈现 id、estRows、estCost 等执行参数,方便深入分析执行过程和性能瓶颈。
SQL 限流设置
提供 “添加或更新” 功能入口,可对 SQL 进行限流设置,控制 SQL 执行频率或资源占用,保障数据库整体性能稳定。
集群告警
集群告警页主要用于管理 TiDB 集群的告警信息,包含告警事件、告警规则和告警通道三个模块。

告警事件:是集群中实际发生的异常情况反馈。在此模块可查看活跃告警与历史告警,通过搜索框按名称查找特定告警,利用 “对象类型” 和 “严重程度” 筛选框精准定位。告警信息以表格呈现,涵盖事件名称、节点、对象类型、严重程度、持续时间、发生时间等。点击具体事件可进入详情页,查看概览、详情、告警规则表达式等信息,还能进行静默事件操作,便于及时了解和处理集群异常 。
告警规则:用于定义触发告警的条件和逻辑。用户可在此模块创建、编辑或删除告警规则,设置规则名称、关联的监控指标表达式等内容。合理配置告警规则,能确保在集群出现关键性能指标异常、资源使用超限等情况时,及时发出告警通知,帮助运维人员提前预防和快速定位问题 。
告警通道:主要负责设置告警信息的通知方式和接收对象。可配置多种通知渠道,如邮件、webhook 等,指定相关人员或群组接收告警消息。通过灵活配置告警通道,保证告警信息能准确、及时地传达给相关负责人,以便迅速响应和处理集群告警事件 。
从 告警事件列表 中,点击任何一条告警消息,可以进入到告警详情页,其中对告警信息做了如下展示:
概览信息:呈现告警的简要描述,如触发告警的条件等内容。
详情信息:展示集群、状态、持续时间、严重程度等详细信息,以及对象类型、发生时间等基本信息。
表达式信息:列出告警规则名称及具体表达式,还设有 “测试表达式” 功能,可按不同时间范围查看相关数据趋势。
关联图表:若有相关监控图表,可在此查看,若没有则提示并提供在监控中查看更多的入口。页面右上角设有 “静默事件” 按钮,可对告警事件进行静默处理。

其他功能
除了上述功能外, TEM v3 还支持如下功能:
备份:TEM v3 的备份功能支持对 TiDB 集群执行手动和定时备份。用户可以手动进行数据库的数据备份,也能灵活设定备份周期,如每日、每周定时备份,还可指定备份数据的存储位置,包括本地存储设备或云端存储服务。在需要时,可依据备份记录轻松恢复数据,保障业务连续性与数据安全性。此外,还提供备份任务监控功能,实时展示备份进度、状态等信息,方便用户及时掌握备份情况。
会话:在会话管理方面,TEM v3 可清晰展示 TiDB 集群中所有活跃会话的详细信息,包括会话发起的连接时间、当前执行的 SQL 语句及执行状态等。通过这些信息,用户能快速定位异常会话,如长时间占用资源或执行高负载操作的会话,并可直接在界面上执行终止会话操作,保障集群资源合理分配与高效运行。
参数:TEM v3 的参数管理功能允许用户全面查看和调整 TiDB 集群的各项参数。涵盖数据库运行参数、存储参数、网络参数等多个维度。用户可根据业务场景与性能需求,对参数进行精准配置,例如调整内存分配参数提升查询性能,修改日志记录参数满足审计要求。对于关键参数的修改,系统提供参数校验与版本控制机制,在修改前进行合理性检查,避免因错误配置导致集群故障。
3. 主机管理
回到 TEM 首页, 通过左侧导航栏可以进入主机管理页面。
主机列表页

TEM 系统的主机列表页,呈现了主机的相关管理信息:
操作按钮:页面右上方设有 “添加主机”“导入主机”“管理位置” 按钮,可进行主机添加、批量导入及位置管理操作。
搜索筛选:具备搜索框,支持通过名称或 IP 查找主机,还能利用标签进行筛选,并可一键清空筛选条件。
主机信息展示:以表格形式呈现主机信息,包括 IP 地址、名称、规格(如 CPU 核心数、内存大小及 NUMA 节点数 )、位置、关联集群、状态等。列表支持分页浏览,底部显示主机总数及当前页码、每页展示数量
主机详情页

TEM 系统中的主机详情页,呈现了特定主机的全面信息:
基础信息:展示主机状态(如在线 )、SSH 端口、凭证类型、类型(如虚拟机 )、位置、操作系统、创建时间、更新时间等,呈现主机的基本属性和使用情况。
CPU 和内存:列出架构、型号、核心数、NUMA 节点数、内存容量等,帮助了解主机的计算资源配置。
存储:显示磁盘类型、存储容量,呈现主机的存储资源情况。
磁盘使用情况:展示磁盘路径、类型、已用 / 可用 / 总计容量、使用率、挂载目录,便于掌握磁盘空间使用状况。
TiDB 组件进程:列出用户 ID、进程 ID、父进程 ID、启动时间、运行时间、命令等信息,可用于监控和管理主机上运行的 TiDB 相关进程 。页面右上角设有 “修改” 按钮,可对主机相关信息进行编辑操作。
同时,用户也可以点击主机监控的标签,看到相关主机的监控指标。

4. 告警配置
通过 TEM 系统首页导航栏可以进入 TEM 的告警管理页面,其整体格式与集群中的告警模块一致,包含告警事件、告警规则 和 告警模版三个模块,但此处的告警模块为所有集群的告警信息集合。

告警规则
告警规则页展示信息如下图所示:

该页面用于管理 TiDB 集群的告警规则:
操作按钮:页面右上角设有 “创建规则” 和 “从集群导入规则” 按钮,可手动创建新的告警规则,或从集群导入已有的规则,方便快捷地配置告警规则。
搜索筛选:具备搜索框,支持按名称或表达式查找告警规则,还设有 “对象类型” 和 “严重程度” 筛选框,能精准筛选特定规则,并且可一键清空筛选条件,便于用户快速定位所需规则。
规则列表展示:以表格形式呈现告警规则信息,包括规则名称、表达式、对象类型、严重程度、持续时间、绑定模板数等。列表支持分页浏览,底部显示规则总数及当前页码、每页展示数量,方便用户查看和管理大量规则。
告警模版
告警模版页展示信息如下图所示, 整个告警模板为告警规则的集合,方便用户对集群进行批量的告警规则配置。

5. 备份
通过左侧导航栏可以进入 TEM 系统中的备份管理页面,用于对 TiDB 集群备份任务进行集中管控:
操作按钮:页面右上角设有 “手动备份”“手动恢复”“管理备份策略” 按钮,可按需触发手动备份与恢复操作,或对备份策略进行配置与调整,满足不同的备份恢复需求。
信息展示区:呈现 “备份存储使用量集群 TOP3”(当前显示不适用 )和 “未分配备份策略集群 TOP3” 信息,帮助用户快速了解集群备份存储使用及策略分配情况。
筛选功能:提供 “任务类型”“任务状态”“集群名称” 筛选框,可灵活筛选备份任务,还能一键 “清除筛选条件”,方便精准定位特定备份任务。
任务列表:以表格形式展示备份任务相关信息,包括任务 ID、任务类型、任务状态、任务名称、集群名称、开始时间、结束时间及操作列。当前显示暂无数据,若有任务执行,可在此查看任务详情并进行相关操作。

手动备份和恢复
以下是用户点击了备份界面中的 手动备份 和 手动恢复 按钮后,TEM v3 弹出的相关操作页:

手动备份功能用于按需对 TiDB 集群进行数据备份操作。在操作界面中,用户首先需从下拉菜单选择要备份的集群名称;接着输入自定义的备份名称以便识别。目的地类型可选择如 S3 等存储类型,选定后需输入备份目的地地址,以及对应的 Access Key ID 和 Secret Access Key,用于授权访问存储位置。此外,还设有 “高级设置” 选项,可满足用户更精细的备份配置需求。完成各项信息填写后,点击 “创建” 即可启动备份任务,点击 “取消” 则放弃操作。
手动恢复功能用于将备份数据恢复到指定集群。操作时,用户先选择源集群,即备份数据所在的集群;再选择目标集群,也就是要恢复数据的集群,并且可点击 “测试” 进行相关测试。然后从下拉菜单选择备份名称(需先选择源集群才能显示可选项 )。确认信息无误后,点击 “手动恢复” 执行恢复操作,若要放弃则点击 “取消” 。
定时备份
用户也可以通过创建备份策略的方式实现定时备份, 具体配置内容如下:

备份目的地信息:需输入备份目的地地址,当前备份目的地址使用 s3 存储,需要用户填写 Access Key ID 和 Secret Access Key 用于权限验证。可切换开关开启或关闭日志备份功能。
适用集群选择:通过下拉菜单选择适用该备份策略的 TiDB 集群。
高级设置:可展开进行更详细的备份参数配置。
备份周期与保留设置:可选择按周或月执行备份,若选按周,还能指定具体周次。同时可设置备份保留时间,当前默认设置为 10 天。
操作按钮:完成配置后,点击 “创建” 确认并保存备份策略,点击 “取消” 则放弃此次创建操作。
6. 任务中心
任务中心是 TEM 系统中用于集中管理各类任务的模块。在这里,用户可以查看系统中正在执行、已完成或失败的任务列表。任务类型涵盖集群创建、备份恢复、主机添加等多种与 TiDB 集群管理相关的操作。通过任务中心,能够清晰了解每个任务的任务 ID、任务名称、所属集群、开始时间、结束时间以及任务状态等信息。这有助于用户实时监控任务进展,及时发现和处理异常任务,比如对长时间未完成或失败的任务进行排查和重试,保障集群管理操作的顺利进行和高效执行。
7. 审计日志
审计日志模块记录了 TEM 系统中各类操作的详细日志信息。它会记录操作的时间、操作类型(如集群配置修改、备份任务执行、用户登录登出等 )、操作执行者、操作对象(如具体的集群、主机 )以及操作前后的状态变化等内容。审计日志为系统操作提供了追溯依据,一方面有助于安全审计,可追踪是否存在非法或异常操作;另一方面在系统出现问题时,通过查看审计日志能快速定位问题发生的时间点和相关操作,辅助技术人员进行故障排查和问题解决,确保 TiDB 集群管理操作的合规性和可追溯性。
8. 相关设置

TEM 系统的设置模块涵盖多项关键功能,用于对系统基础配置和管理进行把控:
网络域:可查看已创建网络域的名称、集群管理中控机、创建及更新时间等信息,还能点击 “添加域” 创建新网络域,满足不同网络环境下的集群部署与管理需求 。
参数模板:用于创建、管理参数模板,方便对 TiDB 集群的参数进行统一配置和管理,提升参数设置的效率与规范性 。
标签:支持创建、编辑和管理标签,可对集群、主机等资源进行分类标记,便于资源的检索、筛选与管理 。
凭证:用于管理各类凭证信息,如主机连接凭证等,保障系统与外部资源交互时的身份验证和访问安全 。
用户管理:可进行用户的创建、编辑、权限分配等操作,实现对系统访问用户的精细化管理,确保不同用户拥有合适的操作权限 。
API Keys:用于生成、管理 API 密钥,为外部应用或脚本调用 TEM 系统 API 提供安全认证,支持系统的集成与自动化操作 。
相关 QA:
Q1:腾讯云相关问题
Helm App 安装成功了,但是工作负载中 Pod 一直拉不到镜像是怎么回事? 部署到北京、上海、广州、南京、成都这几个地域的云应用,容器镜像可以在内网拉取。其他地域云应用仓库通过外网访问,所以安装软件的目标 VPC,需要具备外网访问能力。如果客户 VPC 缺少外网出口,可以引导临时添加一个 NAT 和相应的路由配置解决。具体操作参见 NAT 网关文档 说明。
工作负载都起来了,但是 Helm 应用提示安装失败? 如果存在 post_install 脚本,可能是脚本超时了,请检查下 post_install 的 job 是否有存在进程未退出的情况。
镜像架构和节点 cvm 架构不一致,导致启动失败,报错信息为“exec user process caused: exec format error”,如何处理? 构建镜像的时候选择平台,如果是腾讯云 TKE,一般选择 `linux/amd64`,具体可 参见文档。
资源库存不足导致安装失败,报错如下图,如何解决? https://qcloudimg.tencent-cloud.cn/image/document/58ad89288f2a00dac369473491d8bce3.png 可以更换可用区,或者 提交工单 协助解决。
Q2:其他原因导致安装失败
需要在安装日志界面截图提交工单协助解决

Q3:应用部署成功但无法访问
如果是 ip 访问,需要安全组放通 32000 端口。如果是域名访问则建议关闭该端口
如果是域名访问,需要正确配置 DNS 及 SSL 证书。DNS 需配置 CNAME 指向应用的 CLB 地址,CLB 地址会在应用信息中提供
如果元数据库采用自建数据库,需要保证应用与数据库之间的网络通畅,及数据库填写信息正确
Q4:应用可以访问,但提示安装证书
证书信息由腾讯云 API 提供,所以应用 VPC 需具备访问对应接口能力,确认安全组未拦截。
相关 API 地址:
cloudapp.tencentcloudapi.com
metadata.tencentyun.com/latest/meta-data/cam/security-credentials
Q5:应用可以访问,但无法管理 TiDB 集群
纳管要求 TiDB 集群 v6.5 及以后版本,同时通过 TiUP 进行管理
确保 TEM 应用与纳管 / 创建集群之间的网络通畅
Q6:元数据库数据采用应用自带数据库,如何备份 / 保存 TEM 元数据
TEM 云应用的数据都保存在数据盘的 /data 目录下,对于使用自带数据库的用户,建议用户对应用的数据盘添加快照策略:https://console.cloud.tencent.com/cvm/cbs/index?rid=16

Q7:如何获取应用的一些基本信息

Q8:如何获取应用云服务器信息及内网 / 公网 IP


版权声明: 本文为 InfoQ 作者【TiDB 社区干货传送门】的原创文章。
原文链接:【http://xie.infoq.cn/article/deafba7360416d613592cb4f4】。文章转载请联系作者。
评论