如何花“一点点小钱”突破华为云 CCE 服务的“防线”
摘要:有没有方法绕开CCE的限制,自由的调用K8s的API呢?有还便宜,2.4元/集群/天。
申明:所有的一切都是为了使得华为云可以更好,而不是为了diss它。
通过华为云购买多个K8s集群,又想使用原生K8s接口调用这些集群,有什么好的方式?目前使用CCE服务的API依然是最好的选择。但同时CCE的API又存在诸多限制,如API限流,部分原生接口未开放等。那有没有方法绕开CCE的限制,自由的调用K8s的API呢?本文就是给出一个绕开“防线”的思路。欢迎交流指正~
一、使用场景+遇到的困难
使用场景:我有多个K8s集群。我的“管理模块”(即主系统,是一个批处理系统)跑在一个独立的VPC中,与干活的K8s隔离。然后会调用K8s的接口,投递Job任务到对应的K8s集群中开始干活。如下图:
当前遇到的困难:限流+部分API未暴露。所以希望能有一条上图黄色的通道。
1.1 给每个K8s集群,买个EIP呗?
显然,可行性没问题。但是这个方案并不好:
(1) EIP需要额外付费,价格也不便宜。
(2) EIP是互联网地址,明明我所有程序都在华为云,为什么报文要走互联网绕一圈。
(3) K8s集群并不想对互联网外部暴露,徒增安全风险。
那看看其他方式吧
1.2 华为云VPC打通服务 VPC-endpoint
我们知道跨vpc(特别是跨租户的vpc),可通过华为云的 vpc-endpoint 服务完成连接通道的打通。
参考:https://support.huaweicloud.com/productdesc-vpcep/zh-cn_topic_0131645196.html
既然EIP不合适,那我们就走全部华为云内网的 vpc-endpoint 方案吧。
二、跨VPC打通通道
定下整体方案是就是利用 vpc-endpoint 来打通绕开CCE API-Server的限制。
以下就是操作过程:
2.1 VPCEP直接连3台K8s-Master。(失败)
每个CCE集群,都会有一个内网访问的IP地址。其Master的IP可以在界面看到。
那咱直接让 vpc-endpoint 对接这个IP不就完了么?
如下图:
想法虽然好,可是事实是残酷的。
(1) CCE给出的这个内网IP地址是一个vip(虚IP),本身是用来保证可靠性的。当某台master挂了,会自动漂移到其他2台Master上面。
(2) 经过确认:Vpc-endpoint使用的是vxlan隧道,走的是点对点协议。 也就是vpcep会最终绑定到Master节点的实际IP地址。当vip发生漂移时,vpcep就会失效(不支持自动检测漂移,需要重新绑定到新的节点)。
所以也就没办法通过vpcep直接连3台Master了。
三、通过ELB中转一次连K8s-Master
vpcep服务当前只能对接 (1)ELB实例 or (2)具体的ECS 这2种后端。
而这里咱们有3台Master节点,显然第(2)种就不合适。所以咱就走(1)elb实例吧。
接下来==》那咱重点分析 “k8s集群怎么对接elb”吧。
3.1 使用CCE提供的:Service绑定elb功能。(失败)
K8s自带了一个访问api-server的 service。
所有集群里面的容器,都可以通过这个地址,访问Master。
那我们通过elb去连接这个svc,不就可以了么?
根据CCE的文档,操作起来:
https://support.huaweicloud.com/usermanual-cce/cce_01_0014.html
给SVC设置一个:annotation,带上elb实例id。走起~
嗯?报错了。。
k8s里面的controller报错说:连elb的svc必须要有selector。
也就使用elb直接连那个“无selector”的 “kubernetes” service,CCE的controller会报错,此路走不通。。。
唐老师注:说明controller实现时,考虑的兼容性不够强。当已经有 endpoints 了,应没必要强制要求有 selector了(因为k8s的selector的目的就是为了找到目标地址,咱这里目标都已经提前知道了)
3.2 使用ELB去连3台K8s-Master地址。(失败)
既然CCE的Service实现带了约束,导致Master无法直接对接elb。 那咱就直接从elb角度,直接去连3台master吧(cce的controller,也是调用elb的api来关联的)。
如下图:
可是,事实还是失败告终。
原因:当前华为云的elb只能连 ECS 的主网卡,而咱们的3台CCE Master节点的网卡,都是从网卡。如下图:
ELB实例不支持连从网卡(如下图)。。。
据说华为云的下一代elb(v3)支持连从网卡。于是当前,此路不通~
四、再找个Nginx中转一次吧
Elb不能直接连master节点,而elb连Service又必须得带selector。那就只能额外部署一个proxy容器,使用selector先到这个proxy容器,再转到Master。
4.1 通过Configmap挂载Nginx配置文件。(失败)
启动 Nginx 得有个 conf 配置。 咱们通过 configmap 将nginx.conf配置文件挂载到Nginx容器里面。
嗯?怎么报错了。华为云的WAF将CCE的这个创建Configmap的API拦截了。。。
所以自动化启动Nginx(通过CCE的API-server)是行不通了。
4.2 从K8s内部创建Configmap并挂载。(成功)
走CCE云服务API接口失败,那就走K8s内部的原生接口吧。
其中 nginx.conf 的内容如下:
创建configmap完成。
4.3 启动Nginx容器,然后vpcep连接该容器。(失败)
配置文件好了,那我们启动Nginx吧(记得挂载上面那个configmap哦)。
我的configmap挂载地址是:
容器启动命令:
启动Deployment的同时,创建类型为 Loadbalancer 类型的 Service(使得ELB连通到Nginx容器)。
可以看到elb实例已经创建出来。
4.4 开始创建 vpc-endpoint。
(1)先在目的vpc(即K8s集群对应的vpc网络)创建 vpc-endpoint-service。选择连咱们的elb实例。
重点:权限设置里面,记得允许别人连接。(如果有跨租户调用K8s接口)
(2)然后在客户端的vpc(即管理逻辑模块所在vpc)创建 vpc-endpoint。
通过名字,找到步骤(1)的endpoint-service,并绑定成功:
重点:这里这个 vpc-endpoint 需要 1毛钱/小时。一天2块4,标题说的花点钱就是在这里了。
(3)创建好的vpc-endpoint如下:
咱们直接从客户端访问这个 vpcep(直接代表了那个Nginx容器)吧。
额,不通呀。。。
4.5 终于大功告成
经过定位:是 Nginx容器绑定ELB的时候,CCE没有自动创建elb的backend导致的(应该是小bug,我的集群版本也比较旧,才1.11的)。
后面通过:扩容pod数量,再次触发一次刷新elb后端backend行为:可以看到有backed了
这个时候,通过 vpcep 终于可以访问到目标CCE集群的API了。
(上面401,是因为没有带token。 带了“Authorization: Bearer iam-token”是OK的)
打通的完整流程图如下:
到此,我们就可以随意跨租户、跨VPC、跨集群 来访问K8s的API了,不用经过CCE的Api-server了。
(相当于我们自己造了一个 “伪CCE-API-Server”)
五、总结
通过精心挖掘的通道,花费2.4元/集群/天,即可绕开华为云CCE服务的API-Server的“防线”,“畅通”地调用你购买的K8s接口。
关键在于,为了获得“自由调用K8s接口”这个目的,是否值得这一路上的各种坎坷?至少从这些困难点来看,华为云还存在很大的可改进空间。如:
(1) API-Server限制可否放开一点?
(2) ELB能否直接对接K8s-Master?
(3) VPC-endpoint能否直接对接K8s集群?
(4) VPC-endpoint,无法提供报文日志,用户无法自己排查问题。
(5) 能否有更简洁的管理多K8s集群的“伪API-server”功能。
但是,正是因为有人去发现问题,才能有变得更好的可能,不是么? 感谢各位,Thanks~
版权声明: 本文为 InfoQ 作者【华为云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/4d24ee23914c983ca2f576a46】。文章转载请联系作者。
评论