写点什么

记一次 kubernetes 获取 internal Ip 错误流程

  • 2023-12-27
    广东
  • 本文字数:1178 字

    阅读完需:约 4 分钟

记一次kubernetes获取internal Ip错误流程

本文分享自华为云社区《记一次kubernetes获取internal Ip错误流程》,作者:张俭。


偶尔也回首一下处理的棘手问题吧。问题的现象是,通过 kubernetes get node 输出的 ip 不是期望的 ip 地址。大概如下所示


ip addr
eth0 ip1eth0:xxx ip2
复制代码


最终输出的不是预期的 ip1 地址,而是 ip2 地址。


按藤摸瓜,kubernetes 把节点信息保存在/registry/minions/$node-name中的 InternalIp 字段。

InternalIp 是如何确定的呢,这段代码位于pkg/kubelet/nodestatus/setters.go


			// 1) Use nodeIP if set (and not "0.0.0.0"/"::")			// 2) If the user has specified an IP to HostnameOverride, use it			// 3) Lookup the IP from node name by DNS			// 4) Try to get the IP from the network interface used as default gateway			//			// For steps 3 and 4, IPv4 addresses are preferred to IPv6 addresses			// unless nodeIP is "::", in which case it is reversed.
复制代码


我们的场景下没有手动设置 nodeIp,如需设置通过 kubelet 命令行即可设置 –node-ip=localhost,最终通过如下的 go 函数获取 ip 地址


addrs, _ = net.LookupIP(node.Name)
复制代码


对这行 go 函数进行 strace 追溯,最终调用了 c 函数,getaddrinfo 函数。getaddrinfo 底层是发起了 netlink 请求,开启 netlink 的抓包


modprobe nlmonip link add nlmon0 type nlmonip link set dev nlmon0 uptcpdump -i nlmon0 -w netlinik.pcap# 使用nlmon 驱动模块,这个nlmon 驱动模块会注册一个 netlink tap 口,用户态向内核发送 netlink 消息、内核向用户态发送 netlink 消息,报文都会经过这个 tap 口。
复制代码


通过抓包我看到通过 netlink 报文请求返回的 ip 地址顺序都是合乎预期的,只能是 getaddrinfo 函数修改了返回的顺序


Google 了一下发现是 getaddrinfo 支持了 rfc3484 导致了 ip 的重新排序,代码地址glibc/sysdeps/posix/getaddrinfo.c


RFC3484 总共有十个规则,比较关键的有

Rule9


   Rule 9:  Use longest matching prefix.   When DA and DB belong to the same address family (both are IPv6 or   both are IPv4): If CommonPrefixLen(DA, Source(DA)) >   CommonPrefixLen(DB, Source(DB)), then prefer DA.  Similarly, if   CommonPrefixLen(DA, Source(DA)) < CommonPrefixLen(DB, Source(DB)),   then prefer DB.
复制代码


举个例子,假如机器的 ip 地址是 172.18.45.2/24,它会更青睐于172.18.45.6而不是172.31.80.8。这个 RFC 存在较大的争议,它与 dns 轮询策略不兼容,如:dns 服务器轮询返回多个 ip 地址,客户端总是选择第一个 ip 连接。与这个策略存在很大的冲突。并且社区内也有投票试图停止对 RFC3484 rule9 的适配, 但是最终被拒绝了。


根据分析,认为是 ip2 的地址小于 ip1 的地址,最终 glibc 排序的时候把 ip2 放在了前面。最终我们给 kubelet 配置了 eth0 地址的–node-ip,解决了这个问题。


点击关注,第一时间了解华为云新鲜技术~

发布于: 刚刚阅读数: 4
用户头像

提供全面深入的云计算技术干货 2020-07-14 加入

生于云,长于云,让开发者成为决定性力量

评论

发布
暂无评论
记一次kubernetes获取internal Ip错误流程_后端_华为云开发者联盟_InfoQ写作社区