线上真实问题:如何正确设置保活

发表于 3年以前  | 总阅读数:361 次

本文来自十年老粉小六子投稿,打赏归六爷(如果有)。大家平时肯定会遇到这个问题,相比于最后的结论,排查过程与思路才最重要

由于线上存在网络问题,会导致 [GRPC HOL blocking] , 于是决定把 GRPC client改写成 HTTP client

改写 HTTP client 的过程还算顺利,但是搜索日志里面会发现有极少数的 EOF 错误

call xxx failed: Post "http://localhost:8080": EOF

EOF 这个东西一般是跟 IO 关闭有关系的,Google 了下相关的错误,在 stackoverflow 找到相关的参考

Go by default will send requests with the header Connection: Keep-Alive and persist connections for re-use. The problem that I ran into is that the server is responding with Connection: Keep-Alive in the response header and then immediately closing the connection.

粗略看了下,问题很清晰,就是 serverclientKeep-Alive 机制的问题,去看下 clientserve 的设置参数再去调下应该就可以解决问题

Keep-Alive parameter

HTTP Client

线上在使用的http.Client的参数如下:

func main() {
 c := &http.Client{
  Transport: &http.Transport{
   MaxIdleConnsPerHost: 1,
   DialContext: (&net.Dialer{
    Timeout:   time.Second * 2,
    KeepAlive: time.Second * 60,
   }).DialContext,
   DisableKeepAlives: false,
   IdleConnTimeout:   90 * time.Second,
  },
  Timeout: time.Second * 2,
 }
 // c := &http.Client{}
 // sendRequest(c)
}
  • Dial中的DisableKeepAlives为 false, 表示开启 keep-alive
  • KeepAlive: 官方文档介绍是一个用于TCP Keep-Aliveprobe指针,间隔一定的时间发送心跳包。每间隔60S进行一次Keep-Alive
type Dialer struct {
...
 // KeepAlive specifies the interval between keep-alive
 // probes for an active network connection.
 // If zero, keep-alive probes are sent with a default value
 // (currently 15 seconds), if supported by the protocol and operating
 // system. Network protocols or operating systems that do
 // not support keep-alives ignore this field.
 // If negative, keep-alive probes are disabled.
 KeepAlive time.Duration
...
}

HTTP Server

线上在使用的http server的参数

func main() {
 s := http.Server{
  Addr:        ":8080",
  Handler:     http.HandlerFunc(Index),
  ReadTimeout: 10 * time.Second,
  // IdleTimeout: 10 * time.Second,
 }
 s.SetKeepAlivesEnabled(true)
 s.ListenAndServe()
}

Server的 KeepAlive 主要是通过 IdleTimeout 来进行控制的,IdleTimeout 如果为空则使用 ReadTimeout

type Server struct {
...
 // IdleTimeout is the maximum amount of time to wait for the
 // next request when keep-alives are enabled. If IdleTimeout
 // is zero, the value of ReadTimeout is used. If both are
 // zero, there is no timeout.
 IdleTimeout time.Duration
...
}

Debug again

可以看到,client 侧的 Keep-Alive 是60s,但是 server 侧的时间是间隔10s就去关掉空闲的连接。所以这里很容易就认为是:client 侧的 Keep-Alive 心跳间隔时间太长了,server 侧提前关闭了连接。

于是作出更改:调整 client Keep-Alive 为1s,这个时候感觉就不会出现 EOF 的错误了。

于是修改参数,重新上线,持续观察一段时间发现还是有 EOF 错误。看来只有进行本地复现看看究竟发生了什么

本地复现

Mock EOF

在尝试复现 EOF 错误的时候,看到有 Hijack 这种东西,还是挺好用的。可以看到直接在 server 侧关掉连接, client 侧感知不到连接关闭确实是会有 EOF 错误发生的。

func test(w http.ResponseWriter, r *http.Request) {
 log.Println("receive request from:", r.RemoteAddr, r.Header)
 if count%2 == 1 {
  conn, _, err := w.(http.Hijacker).Hijack()
  if err != nil {
   return
  }

  conn.Close()
  count++
  return
 }
 w.Write([]byte("ok"))
 count++
}

func main() {
 s := http.Server{
  Addr:        ":8080",
  Handler:     http.HandlerFunc(test),
  ReadTimeout: 10 * time.Second,
 }
 // s.SetKeepAlivesEnabled(false)
 s.ListenAndServe()
}

EOF 的原因知道了,在这里应该就是 Server 侧主动关闭了连接,至于为什么关闭连接,可以再继续往下看

Mock Keep-Alive

然后先在本地开始尝试复现 Keep-Alive 的问题,client 侧使用 KeepAlive: time.Second, 每间隔一秒钟的 keep-alive, server 侧同样使用两秒 IdleTimeout: time.Second

Client 侧代码的 Keep-Alive

func sendRequest(c *http.Client) {
 req, err := http.NewRequest("POST", "http://localhost:8080", nil)
 if err != nil {
  panic(err)
 }
 resp, err := c.Do(req)
 if err != nil {
  panic(err)
 }
 defer resp.Body.Close()

 buf := &bytes.Buffer{}
 buf.ReadFrom(resp.Body)

}

func main() {
 c := &http.Client{
  Transport: &http.Transport{
   MaxIdleConnsPerHost: 1,
   DialContext: (&net.Dialer{
    Timeout:   time.Second * 2,
    KeepAlive: time.Second,
   }).DialContext,
   DisableKeepAlives: false,
   IdleConnTimeout:   90 * time.Second,
  },
  Timeout: time.Second * 2,
 }
 // c := &http.Client{}
 sendRequest(c)
 time.Sleep(time.Second * 3)
 sendRequest(c)

}

Server 侧的代码:

func echo(w http.ResponseWriter, r *http.Request) {
 log.Println("receive a request from:", r.RemoteAddr, r.Header)
 w.Write([]byte("ok"))
}

func main() {
 var s = http.Server{
  Addr:        ":8080",
  Handler:     http.HandlerFunc(echo),
  IdleTimeout: time.Second * 2,
 }
 s.ListenAndServe()
}

理论上来讲,client间隔一秒发送probeserveridle为两秒是不会关闭连接的,但是实际却是关闭了旧的连接,重新创建了新的连接。

Server侧输出:

➜  http-client-server go run http-server-simple.go
2021/08/07 19:46:47 receive a request from: [::1]:53196 map[Accept-Encoding:[gzip] Content-Length:[0] User-Agent:[Go-http-client/1.1]]
2021/08/07 19:46:50 receive a request from: [::1]:53197 map[Accept-Encoding:[gzip] Content-Length:[0] User-Agent:[Go-http-client/1.1]]

抓包分析

结果有些出乎意料,因为是在本地进行代码复现的,所以去看下抓包分析结果。

  • Client 使用的基于TCP层面的Keep-alive协议,针对的是整条TCP连接
  • Server 侧明显是基于应用层协议做的判断

所以初步的结论就是两者的 Keep-Alive 是工作在不同层面,一个是四层检测机制,一个是七层的,让人产生了误解

源码分析

Client

Client 侧的代码在 net/dial.go 里面,主要进行 Keep-Alive 的逻辑如下

func (d *Dialer) DialContext(ctx context.Context, network, address string) (Conn, error) {
...
 if tc, ok := c.(*TCPConn); ok && d.KeepAlive >= 0 {
  setKeepAlive(tc.fd, true)
  ka := d.KeepAlive
  if d.KeepAlive == 0 {
   ka = defaultTCPKeepAlive
  }
  setKeepAlivePeriod(tc.fd, ka)
  testHookSetKeepAlive(ka)
 }
...
}

func setKeepAlivePeriod(fd *netFD, d time.Duration) error {
 // The kernel expects seconds so round to next highest second.
 secs := int(roundDurationUp(d, time.Second))
 if err := fd.pfd.SetsockoptInt(syscall.IPPROTO_TCP, syscall.TCP_KEEPINTVL, secs); err != nil {
  return wrapSyscallError("setsockopt", err)
 }
 err := fd.pfd.SetsockoptInt(syscall.IPPROTO_TCP, syscall.TCP_KEEPIDLE, secs)
 runtime.KeepAlive(fd)
 return wrapSyscallError("setsockopt", err)
}

上面的代码可以看到,最后调用的是 SetsockoptInt,这个函数就不在这具体的展开了,本质上来讲 Client 侧是在TCP 4层让 OS 来帮忙进行的 Keep-Alive

因为网络的环境是比较复杂的,有很多的请求是跨 LB 进行的,比如 AWSELB之类的,所以这个 keep-alive 在这里也显得合理

Server

Server侧的代码在 net/http/server.go里:

func (c *conn) serve(ctx context.Context) {
...
    defer func() {
        if !c.hijacked() {
   c.close()
   c.setState(c.rwc, StateClosed, runHooks)
  }
    }

    for {
        w, err := c.readRequest(ctx)
        ...
        serverHandler{c.server}.ServeHTTP(w, w.req)
        ...
  if d := c.server.idleTimeout(); d != 0 {
   c.rwc.SetReadDeadline(time.Now().Add(d))
   if _, err := c.bufr.Peek(4); err != nil {
    return
   }
  }
    }
...
}

简单的说明下, defer 就是关闭连接用的,当函数退出的时候server会关闭连接。

for循坏是处理连接请求用的,可以看出来HTTP server本身其实是不支持处理多个请求的,并没有实现HTTP 1.1协议中的Pipeline

然后再看keep-alive的操作,先设置ReadDeadline,然后调用c.bufr.Peek这里的调用流程比较长,其实最后会落到conn.Read,本质上是一个阻塞操作。然后开始等待bufr里面的数据,如果client在这个时间段没有发送数据过来,则会退出for循环然后关闭连接

conclusion

所以在上述的场景下想要reuse一个conn主要还是取决于server 侧的idleTimeout。如果没收到client发送的请求是会主动发送fin包进行close的。

如何修复

1.Retry

其实解决方案有很多种,在这里线上采用的是客户端进行重试。这里引申一下,像上面这种错误,如果是**GET,HEAD等一些幂等操作的话,client代码库会自动进行重试。我们线上使用的是POST, 所以直接在业务侧进行重试**

2.Increase IdleTimeout

另外一个解决方案就是增加serverIdleTimeout,但是这样一来会消耗更多的server资源。

3.Short-lived conn

还有一种方法就是短连接,这样对server的资源浪费就减轻了,但是不能重用连接。整体latency会受到影响。

本文由哈喽比特于3年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/EmawKOftz0OAnMd2ydcOgQ

 相关推荐

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

发布于:1年以前  |  808次阅读  |  详细内容 »

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

发布于:1年以前  |  770次阅读  |  详细内容 »

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

发布于:1年以前  |  756次阅读  |  详细内容 »

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

发布于:1年以前  |  648次阅读  |  详细内容 »

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

发布于:1年以前  |  589次阅读  |  详细内容 »

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

发布于:1年以前  |  449次阅读  |  详细内容 »

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

发布于:1年以前  |  446次阅读  |  详细内容 »

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

发布于:1年以前  |  445次阅读  |  详细内容 »

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

发布于:1年以前  |  444次阅读  |  详细内容 »

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

发布于:1年以前  |  442次阅读  |  详细内容 »

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

发布于:1年以前  |  441次阅读  |  详细内容 »

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

发布于:1年以前  |  437次阅读  |  详细内容 »

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

发布于:1年以前  |  430次阅读  |  详细内容 »

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

发布于:1年以前  |  428次阅读  |  详细内容 »

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

发布于:1年以前  |  420次阅读  |  详细内容 »

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

发布于:1年以前  |  411次阅读  |  详细内容 »

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

发布于:1年以前  |  406次阅读  |  详细内容 »

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

发布于:1年以前  |  398次阅读  |  详细内容 »
 相关文章
Android插件化方案 5年以前  |  237231次阅读
vscode超好用的代码书签插件Bookmarks 2年以前  |  8065次阅读
 目录