TCP接入层的负载均衡、高可用、扩展性架构

开发 开发工具
本文主要介绍TCP接入层如何实施负载均衡、如何保证高可用以及扩展性架构。

一、web-server的负载均衡

互联网架构中,web-server接入一般使用nginx来做反向代理,实施负载均衡。整个架构分三层:

  • 上游调用层,一般是browser或者APP
  • 中间反向代理层,nginx
  • 下游真实接入集群,web-server,常见web-server的有tomcat,apache

整个访问过程为:

  • browser向daojia.com发起请求
  • DNS服务器将daojia.com解析为外网IP(1.2.3.4)
  • browser通过外网IP(1.2.3.4)访问nginx
  • nginx实施负载均衡策略,常见策略有轮询,随机,IP-hash等
  • nginx将请求转发给内网IP(192.168.0.1)的web-server

由于http短连接,以及web应用无状态的特性,理论上任何一个http请求落在任意一台web-server都应该得到正常处理(如果必须落在一台,说明架构不合理,不能水平扩展)。

问题来了,tcp是有状态的连接,客户端和服务端一旦建立连接,一个client发起的请求必须落在同一台tcp-server上,此时如何做负载均衡,如何保证水平扩展呢?

二、单机法tcp-server

单机法tcp-server

单个tcp-server显然是可以保证请求一致性:

  • client向tcp.daojia.com发起tcp请求
  • DNS服务器将tcp.daojia.com解析为外网IP(1.2.3.4)
  • client通过外网IP(1.2.3.4)向tcp-server发起请求

方案的缺点?

  • 无法保证高可用。

三、集群法tcp-server

集群法tcp-server

通过搭建tcp-server集群来保证高可用,客户端来实现负载均衡:

  • client内配置有tcp1/tcp2/tcp3.daojia.com三个tcp-server的外网IP
  • 客户端通过“随机”的方式选择tcp-server,假设选择到的是tcp1.daojia.com
  • 通过DNS解析tcp1.daojia.com
  • 通过外网IP连接真实的tcp-server

1. 如何保证高可用呢?

如果client发现某个tcp-server连接不上,则选择另一个。

2. 潜在的缺点?

每次连接前,需要多实施一次DNS访问:

  • 难以预防DNS劫持
  • 多一次DNS访问意味着更长的连接时间,这个不足在手机端更为明显

3. 如何解决DNS的问题?

直接将IP配置在客户端,可以解决上述两个问题,很多公司也就是这么做的(俗称“IP直通车”)。

4. “IP直通车”有什么新问题?

将IP写死在客户端,在客户端实施负载均衡,扩展性很差:

  • 如果原有IP发生变化,客户端得不到实时通知
  • 如果新增IP,即tcp-sever扩容,客户端也得不到实时通知
  • 如果负载均衡策略变化,需要升级客户端

四、服务端实施负载均衡

只有将复杂的策略下沉到服务端,才能根本上解决扩展性的问题。

服务端实施负载均衡

增加一个http接口,将客户端的“IP配置”与“均衡策略”放到服务端是一个不错的方案:

  • client每次访问tcp-server前,先调用一个新增的get-tcp-ip接口,对于client而言,这个http接口只返回一个tcp-server的IP
  • 这个http接口,实现的是原client的IP均衡策略
  • 拿到tcp-server的IP后,和原来一样向tcp-server发起TCP长连接

这样的话,扩展性问题就解决了:

  • 如果原有IP发生变化,只需要修改get-tcp-ip接口的配置
  • 如果新增IP,也是修改get-tcp-ip接口的配置
  • 如果负载均衡策略变化,需要升级客户端

然而,新的问题又产生了,如果所有IP放在客户端,当有一个IP挂掉的时候,client可以再换一个IP连接,保证可用性,而get-tcp-ip接口只是维护静态的tcp-server集群IP,对于这些IP对应的tcp-server是否可用,是完全不知情的,怎么办呢?

五、tcp-server状态上报

tcp-server状态

get-tcp-ip接口怎么知道tcp-server集群中各台服务器是否可用呢,tcp-server主动上报是一个潜在方案,如果某一个tcp-server挂了,则会终止上报,对于停止上报状态的tcp-server,get-tcp-ip接口,将不返回给client相应的tcp-server的外网IP。

该设计存在的问题?

诚然,状态上报解决了tcp-server高可用的问题,但这个设计犯了一个“反向依赖”的耦合小错误:使得tcp-server要依赖于一个与本身业务无关的web-server。

六、tcp-server状态拉取

tcp-server状态拉取

更优的方案是:web-server通过“拉”的方式获取各个tcp-server的状态,而不是tcp-server通过“推”的方式上报自己的状态。

这样的话,每个tcp-server都独立与解耦,只需专注于资深的tcp业务功能即可。

高可用、负载均衡、扩展性等任务由get-tcp-ip的web-server专注来执行。

多说一句,将负载均衡实现在服务端,还有一个好处,可以实现异构tcp-server的负载均衡,以及过载保护:

  • 静态实施:web-server下的多个tcp-server的IP可以配置负载权重,根据tcp-server的机器配置分配负载(nginx也有类似的功能)
  • 动态实施:web-server可以根据“拉”回来的tcp-server的状态,动态分配负载,并在tcp-server性能***下降时实施过载保护

七、总结

  • web-server如何实施负载均衡? 利用nginx反向代理来轮询、随机、ip-hash。
  • tcp-server怎么快速保证请求一致性? 单机。
  • 如何保证高可用? 客户配置多个tcp-server的域名。
  • 如何防止DNS劫持,以及加速? IP直通车,客户端配置多个tcp-server的IP。
  • 如何保证扩展性? 服务端提供get-tcp-ip接口,向client屏屏蔽负载均衡策略,并实施便捷扩容。
  • 如何保证高可用? tcp-server“推”状态给get-tcp-ip接口,orget-tcp-ip接口“拉”tcp-server状态。

【本文为51CTO专栏作者“58沈剑”原创稿件,转载请联系原作者】

戳这里,看该作者更多好文

责任编辑:赵宁宁 来源: 51CTO专栏
相关推荐

2020-10-28 08:07:58

TCP负载均衡网络协议

2023-12-20 09:26:20

高可用高吞吐高扩展性

2013-04-09 10:16:28

OpenStackGrizzlyHyper-V

2013-03-19 10:50:38

2014-05-29 10:09:13

甲骨文MySQL Fabri

2021-09-02 09:42:11

测试软件可扩展性开发

2023-11-07 09:54:27

架构演进

2010-06-30 17:15:39

向外扩展SQL Ser

2010-07-21 11:21:05

SQL Server

2022-09-05 15:17:34

区块链比特币可扩展性

2010-07-01 11:38:13

向外扩展 SQL Se

2018-04-10 14:38:10

区块链

2009-09-03 17:18:40

C#扩展性对象模型

2015-05-13 17:15:01

Elasticsear分布式搜索插件

2009-09-03 17:33:08

C#常规扩展性模型

2010-03-18 10:29:11

Hyper-V

2020-04-14 12:03:49

AI扩展性机器学习

2021-12-03 14:41:00

云存储可扩展性存储

2016-10-13 14:38:51

OpenStack可扩展性IT人员
点赞
收藏

51CTO技术栈公众号