大家参与的项目里多少都会有web server与browser需要长连接互联的场景, 当然我也是, 之前没有进行太多方案的调研(比如深入理解通信协议和通用的一些解决方案), 所以websocket就不假思索地直接用了, 包括去年写的框架xframe里也是直接嵌入了官方websocket的library来实现的。
两周前遇到个场景, 前端大佬提需求说能否支持socket.io, 之前写的websocket的server组件不能用, 当然是欣然答应, 花了半天的时间重写了之前的websocket server支持socket.io的协议。但是为什么socketio不能兼容websocket呢?作为一名合格的工程师, 不能知其然而不知其所以然, websocket是什么, 它与socket.io有什么区别呢?他们又分别适合怎样的场景?为什么有了websocket还需要有socket.io?
于是花了几天时间(工作之余, T _ T 有段时间没有看k8s)研究了下websocket的RFC6455上的定义, 撸了一遍golang版websocket的源码实现, 比对比对Socket.IO。
1. Websocket
Websocket是全双工的基于TCP层的通信协议, 为浏览器及网站服务器提供处理流式推送消息的方式。它不同于HTTP协议, 但仍依赖HTTP的Upgrade头部进行协议的转换。
1.1 Websocket Handshake
websocket协议通信分为两个部分, 先是握手, 再是数据传输。
如下就是一个基本的websocket握手的请求与回包。
websocket handshake请求
GET /chat HTTP/1.1
Host: server.example.com
Upgrade: websocket
Connection: Upgrade
Sec-WebSocket-Key: dGhlIHNhbXBsZSBub25jZQ==
Origin: http://example.com
Sec-WebSocket-Protocol: chat, superchat
Sec-WebSocket-Version: 13
websocket handshake返回
HTTP/1.1 101 Switching Protocols
Upgrade: websocket
Connection: Upgrade
Sec-WebSocket-Accept: s3pPLMBiTxaQ9kYGzzhZRbK+xOo=
Sec-WebSocket-Protocol: chat
websocket消息根据RFC6455统称为"messages", 一个message可以由多个frame构成, 其中frame可以为文本数据, 二进制数据或者控制帧等, websocket官方有6种类型并预留了10种类型用于未来的扩展。
Websocket协议中如何确保客户端与服务端接收到握手请求呢?
这里就要说到HTTP的两个头部字段, Sec-Websocket-Key与Sec-Websocket-Accept。
{SecWebsocketAccept}=Base64(SHA1(SecWebsocketKey+GUID))
首先客户端发起请求, 在头部Sec-Websocket-Key中随机生成base64的字符串; 服务端收到请求后, 根据头部Sec-Websocket-Key与约定的GUID"258EAFA5-E914-47DA-
95CA-C5AB0DC85B11"拼接; 使用SHA-1hash算法编码拼接的字符串, 最后用base64编码放入头部Sec-Websocket-Accept返回客户端做认证。
更详细的说明可以看RFC说明, 服务端与客户端都有更详细的入参限制。
1.2 Websocket数据帧
了解完websocket握手的大致过程后, 这个部分介绍下websocket数据帧(这比理解TCP/IP数据帧看着简单很多吧)与分片传输的方式。
websocket数据帧
- FIN: 表示是否为最后一个数据帧的标记位
- opcode: 表示传输的数据格式, 例如1表示纯文本(utf8)数据帧, 2表示二进制数据帧
- MASK: 表示是否需要掩码的标记位, 在websocket协议里, 从客户端发送给服务端的包需要通过后面的making-key与payload data数据进行异或操作, 防止一些恶意程序直接获取传输内容内容。
- Payload len: 传输数据内容的长度
- Payload Data: 传输数据
Websocket握手及数据帧的收发(以Golang为例)
首先对使用者最外层暴露处理ws连接的handler, 该handler是http定义的interface的具体实现, 这样也是符合websocket基于http协议完成协议升级的定义。(但是这个库没有看出是怎么分片处理的)
//在websocket库定义了处理ws连接的alias函数类型
type Handler Func(*Conn)
func (h *Handler) ServeHTTP(w http.ResponseWriter, req *http.Request) {}
//自定义Handler(_wsOnMessage)连接处理函数
func _wsOnMessage(c *Conn) {
//接收ws连接推送的每个frame
buf := make([]byte, 0)
n, err := websocket.Message.Receive(buf)
//buf解析(纯文本或者二进制) + 业务处理
}
//最后在定义http server的handler
http.Server.Handler = http.Handler(websocket.Handler(_wsOnMessage))
http.Server.ListenAndServe("0.0.0.0:80")
其次, 在Handler.ServeHTTP里都有哪些逻辑呢?
// 检查http的request里与websocket相关的头部信息
var hs serverHandshaker = &hybiServerHandshaker{Config:config}
code, err := hs.ReadHandshake(buf.Reader, req)
if err == ErrBadWebSocketVersion {
fmt.Fprintf(buf, "HTTP/1.1 %03d %s\r\n", code, http.StatusText(code))
fmt.Fprintf(buf, "Sec-WebSocket-Version: %s\r\n", SupportedProtocolVersion)
buf.WriteString("\r\n")
buf.WriteString(err.Error())
buf.Flush()
return
}
if err != nil {
fmt.Fprintf(buf, "HTTP/1.1 %03d %s\r\n", code, http.StatusText(code))
buf.WriteString("\r\n")
buf.WriteString(err.Error())
buf.Flush()
return
}
// 检查完头部信息后, 这里websocket定义里要求必须带上Origin信息
if handshake != nil {
err = handshake(config, req)
if err != nil {
code = http.StatusForbidden
fmt.Fprintf(buf, "HTTP/1.1 %03d %s\r\n", code, http.StatusText(code))
buf.WriteString("\r\n")
buf.Flush()
return
}
}
//握手检查完后, 这里做handshake成功返回
err = hs.AcceptHandshake(buf.Writer)
if err != nil {
code = http.StatusBadRequest
fmt.Fprintf(buf, "HTTP/1.1 %03d %s\r\n", code, http.StatusText(code))
buf.WriteString("\r\n")
buf.Flush()
return
}
conn = hs.NewServerConn(buf, rwc, req)
return
NewServerConn里是具体的websocket的encoder与decoder
func (cd Codec) Receive(ws *Conn, v interface{}) (err error) {
ws.rio.Lock()
defer ws.rio.Unlock()
if ws.frameReader != nil {
_, err = io.Copy(ioutil.Discard, ws.frameReader)
if err != nil {
return err
}
ws.frameReader = nil
}
again:
// 这里初始化的reader用于解析具体的frame, 就是上述的一个数据帧的内容, e.g FIN/opcode/payload len等
frame, err := ws.frameReaderFactory.NewFrameReader()
if err != nil {
return err
}
frame, err = ws.frameHandler.HandleFrame(frame)
if err != nil {
return err
}
if frame == nil {
goto again
}
payloadType := frame.PayloadType()
data, err := ioutil.ReadAll(frame)
if err != nil {
return err
}
return cd.Unmarshal(data, payloadType, v)
}
1.3 分片传输(fragmentation)
当一个完整消息体大小不可知时, websocket支持分片传输。这样可以方便服务端使用可控大小的buffer来传输分段数据, 减少带宽压力, 同时可以有效控制服务器内存。
同时在多路传输的场景下, 可以利用分片技术使不同的namespace的数据能共享对外传输通道。不用等待某个大的message传输完成, 进入等待状态。
2. Socket.IO
Socket.IO是js的库, 用于web的开发应用中实现客户端与服务端建立全双工通信。SocketIO主要是基于websocket协议进行的上层封装(包括连接的管理、心跳与维活及提供room的广播机制与异步io等特性), 同时在websocket不可用时, 提供长轮询作为备选方式获取数据。
这里要注意就是Socket.IO不是Websocket的实现, Socker.IO有自己的协议说明, 因此和websocket的server不兼容, Socker.IO握手及数据传输都有自定义的metadata与认证逻辑, 比如头部的sid, 作者在刚使用时上层接了负载均衡, 没有考虑session保持, 导致Socket.IO握手时鉴权一直不通过。
2.1 Socket.IO特性
- 可靠性, Socker.IO基于engine.io实现, 先建立长轮询连接后再升级为基于websocket全双工的长连接
- 自动重连与断连检查
- 多路传输/多种数据格式传输(这个和websocket特性一样)
- 广播机制(这个用法在开发上还是很方便的, 开发同学不需要做太多额外的工作, broadcast函数即可, 不用像自己实现websocket服务端一样要做topic和连接管理及并发推送的处理)
2.2 Socket.IO Handshake
主要是polling部分, websocket部分参考前一小节。
-
- 客户端发http请求, URL: /${yourpath}?EIO=3&transport=polling&t=abcd
-
- 服务端返回并带上header: set-cookie=xxx
-
- 客户端使用cookie作为sid, URL: /${yourpath}?EIO=3&transport=polling&t=abcd&sid=xxx
-
- 认证完成
其中客户端每次发起请求使用的t是时间戳参数 (engine.io), 设计思路可以参考cache buster的技术实现。
3. Websocket与Socket.IO适用场景
只从两个方面分析:
易用性: Socket.IO的易用性更好, 对于前端开发来说, 没有太多心智负担, 比如需要关心重连、push转polling等容错逻辑; 服务端上也没有太多的连接管理的设计, Socker.IO已经打包处理了。
灵活性: 个人觉得websocket的灵活性更高一些, 不管是前端还是后端, 可以做更多的设计与优化, 比如连接管理, 容错重连, 用户认证等, 至少在提升技术能力上还是很有帮助。
“学会运用轮子的才能成为一位好司机, 懂得如何造轮子才可能造就一个米其林”