及以下系统中 UI 界面的显示效果,所有应用的数据存储服务都出现访问异常(持续 19 分钟)13

摘要即时通讯云 LeanCloud
3月29日因少量大用户量应用的高在线量而发生了连锁服务故障,这个问题相信不是第1次发生,也不会是最后一次。对于即时通讯云服务商来说,要想在成本和服务质量上达成平衡,暂期内只能是个梦。2016
年 3 月 29 日晚间,LeanCloud
平台上的多个应用进行了推广活动,激增的访问量给我们的数据存储和实时通信服务带来了较大压力。从
20:50 至 22:15 有多次流量高峰出现,我们多台 Web
服务器的网络吞吐包超过虚拟机的能力极限,内外网通信中断,从而导致 HTTP
服务多次出现间歇性故障(数据存储 API
以及依赖于它的服务也都间歇性不可用)。具体情况汇报如下:故障时间20:53 –
21:03(持续约 10 分钟)数据存储 API 服务约 50% 的请求超时。21:17 –
21:40(持续约 23 分钟)数据存储 API 服务约 50% 的请求超时。22:00 –
22:15(持续约 15 分钟)数据存储 API 服务约 12.5%
的请求超时。故障总共持续约 48
分钟。影响范围本次故障只影响中国节点,美国节点的所有服务均工作正常。在故障期间凡是向
LeanCloud
平台发送过请求,并使用了数据存储服务的活跃应用都受到了影响;我们的统计服务也在短时间内无法正常接收来自应用的事件上报。事故过程20:52:内部监控系统报警,显示多个
Web
服务器节点出现故障。我们立刻上线进行紧急处理,在排除后端服务问题之后,开始追查前端资源和带宽配额。21:03:由于部分应用流量回落,同时也由于我们临时大幅增加了出口带宽,服务暂时恢复正常。21:05:我们开始扩容前端机集群,以应对接下来可能再次出现的流量高峰。21:17:前端机扩容时碰到了虚拟机
OS
故障以及网络环境问题,未能及时完成。此时恰好部分应用又迎来一次流量高峰,前端机再次吃紧。21:30:修复过程将近半小时,于是我们启动了公告和通知流程,在微博和用户群里发出通告。21:40:流量自然回落,前端机再次恢复正常,我们的平台开始正常处理
API
请求。22:00:线上部分前端机出现物理故障,我们又开始对它们进行紧急处理,期间有大约
1/8 的 API
请求丢失。22:15:新的前端机节点经过手动处理后终于达到可用状态,并加入集群,完成了扩容,至此全部服务彻底被恢复。后续改进措施增加新的监控措施,对前端机网络入包量进行监控,防止网络转发量超过
VM 能力限制。调整前端机 VM
配置,使用高包量机型,增大前端机的处理能力。改进前端机扩容方式,使用
docker
镜像来加快新节点部署上线的进度。公告流程中增加短信通知渠道,确保信息及时通知到开发者。

摘要4月22日即时通讯云 LeanCloud
发生了因存储集群故障而致服务瘫痪,从事故原因中可以想够用的出目前LeanCloud这类即时通讯云厂商所面临的各种挑战。前言4月22日即时通讯云
LeanCloud
发生了因存储集群故障而致服务瘫痪,从事故原因中可以想象的出目前LeanCloud这类即时通讯云厂商所面临的各种挑战:当用户量持续增大,所面临的各种因大并发、高服务需求问题,时常导致整体服务品质的下降,这也侧面反映出,要做出可靠的云即时通讯服务,在没有现成方案可用的情况下,各厂商要走的路显然还很长。以下是官方事故通报情况2016
年 4 月 22 日 13:04 开始,LeanCloud
中国节点的后端存储集群出现问题,导致该节点上所有应用都出现了存储 API
访问故障,将近半小时后得到恢复。故障的详细经过通报如下。故障时间13:09-13:28
所有应用的数据存储服务都出现访问异常(持续 19 分钟)13:28-13:40
大部分应用已经恢复,但还有 20% 的应用依然无法正常访问(持续 12
分钟)影响范围中国节点上所有应用的存储服务都受到影响,同时依赖于数据存储的实时通信、云引擎服务也可能出现内部错误。美国节点不受影响,所有服务均工作正常。事故经过13:04
我们监控系统陆续发出报警,后端存储集群访问超时慢慢增多,工程师介入调查,并向用户发出了短信和邮件通知。13:10
整个集群的存储 API Server
不再响应外部请求。调查后确认是后端存储系统在做大量耗时的关系数据写入操作,导致系统失去响应。于是我们马上重启集群,并分批开放流量。13:28
部分存储分片(shard)得到恢复,80%
的应用访问恢复正常;发送第二次故障进度通知。13:40
所有应用恢复正常;发送故障解决通知。后续改进措施这一次故障的根本原因在于
AVRelation
模型的底层实现存在缺陷,某些特殊条件下会导致后端存储系统因忙于处理而失去响应。我们已完成替代方案的开发,正在测试中,下周会发布更合理的解决方案。(4
月 27
日周三完成)改进并发限制的算法,以便在异常条件下更好地限制故障的影响范围。(4
月 25
日周一完成)排查所有危险/耗时操作,在上层进行写入控制,避免对后端存储系统造成太大影响。(4
月 25 日周一完成)LeanCloud官网访问以下地址即可:leancloud.cn

摘要融云即时通讯云SDK新版发布,本次发布的版本为: Android 2.5.0
Stable、iOS 2.5.0 Stable、Web SDK
2.1.0,此次更新仍属小幅更新版本。发布的版本Android 2.5.0 Stable、iOS
2.5.0 Stable、WEB SDK 2.1.0。iOS 2.5.0
Stable更新内容1、解决了一个与第三方库冲突问题。2、优化了会话列表在 iOS7
及以下系统中 UI 界面的显示效果。Android 2.5.0
Stable更新内容1、替换了部分资源文件,增强了 UI
显示效果。2、修复了录音时,如果播放背景音乐,会暂停背景音乐的问题。WEB
SDK 2.1.01、增加 WebSQL 本地存储,为 PC
端应用程序提供了本地存储方案。2、聊天室增加获取实时在线人数方法。下载地址请从以下官网地址下载:

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章

CopyRight © 2015-2020 新萄京娱乐3730-娱乐场官网app下载 All Rights Reserved.
网站地图xml地图