线上常见问题及处理流程
线上常见问题及处理流程
如何报告问题
当您需要向技术支持团队报告问题时,请尽可能提供以下信息。
1、完整的问题描述: 详细说明您看到的问题现象。
2、问题发生的时间和频率: 具体到年月日时分秒,是偶发还是持续发生。
3、问题影响的客户范围:是个别坐席还是全部坐席
4、重现步骤: 如果问题可以重现,提供详细的操作步骤。
5、错误截图或视频: 任何页面上的错误提示、控制台输出的错误信息截图。
6、相关日志片段(可选):
客户端日志
nginx 服务器日志
应用服务器日志
7、系统资源使用情况(可选):
在问题发生时或重现时的 top 或 htop 截图,或者 CPU、内存、磁盘 I/O 的监控数据。
如何排查问题
1、先检查对应的 bus-server 日志,分析错误信息,查看常见问题处理是否有处理方案,如果没有,请联系傲途开发人员,并提供问题的具体信息。
常见问题
一、客户端问题
1、客户端请求超时、无响应等问题
先检查客户端到服务器之间的网络是否正常通畅(最好是本地职场环境和服务器环境同时进行测试。测试接口({host}/wscrm-bus-api/account/getTimestamp)可以单独进行抓包,模拟测试。),如果服务器环境内部是通的,说明是客户端网络问题。
客户端日志:
主要是查看客户端请求的网络日志,分析日志文件里面的请求地址。
C:\WALog\svc2_log.txt 本地网络错误日志
C:\WALog\ezlog.txt 子进程打印 svc 日志(排查消息不上报 群成员不上报等)
另外本地安装可以抓包的工具如 fiddler、wireshark 等,可以更直观的看到网络请求,方便定位问题。
2、登录超时
查看客户端日志检查 “/account/loginV2?accountId”该关键字的请求信息,看是否有超时描述信息。
3、客户端提示 license 过期
联系傲途商务处理
二、数据库问题
1、数据库-表不存在
检查 scrm_bus 数据库的表是否存在,不存在则新增。
三、应用服务器问题
1、OOM
先手动重启服务,再根据启动命令指定的堆存储文件路径(下载,进行分析)
四、中间件 Redis、消息队列、ES 问题
1、Redis 缓存溢出问题
紧急处理: 先扩容服务器配置
后续处理: 联系傲途开发,分析线上 key 分布,具体进行优化删除不合理的 key。
五、云服务器配置问题
1、具体第三方 sdk(aliyun、huaweiyun、s3)的问题(如 api key 异常、account bloked、权限问题),根据具体错误提示检查是否是云服务器配置问题。
六、服务器交互问题
1、傲途用户中心接口请求异常 见到如 oauth/check_token 请求的错误, 联系傲途开发人员,检查对应的服务。