type
status
date
slug
summary
tags
category
icon
password
1 变更准备
1.1 变更前检查工作
序号 | 变更前确认配合工作 |
1 | 失败倒回方案 |
2 | 测试方案 |
3 | 确认告警性能是否满足变更条件 |
4 | 确认是否有冲突操作 |
5 | 确认变更的风险和应急措施 |
6 | 应急备件具备 |
7 | 变更测试人员到位 |
8 | 协调周边侧设备维护人员到位 |
9 | 后方保障支援小组到位 |
10 | 远程登录环境具备 |
2 变更操作步骤
2.1 变更步骤总体描述
- 申请ECS设备部署迁移工具
- 准备可访问源和目标的IP或域名、AK/SK信息
- 主要迁移步骤包含:全量迁移->业务暂停->增量迁移->业务切换,详细步骤参考如下截图
序号 | 变更步骤 | 操作内容 |
1 | 确认当前系统存储状态 | 1.登录生产存储界面,查看是否有告警<br>2.检查容量是否足够 |
2 | 申请虚机并部署迁移工具 | 1.在客户账号申请一台ECS虚机,虚机需要可访问源端、OBS<br>2.将迁移工具安装包从光盘拷贝到ECS机器上/root目录<br>3.行如下命令安装rclone<br>unzip rclone<br>cd rclone<br>sudo cp rclone /usr/bin/<br>sudo chown root:root /usr/bin/rclone<br>sudo chmod 755 /usr/bin/rclone<br>sudo mkdir -p /usr/local/share/man/man1<br>sudo cp rclone.1 /usr/local/share/man/man1/<br>sudo mandb |
3 | 配置rclone | sudo rclone config<br>name = jd<br>type = s3(选项4)<br>provider = other(选项31)<br>env_auth = false(选项1)<br>access_key_id = your-access-key-id<br>secret_access_key = your-secret-access-key<br>region = (空)<br>endpoint = src-endpoint<br>location_constraint = (空)<br>acl = full(选项1)<br>edit advance cinfig = n (选项n)<br>configuration complete = y(选项y)<br>sudo rclone config<br>name = ct<br>type = s3(选项4)<br>provider = other(选项31)<br>env_auth = false(选项1)<br>access_key_id = your-access-key-id<br>secret_access_key = your-secret-access-key<br>region = (空)<br>endpoint = src-endpoint<br>location_constraint = (空)<br>acl = full(选项1)<br>edit advance cinfig = n (选项n)<br>configuration complete = y(选项y) |
4 | 配置验证 | 1.执行rclone lsd jd: --no-check-certificate验证源配置是否正确<br>2.执行rclone lsd ct: --no-check-certificate验证目标配置是否正确 |
5 | 执行全量迁移 | 1.执行命令rclone copy jd:bucketname/ ct:bucketname/ -P --transfers 32 --checkers 64 --no-check-certificate ,将源数据拷贝到目标桶中复制数据<br>2.根据业务切换时间,期间可多次执行步骤1,缩小增量数据范围,减少业务暂停时间 |
6 | 业务暂停 | 用户停止上层业务 |
7 | 执行增量迁移 | 1.执行命令rclone copy jd:bucketname/ ct:bucketname/ -P --transfers 32 --checkers 64,将源数据拷贝到目标桶中复制数据<br>2.至少执行两次,确保无新增同步文件 |
8 | 业务切换 | 用户修改业务配置,指向到ct |
9 | 业务验证 | 用户验证业务是否正常 |
2.2 验证步骤
2.2.1 测试验证
序号 | 操作项目 | 操作方法 |
1 | 用户验证业务访问是否正常 | 验证涉及对下存储的业务是否正常 |
2.3 失败倒回措施
2.3.1 变更失败定义
以下问题在规定的时间内无法解决则均视为变更失败,需要执行回退工作
- 业务切换到ct后,应用程序访问异常,且短时间无法恢复
- 系统出现其他告警
2.3.2 倒回步骤
序号 | 倒回步骤 | 倒回内容 |
1 | 业务修改endpoint和ak、sk切换回minio | 用户修改业务配置,指回到jd |
2.3.3 设备状态检查
序号 | 操作项目 | 操作方法 | 时间 |
1 | 检查系统运行状态 | 登录存储的管理地址,检查系统是否有相关告警信息 | 5min |
2 | 检查云平台状态 | 登录云平台运维面,查看是否新增相关告警 | 5min |
2.3.4 倒回测试
3 变更后工作
3.1 变更后观察
变更后值班人员值守观察60分钟,确认无问题后知会对变更后设备观察期的维护工作
FAQ
如何打印error log?
如何check复制失败的文件?
如何处理fail的对象
将missingondst.txt里的文件名拼接成https链接
然后批量下载到本地
再使用目的端的对象存储客户端批量拖拽上传
https://www.ctyun.cn/document/10000101/10006768
如何使用dcoker启动rclone
迁移实录
jdcloud to ctyun
节点 | 记录 |
172.17.0.103<br>迁移客户端主机-0425609<br>4C8G | 1.使用--transfers 16 --checkers 32测试,8小时复制150G,观测带宽并未跑满,16个transfer并发一直在完成任务&启动新任务,因此考虑同时提高transfer和checker并发,增加任务消耗,提高带宽利用<br>2.使用--transfers 32 --checkers 64测试,3小时迁移150G |
172.17.0.202<br>迁移客户端主机-0425424<br>16C32G | 1.大量报错,弃用,排查原因中 |
迁移客户端主机-0425440<br>16C32G | 1.使用--transfers 32 --checkers 64测试,3小时迁移150G<br>2.使用--transfers 128 --checkers 128迁移,24小时迁移1.6T,开始慢速1MB/S(分析前面文件太小),后期提速100MB/S |
- Author:共倒金荷家万里
- URL:https://tangly1024.com/article/11140ef0-3786-80ff-b32c-e9164446a7cf
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts