阿里云数据库RDS系统架构

  • A+
所属分类:云数据库RDS
       
阿里云通用优惠券
优惠券支持阿里云官网全部产品使用
立即领券

RDS for MySQL 由亚洲唯一WebScaleSQL团队维护内核源码,结合阿里巴巴多年MySQL数据库调优经验,从数据库源码层及数据库参数进行了性能优化,在相近规格配置下,RDS for MySQL性能值能达到自建数据库性能的3倍以上。

一、数据链路服务

阿里云数据库提供全数据链路服务,包括 DNS、负载均衡、Proxy 等。因为 RDS 使用原生的 DB Engine,对数据库的操作高度类似,基本没有学习成本。另外,阿里云数据库提供 DMS 服务,极大的方便了用户访问使用数据库。

DNS

DNS 模块提供域名到 IP 的动态解析功能,以便规避 RDS 实例 IP 地址改变带来的影响。在连接池中设置域名后,即使对应的IP地址发生了变化,仍然可以正常访问 RDS 实例。

例如,某 RDS 实例的域名为 test.rds.aliyun.com,对应的 IP 地址为 10.10.10.1。某程序连接池中设置为 test.rds.aliyun.com 或 10.10.10.1 都可以正常访问 RDS 实例。

一旦该 RDS 实例发生了可用区迁移或者版本升级后,IP 地址可能变为 10.10.10.2。如果程序连接池中设置的是域名 test.rds.aliyun.com,则仍然可以正常访问 RDS 实例。但是如果程序连接池中设置的是IP地址 10.10.10.1,就无法访问 RDS 实例了。

负载均衡

负载均衡 模块提供实例 IP 地址(包括内网 IP 和外网 IP),以便屏蔽物理服务器变化带来的影响。

例如,某 RDS 实例的内网 IP 地址为 10.1.1.1,对应的 Proxy 或者 DB Engine 运行在 192.168.0.1 上。在正常情况下,负载均衡 模块会将访问 10.1.1.1 的流量重定向到 192.168.0.1 上。当 192.168.0.1 发生了故障,处于热备状态的 192.168.0.2 接替了 192.168.0.1 的工作。此时 负载均衡 模块会将访问 10.1.1.1 的流量重定向到 192.168.0.2 上,RDS 实例仍旧正常提供服务。

Proxy

Proxy 模块提供数据路由、流量探测和会话保持等功能。

  • 数据路由功能:支持大数据场景下的分布式复杂查询聚合和相应的容量管理。
  • 流量探测功能:降低 SQL 注入的风险,在必要情况下支持 SQL 日志的回溯。
  • 会话保持功能:解决故障场景下的数据库连接中断问题。

DB Engine

RDS 全面支持主流的数据库协议,具体情况如下表所示:

数据库类型 版本
MySQL 5.1(已停止售卖),5.5,5.6,5.7
SQL Server 2008 R2,2012
PostgreSQL 9.4
PPAS 9.3(高度兼容 Oracle)

DMS

DMS(Data Management Service)是一个访问管理云端数据的 Web 服务,提供了数据管理、对象管理、数据流转和实例管理等功能。

DMS 支持 MySQL、SQL Server、PostgreSQL 和 PPAS 等数据源。

二、高可用服务

高可用服务由 Detection、Repair、Notice 等模块组成,主要保障数据链路服务的可用性,除此之外还负责处理数据库内部的异常。

另外,RDS 还通过迁移到支持多可用区的地域和采用适当的高可用策略,提升 RDS 的高可用服务。

Detection

Detection 模块负责检测 DB Engine 的主节点和备节点是否提供了正常的服务。通过间隔为 8~10 秒的心跳信息,HA 节点可以轻易获得主节点的健康情况,结合备节点的健康情况和其它 HA 节点的心跳信息,Detection 模块可以排除网络抖动等异常引入的误判风险,在 30 秒内完成异常切换操作。

Repair

Repair 模块负责维护 DB Engine 的主节点和备节点之间的复制关系,还会修复主节点或者备节点在日常运行中出现的错误。

例如:

  • 主备复制异常断开的自动修复
  • 主备节点表级别损坏的自动修复
  • 主备节点 Crash 的现场保存和自动修复

Notice

Notice 模块负责将主备节点的状态变动通知到 负载均衡 或者 Proxy,保证用户访问正确的节点。

例如:Detection 模块发现主节点异常,并通知 Repair 模块进行修复。Repair 模块进行了尝试后无法修复主节点,通知 Notice 进行流量切换。Notice 模块将切换请求转发至 负载均衡 或者Proxy,此时用户流量全部指向备节点。与此同时,Repair 在别的物理服务器上重建了新的备节点,并将变动同步给 Detection 模块。Detection 模块开始重新检测实例的健康状态。

多可用区

多可用区是在单可用区的级别上,将同一地域的多个单可用区组合成的物理区域。相对于单可用区 RDS 实例,多可用区 RDS 实例可以承受更高级别的灾难。

例如,单可用区 RDS 实例可以承受服务器和机架级别的故障,而多可用区 RDS 实例可以承受机房级别的故障。

目前多可用区 RDS 不额外收取任何费用,在已开通多可用区地域的用户可以直接购买多可用区 RDS 实例,也可以通过跨可用区迁移将单可用区 RDS 实例转化成多可用区 RDS 实例。

注意: 因为多可用区之间存在一定的网络延迟,因此多可用区 RDS 实例在采用半同步数据复制方案的时候,对于单个更新的响应时间会比单可用区实例长。这种情况最好通过提高并发量的方式来实现整体吞吐量的提高。

高可用策略

高可用策略是根据用户自身业务的特点,采用服务优先级和数据复制方式之间的不同组合,以组合出适合自身业务特点的高可用策略。

服务优先级有以下两个级别:

  • RTO(Recovery Time Objective)优先:数据库应该尽快恢复服务,即可用时间最长。对于数据库在线时间要求比较高的用户应该使用 RTO 优先策略。
  • RPO(Recovery Point Objective)优先:数据库应该尽可能保障数据的可靠性,即数据丢失量最少。对于数据一致性要求比较高的用户应该使用 RPO 优先策略。

数据复制方式有以下三种方式:

  • 异步复制(Async):应用发起更新(含增加、删除、修改操作)请求,Master 完成相应操作后立即响应应用,Master 向 Slave 异步复制数据。因此异步复制方式下,Slave 不可用不影响主库上的操作,而 Master 不可用有较小概率会引起数据不一致。
  • 强同步复制(Sync):应用发起更新(含增加、删除、修改操作)请求,Master 完成操作后向 Slave 复制数据,Slave 接收到数据后向 Master 返回成功信息,Master 接到 Slave 的反馈后再响应应用。Master 向 Slave 复制数据是同步进行的,因此 Slave 不可用会影响 Master 上的操作,而 Master 不可用不会引起数据不一致。
  • 半同步复制(Semi-Sync):正常情况下数据复制方式采用强同步复制方式,当 Master 向 Slave 复制数据出现异常的时候(Slave 不可用或者双节点间的网络异常),Master 会暂停对应用的响应,直到复制方式超时退化成异步复制。如果允许应用在此时更新数据,则 Master 不可用会引起数据不一致。当双节点间的数据复制恢复正常(Slave 恢复或者网络恢复),异步复制会恢复成强同步复制。恢复成强同步复制的时间取决于半同步复制的实现方式,阿里云数据库 MySQL 5.5 版和 MySQL 5.6 版有所不同。

用户可以根据自身业务特点,选择服务优先级和数据复制方式的不同组合方式,提高可用性。

云数据引擎 服务优先级 数据复制方式 组合特点
MySQL 5.1 RPO Async 在 Master 发生故障的情况下,切换会发生在 Slave 应用完所有的 Relay Log 之后。
在 Slave 发生故障的情况下,应用操作 Master 不受影响。在 Slave 恢复之后再同步 Master 上面的数据。
MySQL 5.5 RPO Async 在 Master 发生故障的情况下,切换会发生在 Slave 应用完所有的 Relay Log 之后。
在 Slave 发生故障的情况下,应用操作 Master 不受影响。在 Slave 恢复之后再同步 Master 上面的数据。
MySQL 5.5 RTO Semi-Sync 在 Master 发生故障且数据复制未退化的情况下,因为数据一致性已经得到保障,RDS 将立即触发切换操作把流量导向 Slave。
在 Slave 发生故障的情况下,应用操作 Master 将会出现超时,而后数据复制方式退化为异步复制方式;在 Slave 恢复并同步完 Master 上的数据之后,数据复制方式恢复为强同步。
在双节点数据不一致且数据复制方式已经退化为异步复制方式的情况下,如果 Master 发生了故障,则切换会发生在 Slave 应用完所有的 Relay Log 之后。
MySQL 5.6 RPO ASync 在 Master 发生故障的情况下,切换会发生在 Slave 应用完所有的 Relay Log 之后。
在 Slave 发生故障的情况下,应用操作 Master 不受影响。在 Slave 恢复之后再同步 Master 上面的数据。
MySQL 5.6 RTO Semi-Sync 在 Master 发生故障且数据复制未退化的情况下,因为数据一致性已经得到保障,RDS 将立即触发切换操作把流量导向 Slave。
在 Slave 发生故障的情况下,应用操作 Master 将会出现超时,而后数据复制方式退化为异步复制方式;在 Slave 恢复并同步完 Master 上的数据之后,数据复制方式恢复为强同步。
在双节点数据不一致且数据复制方式已经退化为异步复制方式的情况下,如果 Master 发生了故障,则切换会发生在 Slave 应用完所有的 Relay Log之后。
MySQL 5.6 RPO Semi-Sync 在 Master 发生故障且数据复制未退化的情况下,因为数据一致性已经得到保障,RDS 将立即触发切换操作把流量导向 Slave。
在 Slave 发生故障的情况下,应用操作 Master 将会出现超时,而后数据复制方式退化为异步复制方式;在 Slave 重新获取到 Master 信息时(Slave 恢复或者网络故障恢复),数据复制方式恢复为强同步方式。
在双节点数据不一致且 Slave 上的数据差异无法补全的情况下,如果 Master 发生了故障,则用户可以通过 API 获取 Slave 的时间点并决定何时切换以及补全数据的方法。
MySQL 5.7 X X 目前不支持调整
SQL Server 2008 R2 X X 目前不支持调整
SQL Server 2012 X X 目前不支持调整
PostgreSQL X X 目前不支持调整
PPAS X X 目前不支持调整

三、备份恢复服务

备份服务主要提供数据的离线备份、转储和恢复。

Backup

Backup模块负责将主备节点上面的数据和日志压缩和上传。

RDS默认将备份上传到OSS中,在特定场景下还支持将备份文件转储到更加廉价和持久的归档存储 上。在备节点正常运作的情况下,备份总是在备节点上面发起,以避免对主节点提供的服务带来冲击;在备节点不可用或者损坏的情况下,Backup模块会通过主节点创建备份。

Recovery

Recovery模块负责将OSS上面的备份文件恢复到目标节点上。

  • 回滚主节点功能:客户发起数据相关的误操作后可以通过回滚功能按时间点恢复数据。
  • 修复备节点功能:在备节点出现不可修复的故障时自动新建备节点来降低风险。
  • 创建只读实例功能:通过备份来创建只读实例。

Storage

Storage模块负责备份文件的上传、转储和下载。

目前备份数据全部上传至OSS进行存储,客户可以根据需要获取临时链接来下载。在某些特定场景下,Storage模块支持将OSS上面的备份文件转储至归档存储来提供更长时间和更低费用的离线存储。

四、监控服务

阿里云数据库提供物理层、网络层、应用层等多方位的监控服务,保证业务可用性。

Service

Service模块负责服务级别的状态跟踪,监控 负载均衡、OSS、归档存储和日志服务等RDS依赖的其他云产品是否正常,包括功能和响应时间等。另外对RDS内部的服务,Service也会通过日志来判定是否正常运作。

Network

Network模块负责网络层面的状态跟踪,包括ECS与RDS之间的连通性监控,RDS物理机之间的连通性监控,路由器和交换机的丢包率监控。

OS

OS模块负责硬件和OS内核层面的状态跟踪,包括:

  • 硬件检修:不断检测CPU、内存、主板、存储等设备的工作状态,预判是否会发生故障,并提前进行自动报修。
  • OS内核监控:跟踪数据库的所有调用,并从内核态分析调用缓慢或者出错的原因。

Instance

Instance模块负责RDS实例级别的信息采集,包括:

  • 实例的可用信息
  • 实例的容量和性能指标
  • 实例的SQL执行记录

四、调度服务

调度服务由 Resource 模块和 Version 模块组成,主要提供资源调配和实例版本管理。

Resource

Resource 模块主要负责 RDS 底层资源的分配和整合,对用户而言就是实例的开通和迁移。例如:用户通过 RDS 管理控制台或者 API 创建实例,Resource 模块会计算出最适合的物理服务器来承载流量。RDS 实例跨可用区迁移所需的底层资源也由 Resource 负责分配和整合。在经过长时间的实例创建、删除和迁移后,Resource 模块会计算可用区内的资源碎片化程度,并定期发起资源整合以提高可用区的服务承载量。

Version

Version 模块主要负责 RDS 实例的版本升级。例如:

  • MySQL 大版本升级:MySQL 5.1 升级至 MySQL 5.5,MySQL 5.5 升级至 MySQL5.6 等。
  • MySQL 小版本升级:MySQL 源码存在的 bug 修复。

五、迁移服务

迁移服务主要帮助用户把数据从本地数据库迁移到阿里云数据库,或者把阿里云数据库的一个实例迁移到另一实例中。阿里云数据库提供了数据传输服务DTS(Data Transfer Service)工具,方便用户快速的迁移数据库。

DTS是一个云上的数据传输服务,能快速的将本地数据库或者RDS中的实例迁移到另一个RDS实例中。关于DTS简介,请参见DTS产品概述。

DTS提供了三种迁移模式,分别为结构迁移、全量迁移和增量迁移:

  • 结构迁移:DTS会将迁移对象的结构定义迁移到目标实例,目前支持结构迁移的对象有表、视图、触发器、存储过程和存储函数。
  • 全量迁移:DTS会将源数据库迁移对象已有数据全部迁移到目标实例中。

    注意:在全量迁移过程中,为了保证数据一致性,无主键的非事务表会被锁定。锁定期间这些表无法写入,锁定时长依赖于这些表的数据量大小。在这些无主键非事务表迁移完成后,锁才会释放。

  • 增量迁移:DTS会将迁移过程中数据变更同步到目标实例。

    注意:如果迁移期间进行了DDL操作,这些结构变更不会同步到目标实例。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin
阿里云服务器价格表_阿里云服务器租用_阿里云主机购买

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: