windows中mysql在企☂业中的应用
windows中mysql在企业中的应用
在Windows环境中,MySQL在企业中的应用非常广泛。以下是MySQL在企业中的一些典型应用场景:
1. 数据存储和管理:MySQL是一个关系型数据库管理系统,广泛应用于企业中各种应用程序的数据存储和管理。企业可以将数据存储在MySQL数据库中,并通过SQL查询对数据进行管理和分析。
2. Web应用程序开发:MySQL常用于Web应用程序的后端数据库。企业可以使用MySQL存储网站用户的个人信息、订单数据、产品信息等,并根据需要提供实时的数据查询和更新功能。
3. 企业资源规划(ERP)系统:MySQL常用于支持企业资源规划系统,用于存储和处理企业的核心数据,如订单、库存、客户信息等。通过使用MySQL,企业可以实现数据的高效管理和分析,提高企业运营效率。
4. 客户关系管理(CRM)系统:MySQL在企业客户关系管理系统中也有广泛应用。企业可以将客户信息、销售数据、营销活动数据等存储在MySQL数据库中,并对数据进行分析和挖掘,以优化客户关系管理策略。
5. 数据仓库和大数据分析:MySQL可以作为数据仓库,用于存储企业大量的历史数据。企业可以通过MySQL对数据进行分析和挖掘,以支持决策和业务优化。此外,MySQL也可以与其他大数据处理技术(如Hadoop和Spark)集成,提供更强大的数据处理能力。
6. 企业内容管理系统(CMS):MySQL常用于支持企业内容管理系统,用于存储和管理各种类型的内容,如文章、图片、视频等。通过使用MySQL,企业可以实现内容的高效管理和检索,提高用户体验。
总之,MySQL在企业中的应用非常广泛,可以用于支持各种类型的应用程序和数据处理任务。企业可以根据自己的需求选择合适的MySQL版本,并利用其强大的功能和灵活性,实现高效的数据管理。
mysql:一条SQL查询语句是如何执行
本篇文章会分析下一个 sql 语句在 MySQL 中的执行流程,包括 sql 的查询在 MySQL 内部会怎么流转,sql 语句的更新是怎么完成的。
在分析之前我会先带着你看看 MySQL 的基础架构,知道了 MySQL 由那些组件组成已经这些组件的作用是什么,可以帮助我们理解和解决这些问题。
一 MySQL 基础架构分析
1.1 MySQL 基本架构概览
下图是 MySQL 的一个简要架构图,从下图你可以很清晰的看到用户的 SQL 语句在 MySQL 内部是♂如何执行的。
先简单介绍一下下图涉及的一些组件的基本作用帮助大家理解这幅图,在 1.2 节中会详细介绍到这些组件的作用。
- 连接器: 身份认证和权限相关(登录 MySQL 的时候)。
- 查询缓存: 执行查询语句的时候,会先查询缓存(MySQL 8.0 版本后移除,因为这个功能不太实用)。
- 分析器: 没有命中缓存的话,SQL 语句就会经过分析器,分析器说白了就是要先看你的 SQL 语句要干嘛,再检查你的 SQL 语句语法是否正确。
- 优化器: 按照 MySQL 认为最优的方案去执行。
- 执行器: 执行语句,然后从存储引擎返回数据。
简单来说 MySQL 主要分为 Server 层和存储引擎层:
- Server 层:主要包括连接器、查询缓存、分析器、优化器、执行器等,所有跨存储引擎的功能都在这一层实现,比如存储过程、触发器、视图,函数等,还有一个通用的日志模块 binglog 日志模块。
- 存储引擎: 主要负责数据的存储和读取,采用可以替换的插件式架构,支持 InnoDB、MyISAM、Memory 等多个存储引擎,其中 InnoDB 引擎有自有的日志模块 redolog 模块。现在最常用的存储引擎是 InnoDB,它从 MySQL 5.5.5 版本开始就被当做默认存储引擎了。
1.2 Server 层基本组件介绍
1) 连接器
连接器主要和身份认证和权限相关的功能相关,就好比一个级别很高的门卫一样。
主要负责用户登录数据库,进行用户的身份认证,包括校验账户密码,权限等操作,如果用户账户密码已通过,连接器会到权限表中查询该用户的所有权限,之后在这个连接里的权限逻辑判断都是会依赖此时读取到的权限数据,也就是说,后续只要这个连接不断开,即时管理员修改了该用户的权限,该用户也是不受影响的。
2) 查询缓存(MySQL 8.0 版本后移除)
查询缓存主要用来缓存我们所执行的 SELECT 语句以及该语句的结果集。
连接建立后,执行查询语句的时候,会先查询缓存,MySQL 会先校验这个 sql 是否执行过,以 Key-Value 的形式缓存在内存中,Key 是查询预计,Value 是结果集。如果缓存 key 被命中,就会直接返回给客户端,如果没有命中,就会执行后续的操作,完成后也会把结果缓存起来,方便下一次调用。当然在真正执行缓存查询的时候还是会校验用户的权限,是否有该表的查询条件。
MySQL 查询不建议使用缓存,因为查询缓存失效在实际业务场景中可能会非常频繁,假如你对一个表更新的话,这个表上的所有的查询缓存都会被清空。对于不经常更新的数据来说,使用缓存还是可以的。
所以,一般在大多数情况下我们都是不推荐去使用查询缓存的。
MySQL 8.0 版本后删除了缓存的功能,官方也是认为该功能在实际的应用场景比较少,所以干脆直接删掉了。
3) 分析器
MySQL 没有命中缓存,那么就会进入分析器,分析器主要是用来分析 SQL 语句是来干嘛的,分析器也会分为几步:
第一步,词法分析,一条 SQL 语句有多个字符串组成,首先要提取关键字,比如 select,提出查询的表,提出字段名,提出查询条件等等。做完这些操作后,就会进入第二步。
第二步,语法分析,主要就是判断你输入的 sql 是否正确,是否符合 MySQL 的语法。
完成这 2 步之后,MySQL 就准备开始执行了,但是如何执行,怎么执行是最好的结果呢?这个时候就需要优化器上场了。
4) 优化器
优化器的作用就是它认为的最优的执行方案去执行(有时候可✒能也不是最优,这篇文章涉及对这部分知识的深入讲解),比如多个索引的时候该如何选择索引,多表查询的时候如何选择关联顺序等。
可以说,经过了优化器之后可以说这个语句具体该如何执行就已经定下来。
5) 执行器
当选择了执行方案后,MySQL 就准备开始执行了,首先执行前会校验该用户有没有权限,如果没有权限,就会返回错误信息,如果有权限,就会去调用引擎的接口,返回接口执行的结果。
二 语句分析
2.1 查询语句
说了以上这么多,那么究竟一条 sql 语句是如何执行的呢?其实我们的 sql 可以分为两种,一种是查询,一种是更新(增加,更新,删除)。我们先分析下查询语句,语句如下:
select from tb_student A where A.age='18' and A.name=' 张三 ';
结合上面的说明,我们分析下这个语句的执行流程:
- 先检查该语句是否有权限,如果没有权限,直接返回错误信息,如果有权限,在 MySQL8.0 版本以前,会先查询缓存,以这条 sql 语句为 key 在内存中查询是否有结果◙,如果有直接缓存,如果没有,执行下一步。
- 通过分析器进行词法分析,提取 sql 语句的关键元素,比如提取上面这个语句是查询 select,提取需要查询的表名为 tb_student,需要查询所有的列,查询条件是这个表的 id='1'。然后判断这个 sql 语句是否有语法错误,比如关键词是否正确等等,如果检查没问题就执行下一步。
- 接下来就是优化器进行确定执行方案,上面的 sql 语句,可以有两种执行方案:
a.先查询学生表中姓名为“张三”的学生,然后判断是否年龄是 18。 b.先找出学生中年龄 18 岁的学生,然后再查询姓名为“张三”的学生。
那么优化器根据自己的优化算法进行选择执行效率最好的一个方案(优化器认为,有时候不一定最好)。那么确认了执行计划后就准备开始执行了。 - 进行权限校验,如果没有权限就会返回错误信息,如果有权限就会调用数据库引擎接口,返回引擎的执行结果。
2.2 更新语句
以上就是一条查询 sql 的执行流程,那么接下来我们看看一条更新语句如何执行的呢?sql 语句如下:
update tb_student A set A.age='19' where A.name=' 张三 ';
我们来给张三修改下年龄,在实际数据库肯定不会设置年龄这个字段的,不然要被技术负责人打的。其实条语句也基本上会沿着上一个查询的流程走,只不过执行更新的时候肯定要记录日志啦,这就会引入日志模块了,MySQL 自带的日志模块式 binlog(归档日志) ,所有的存储引擎都可以使用,我们常用的 InnoDB 引擎还自带了一个日志模块 redo log(重做日志),我们就以 InnoDB 模式下来探讨这个语句的执行流程。流程如下:
- 先查询到张三这一条数据,如果有缓存,也是会用到缓存。
- 然后拿到查询的语句,把 age 改为 19,然后调用引擎 API 接口,写入这一行数据,InnoDB 引擎把数据保存在内存中,同时记录 redo log,此时 redo log 进入 prepare 状态,然后告诉执行器,执行完成了,随时可以提交。
- 执行器收到通知后记录 binlog,然后调用引擎接口,提交 redo log 为提交状态。
- 更新完成。
这里肯定有同学会问,为什么要用两个日志模块,用一个日志♡模块不行吗?
这是因为最开始 MySQL 并没与 InnoDB 引擎( InnoDB 引擎是其他公司以插件形式插入 MySQL 的) ,MySQL 自带的引擎是 MyISAM,但是我们知道 redo log 是 InnoDB 引擎特有的,其他存储引擎都没有,这就导致会没有 crash-safe 的能力(crash-safe 的能力即使数据库发生异常重启,之前提交的记录都不会丢失),binlog 日志只能用来归档。
并不是说只用一个日志模块不可以,只是 InnoDB 引擎就是通过 redo log 来支持事务的。那么,又会有同学问,我用两个日志模块,但是不要这么复杂行不行,为什么 redo log 要引入 prepare 预提交状态?这里我们用反证法来说明下为什么要这么做?
- 先写 redo log 直接提交,然后写 binlog,假设写完 redo log 后,机器挂了,binlog 日志没有被写入,那么机器重启后,这台机器会通过 redo log 恢复数据,但是这个时候 bingog 并没有记录该数据,后续进行机器备份的时候,就会丢失这一条数据,同时主从同步也会丢失这一条数据。
- 先写 binlog,然后写 redo log,假设写完了 binlog,机器异常重启了,由于没有 redo log,本机是无法恢复这一条记录的,但是 binlog 又有记录,那么和上面同样的道理,就会产生数据不一致的情况。
如果采用 redo log 两阶段提交的就不一样了,写完 binglog 后,然后再提交 redo log 就会防止出现上述的问题,从而保证了数据的一致性。那么问题来了,有没有一个极端的情况呢?假设 redo log 处于预提交状态,binglog 也已经写完了,这个时候发生了异常重启会怎么样呢? 这个就要依赖于 MySQL 的处理机制了,MySQL 的处理过程如下:
- 判断 redo log 是否完整,如果判断是完整的,就立即提交。
- 如果 redo log 只是预提交但不是 commit 状态,这个时候就会去判断 binlog 是否完整,如果完整就提交 redo log, 不完整就回滚事务。
这样就解决了数据一致性的问题。
三 总结
- MySQL 主要分为 Server 曾和引擎层,Server 层主要包括连接器、查询缓存、分析器、优化器、执行器,同时还有一个日志模块(binlog),这个日志模块所有执行引擎都可以共用,redolog 只有 InnoDB 有。
- 引擎层是插件式的,目前主要包括,MyISAM,InnoDB,Memory 等。
- 查询语句的执行流程如下:权限校验(如果命中缓存)—》查询缓存—》分析器—》优化器—》权限校验—》执行器—》引擎
- 更新语句执行流程如下:分析器—-》权限校验—-》执行器—》引擎—redo log(prepare 状态—》binlog—》redo log(commit状态)
如何构建高性能MySQL
测试场景
- MySQL 5.7.12
- 主要测试 不同刷盘参数 对性能的影响, 使用以下三个场景:
- sync_binlog=1, innodb_flush_log_at_trx_commit=1, 简写为b1e1 (binlog-1-engine-1)
- sync_binlog=0, innodb_flush_log_at_trx_commit=1, 简写为b0e1
- sync_binlog=0, innodb_flush_log_at_trx_commit=0, 简写为b0e0
MySQL 环境搭建使用 MySQL sandbox, 对应三个场景的启动参数如下:1. ./start –sync-binlog=1 –log-bin=bin –server-id=5712 –gtid-mode=ON –enforce-gtid-consistency=1 –log-slave-updates=12. ./start –sync-binlog=0 –log-bin=bin –server-id=5712 –gtid-mode=ON –enforce-gtid-consistency=1 –log-slave-updates=13. ./start –sync-binlog=0 –log-bin=bin –server-id=5712 –gtid-mode=ON –enforce-gtid-consistency=1 –log-slave-updates=1 –innodb-flush-log-at-trx-commit=0
压力生成使用sysbench:
mysql -h127.0.0.1 -P5712 -uroot -pmsandbox -e"truncate table test.sbtest1"; /opt/sysbench-0.5/dist/bin/sysbench –test=/opt/sysbench-0.5/dist/db/insert.lua –mysql-table-engine=innodb –mysql-host=127.0.0.1 –mysql-user=root –mysql-password=msandbox –mysql-port=5712 –oltp-table-size=1000000 –mysql-db=test –oltp-table-name=stest –num-threads=1 –max-time=30 –max-requests=1000000000 –oltp-auto-inc=off –db-driver=mysql run
性能观测工具使用systemtap(简称stap), version 2.7/0.160
基准
在没有观测压力的情况下, 对三种场景分别进行基准测试, 用以矫正之后测试的误差:
场景sysbench事务数b1e167546b0e1125699b0e0181612
火焰图与offcpu
火焰图
火焰图是Brendan Gregg首创的表示性能的图形, 其可以直观的看到压力的分布. Brendan提供了丰富的工具生成火焰图.
火焰图比较b0e1和b0e0
使用stap脚本获取CPU profile, 并生成火焰图(火焰图生成的命令略, 参看Brendan的文档)
stap脚本
global tids probe process("/home/huangyan/sandboxes/5.7.12/bin/mysqld").function("mysql_execute_command") { if (pid() == target() && tids[tid()] == 0) { tids[tid()] = 1; } } global oncpu probe timer.profile { if (tids[tid()] == 1) { oncpu[ubacktrace()] <<< 1; } } probe timer.s(10) { exit(); } probe end { foreach (i in oncpu+) { print_stack(i); printf("t%dn", @count(oncpu[i])); } }
注意:1. 脚本只抓取MySQL的用户线程的CPU profile, 不抓取后台进程.2. 脚本只抓取10s, 相当于对整个sysbench的30s过程进行了短期抽样.
b0e1生卍成的火焰图
性能
在开启观测的情况下, 观察性能:
场景sysbench事务数b0e1119274b0e0166424
分析
在生成的火焰图中, 可以看到:
- 在b0e1场景中, _ZL27log_write_flush_to_disk_lowv的占比是12.93%, 其绝大部分时间是用于将innodb的log刷盘.
- 在b0e0场景中, _ZL27log_write_flush_to_disk_lowv的开销被节省掉, 理论上的事务数比例应是1-12.93%=87.07%, 实际事务数的比例是119274/166424=71.67%, 误差较大
误差较大的问题, 要引入offcpu来解决.
offcpu
在之前的分析中我们看到理论和实际的事务数误差较大. 考虑_ZL27log_write_flush_to_disk_lowv的主要操作是IO操作, IO操作开始, 进程就会被OS进行上下文切换换下台, 以等待IO操作结束, 那么只分析CPU profile就忽略了IO等待的时间, 也就是说_ZL27log_write_flush_to_disk_lowv的开销被低估了.
offcpu也是Brendan Gregg提出的概念. 对于IO操作的观测, 除了CPU profile(称为oncpu时间), 还需要观测其上下文切换的代价, 即offcpu时间.
修改一下stap脚本可以观测offcpu时间. 不过为了将oncpu和offcpu的时间显示在一张火焰图上作对比, 我对于Brendan的工具做了微量修改, 本文将不介绍这些修改.
stap脚本
global tids probe process("/home/huangyan/sandboxes/5.7.12/bin/mysqld").function("mysql_execute_command") { if (pid() == target() && tids[tid()] == 0) { tids[tid()] = 1; } } global oncpu, offcpu, timer_count, first_cpu_id = -1; probe timer.profile { if (first_cpu_id == -1) { first_cpu_id = cpu(); } if (tids[tid()] == 1) { oncpu[ubacktrace()] <<< 1; } if (first_cpu_id == cpu()) { timer_count++; } } global switchout_ustack, switchout_timestamp probe scheduler.ctxswitch { if (tids[prev_tid] == 1) { switchout_ustack[prev_tid] = ubacktrace(); switchout_timestamp[prev_tid] = timer_count; } if (tids[next_tid] == 1 && switchout_ustack[next_tid] != "") { offcpu[switchout_ustack[next_tid]] <<< timer_count – switchout_timestamp[next_tid]; switchout_ustack[next_tid] = ""; } } probe timer.s(10) { exit(); } probe end { foreach (i in oncpu+) { print_stack(i); printf("t%dn", @sum(oncpu[i])); } foreach (i in offcpu+) { printf("—"); print_stack(i); printf("t%dn", @sum(offcpu[i])); } }
注意: timer.profile的说明中是这样写的:
Profiling timers are available to provide probes that execute on all CPUs at each system tick.
也就是说在一个时间片中, timer.profile会对每一个CPU调用一次. 因此代码中使用了如下代码, 保证时间片技术的正确性:
if (first_cpu_id == cpu()) { timer_count++; }
b0e1生成的带有offcpu的火焰图
性能
由于变更了观测脚本, 需要重新观测性能以减小误差:
场景sysbench事务数b0e1105980b0e0164739
分析
在火焰图中, 可以看到:1. _ZL27log_write_flush_to_disk_lowv的占比为31.23%2. 理论上的事务数比例应是1-31.23%=68.77%, 实际事务数的比例是105980/164739=64.33%, 误差较小.
观测误差的矫正
在比较b0e1和b0e0两个场景时, 获得了比较好的结果. 但同样的方法在比较b1e1和b0e1两个场景时, 出现了一些误差.
误差现象
b1e1的火焰图如图:
其中_ZN13MYSQL_BIN_LOG16sync_binlog_fileEb(sync_binlog的函数)占比为26.52%.
但性能差异为:
场景sysbench事务数b1e153752b0e1105980
理论的事务数比例为1-26.52%=73.48%, 实际事务数比例为53752/105980=50.71%, 误差较大.
分析压力分布
首先怀疑压力转移, 即当sync_binlog的压力消除后, 服务器压力被转移到了其它的瓶颈上. 但如果压力产生了转移, 那么实际事务数比例应大于理论事务数比例, 即sync_binlog=0带来的性能提升更小.
不过我们还是可以衡量一下压力分布, 看看b1e1和b0e1的压力有什么不同, 步骤如下:
- 修改stap脚本, 在b1e1中不统计sync_binlog的代价. 生成的火焰图表示消除sync_binlog代价后, 理论上的服务器压力类型.
- 与b0e1产生的火焰图做比较.
stap脚本
只修改了probe end部分, 略过对my_sync堆栈的统计:
probe end { foreach (i in oncpu+) { if (isinstr(sprint_stack(i), "my_sync")) { continue; } print_stack(i); printf("t%dn", @sum(oncpu[i])); } foreach (i in offcpu+) { if (isinstr(sprint_stack(i), "my_sync")) { continue; } printf("—"); print_stack(i); printf("t%dn", @sum(offcpu[i])); } }
结果
b1e1, 理论的服务器压力图:
b0e1, 实际的服务器压力图:
可以看到, 压力分布是非常类似, 即没有发生压力分布.
BTW: 这两张图的类似, 具有一定随机性, 需要做多次试验才能产生这个结果.
分析
既然理论和实际的压力分布类似, 那么可能发生的就是压力的整体等比缩小. 推测是两个场景上的观测成本不同, 导致观测影响到了所有压力的观测.
观察stap脚本, 其中成本较大的是ctxswitch, 即上下文切换时的观测成本.
上下文切换的观测成本
如果 “上下文切换的观测成本 影响 场景观测 的公平性” 这一结论成立, 那么我们需要解释两个现象:1. b1e1和b0e1的比较, 受到了 上下文切换的观测成本 的影响2. b0e1和b0e0的比较, 未受到 上下文切换的观测成本 的影响
假设 上下文切换的观测成本 正比于 上下文切换的次数, 那么我们只需要:1. 观测每个场景的上下文切换次数2. 对于b1e1和b0e1的比较, 由上下文切换次数计算得到理论的降速比, 与实际的降速比进行比较3. 对于b0e1和b0e0的比较, 由上下文切换次数计算得到是否会带来降速.
stap脚本
在probe scheduler.ctxswitch和probe end 增加了 ctxswitch_times 相关的内容:
global ctxswitch_times probe scheduler.ctxswitch { ctxswitch_times++; … } probe end { … printf("ctxswitch_times=%dn", ctxswitch_times); }
结果
场景sysbench事务数上下文切换次数sync_binlog占比b1e15535282637036.80%b0e1105995693383–b0e0162709675092–
分析结果:1. b1e1与b0e1的比较1. 理论降速比: 693383/826370 = 83.90%2. 实际降速比: (实际的事务数比例/由sync_binlog占比推算的理论的事务数比例) = (55352/105995)/(1-36.80%) = 0.5222/0.6320 = 82.63%3. 误差很小. 即b1e1与b0e1的比较中, 理论值和实际值的误差来自于: IO操作的减少导致上下文切换的数量减小, 使得两个场景的观察成本不同.2. b0e1与b0e0的比较: 上下文切换次数相近, 即两个场景的观察成本相同.
实验结果符合之前的分析.
结论
- 利用火焰图, 可以快速诊断出MySQL服务器级别的性能瓶颈, 做出合理的参数调整
- 对于IO类型的操作的观测, 需要考虑oncpu和offcpu两种情况
- 由于观测手段中使用了上下文切换作为观测点, 那IO操作数量的不同, 会引起上下文切换次数的不同, 从而引起观测误差.
该如何学习python
我有一种非常快的学好python的办法,简单,迅速,深刻!
python 的优雅和简洁是举世公认的!学习python真的是一个享受的过程。
然而,python是一门语言。正如我们小时候学语文一样,如果天天让你背拼音,背课文,识字,不管什么语言都会很枯燥!
所以小学的时候开始,老师就要求我们写作文。但是那个时候的作文,一般老师都拟定好了题目!这又很枯燥。
1、兴趣是最好的老师
python的强大,从其使用范围就知道,AI就是其最典型的应用场景。所以,我们要学好python,先选好你想学了python做什么,或者说选择一个python应用场景中你最喜欢的内容,边做小项目边学习!
2、我们都很幸运
基本上,你能考虑到的任何的应用场景,python都有解决方案,都有库可以使用。所以,尽管去想你的兴趣吧!
加油,为我们的幸运,为了我们与python的相遇。
成功就在前方不远处!
原创文章,作者:Ame,如若转载,请注明出处:https://www.lbseo.cn/13572.html