cbo mysql rbo 优化器 mysql 执行优化器
这篇描述MySQL查询优化器的工作原理。MySQL查询优化器主要为执行的查询决断最有效的路线(routine,走向)。
一。源代码和概念
这部分讨论优化器关键概念,术语,及在MySQL源代码怎么对应的。
1.定义
狭义定义:优化器,就是DBMS为查询时决断要往哪种执行路径的一系列路线。
MySQL是经常调整查询的路线,所以你得把这篇描述的逻辑和在源代码里的做比较。为了使比较容易些,这里会包含相关文件和路径的注解,例如源代码/sql/sql_select.cc,optimize_cond()函数。
当一个查询被转成另一种查询时,其结果是一样的,就会发生语句转化。如下这个查询
SELECT...WHERE 5 = a
就会被转化成为
SELECT... WHEREa = 5
最明显的语句转化是少的,有些语句转化,是为了更快的执行。
2.优化器源代码
如下伪代码显示了/sql/sql_select.cc中handle_select()函数的逻辑结构。(源代码/sql/sql_select.cc处理SQL查询)
handle_select()
mysql_select()
JOIN::prepare()
setup_fields()
JOIN::optimize()
/*
optimizerisfromhere...
*/
optimize_cond()
opt_sum_query()
make_join_statistics()
get_quick_record_count()
choose_plan()
/*
Findthebestwaytoaccesstables
*/
/*
asspecifiedbytheuser.
*/
optimize_straight_join()
best_access_path()
/*
Finda(sub-)optimalplanamongallorsubset
*/
/*
ofallpossiblequeryplanswheretheuser
*/
/*
controlstheexhaustivenessofthesearch.
*/
greedy_search()
best_extension_by_limited_search()
best_access_path()
/*
Performanexhaustivesearchforanoptimalplan
*/
find_best()
make_join_select()
/*
...tohere
*/
JOIN::exec()
缩进行显示了哪个函数调用哪个函数,如handle_select()函数调用mysql_select()函数,mysql_select()函数会调用JOIN::prepare()、JOIN::optimize()、JOIN::exec(),以及类推。mysql_select()函数的第一部分是调用JOIN::prepare(),此函数用来上下文分析、元数据建立和一些语句转化。查询优化器函数JOIN::optimize()和其所有优化处理中的子路线。当执行完JOIN::optimize()函数后,JOIN::exec()接管并完成JOIN::optimize()函数优化决断后的执行工作。
虽然有JOIN字出现,其实查询优化器的工作会处理所有的查询类型,不单单JOIN联接查询。
二。首要优化
这部分讨论服务器执行的最重要优化。
1.优化常数关系
常数等值传递
如下的表达式会发生语句转化:
WHEREcolumn1 = column2ANDcolumn2 = ' x '
这种表达式,众所周知,如果A=B && B=C => A=C(可等值传递),上句表达式转化后变成:
WHEREcolumn1 = ' x ' ANDcolumn2 = ' x '
当且仅当,操作符为如下的任何一个,在column1 <操作符> column2条件中就会发生语句转化:
= , < , > , <= , >= , <> , <=> ,LIKE
注意:等值传递的转化,不适合于BETWEEN。可能也不适合于LIKE,这是后话。
常数等值传递同样发生在循环中,前一步传递的输出作为后一步传递的输入。
源代码见/sql/sql_select.cc,change_cond_ref_to_const()函数。或/sql/sql_select.cc,propagate_cond_constants()函数。
剔除死代码
总是TRUE的条件会发生语句转化,如:
WHERE 0 = 0 ANDcolumn1 = ' y '
这种情况下,第一个条件会被剔除,最后为:
column1 = ' y '
源代码见/sql/sql_select.cc,remove_eq_conds()。
总是FLASE的条件也会发生语句转化,如:
WHERE( 0 = ANDs1 = ORs1 = 7
小括号和前两个条件总是FLASE,最后为:
WHEREs1 = 7
还有一些情况下,当WHERE语句中代表不可能的条件,查询优化器可能会全部剔除语句,如下:
WHERE( 0 = ANDs1 = 5 )
因为这条件永远不为TRUE,在EXPLAIN分析中会显示Impossible WHERE。简单地说,MySQL会说WHERE条件被优化过。
如果一个字段不能为NULL,优化器会剔除所有不相关的IS NULL的条件,这样
WHEREnot_null_columnISNULL
这种条件总为FLASE情况;且
WHEREnot_null_columnISNOTNULL
这种条件总为TRUE情况,所以这种字段查询的条件也被剔除。这种判断是很微妙的。举个例:在一个OUT JOIN外联接,被定义成NOT NULL字段仍然含有NULL值,优化器就会单独排除IS NULL条件在这种特殊情况中。
优化器不会检查所有的Impossible WHERE的条件,因为这方面可能性太多了。例如:
CREATETABLETable1(column1CHAR(
1
));
...
SELECT
*
FROMTable1WHEREcolumn1
=
'
Popgo
'
;
优化器不会剔除这种查询的条件,即使在CREATE TABLE定义中使之成为不可能的条件。
可合并的常数值
如下表达式会发生语句转化:
WHEREcolumn1 = 1 + 2
最后为:
WHEREcolumn1 = 3
在之前说的常数等值传递,优化器很容易将这种查询语句合并在一起。这操作就简化了结果。
常数值和常数表
MySQL常数值,有时不单单指在查询的SQL语句的字面意思上,也可在常数表(constant tables)的内容里。常数表(constant tables)被定义为:
1。无记录或一条记录的表
2。表的表达式被WHERE条件约束,而且包含的表达式形式column = "constant",或者表的主键的所有字段,或者任何唯一键的所有字段(唯一键的字段定义为NOT NULL)
例如,Table0表的定义包含:
...PRIMARYKEY(column1,column2)
然后,查询表达式:
FROMTable0...WHEREcolumn1 = 5 ANDcolumn2 = 7 ...
会返回常数表(constant tables)。更多简单地,如果Table1表的定义包含:
...unique_not_null_columnINTNOTNULLUNIQUE
然后,查询表达式:
FROMTable1...WHEREunique_not_null_column = 5
也会返回常数表(constant tables)。
这个规则指一个常数表(constant tables)至多有一条记录值。MySQL就会优先评估是否为常数表(constant tables),并找出那个值。这样,MySQL会将这值插入查询语句。如这个例子:
SELECTTable1.unique_not_null_column,Table2.any_column
FROMTable1,Table2
WHERETable1.unique_not_null_column
=
Table2.any_column
ANDTable1.unique_not_null_column
=
5
;
MySQL评估这语句时,首先就会发现,按照常数表(constant tables)的第二点定义,查询条件为unique_not_null_column的表Table1是一个常数表(constant tables),它就会取得这个值。
如果取值失败,也就是在表Table1里unique_not_null_column
=没值,EXPLAIN后结果:
ImpossibleWHEREnoticedafterreading const tables
相反,如果取值成功,也就是在表Table1里unique_not_null_column
=为一条记录值,MySQL会转化为如下语句:
SELECT
5
,Table2.any_column
FROMTable1,Table2
WHERE
5
=
Table2.any_column
AND
5
=
5
;
事实上,这是一个很好的例子。优化器因前面提到的常数等值传递进行一些语句转化。另外,为什么要先描述常数等值传递,因为它在MySQL确认什么是常数表(constant tables)前就先进行了。优化器步骤的顺序,有时是有差别。
虽然很多查询都没常数表(constant tables)参考。应该牢记,以后无论什么时候,常数constant字被提及,它是指任何一个字面上的值或者一个常数表(constant tables)的内容。
2.优化JOIN联接
这部分讨论优化JOIN联接的不同方法。注意:JOIN联接不单单指JOIN类型,而是所有条件查询的类型。有些人更喜欢叫access type。
确定JOIN联接类型
当评估查询条件表达式时,MySQL会确定它是属于哪个JOIN联接类型。
如下有记录在档的JOIN类型,从最好到最坏的排序下来:
- system:常数表(constant tables)的system类型
- const:常数表(constant tables)
- eq_ref:相等关系的唯一或主键索引
- ref:相等关系的索引,此索引的值不能为NULL
- ref_or_null:相等关系的索引,此索引的值可能为NULL
- range:有关联的索引,如BETWEEN,IN,>=,LIKE等
- index:顺序扫描索引
- ALL:顺序扫描整个表数据
源代码见/sql/sql_select.h,enumjoin_type{}。另外,还有一小部分没记录在档,为了子查询的JOIN联接类型。
优化器利用JOIN联接类型选择一个驱动表达式,如下:
SELECT
*
FROMTable1
WHEREindexed_column
=
ANDunindexed_column
=
6
如果indexed_column有比较好的JOIN联接类型,它更可能成为驱动表达式。对它来说,你也会遇到各种不同的例外,但对这句描述,是第一个简单的优化法则。
对驱动来说,什么是最有意义的呢? 如下查询时的两条执行路径:
最坏执行计划:扫描读表的所有行。这也叫Table1的顺序扫描或简单表扫描。查询每行,检查indexed_column和unindexed_column两列的值是否匹配查询的条件。
最好执行计划: 通过索引,检索哪些有indexed_column
=值的记录。这也叫被索引的搜索。查询每行,检查unindexed_column列的值是否匹配查询的条件。
被索引的搜索通常比顺序扫描调用更少的访问,而且如果访问的表是巨大的,索引又是唯一的,这样表的访问是非常少的。这也是为什么有好执行计划的访问表是更好的,并且这也是为什么常常把indexed_column做为驱动。
联接和访问的方法
在单表搜索中,坏的JOIN联接执行选择比坏的执行选择造成更多的性能损害。所以MySQL开发者发了更多的时间确保查询中的表以一种最佳顺序被联接和此最佳访问方法(常常被称访问路径)被选择作为检查表数据。表联接的固定顺序和相应的所有表的表访问方法的组合,叫做查询执行计划(QEP)。查询优化器的目的就是在所有可能的计划中找出一个最佳的QEP。JOIN联接优先后有一些常规的概念。
每个计划或计划的部分,被定义成COST成本。计划的成本粗略地反映了计算按照计划的查询所需要的资源,其中主要的因素是当计算查询时所以访问的记录总数。一旦我们有办法分配到不同的成本QEPs,我们有办法对它们进行比较。这样,优化器的目的就是在所有可能的计划中找到一个成本最低的QEP。
在MySQL中,实现了最佳QEP搜索是自下而上的方式。优化器首先确认一张表的所有计划,接着两张表的所有计划,以此类推,直到建立一个完整的最佳QEP。查询计划包括在查询中只有部分表和限定(predicates),被称为部分计划(partial plans)。优化器依赖着一点事实:越多表被加到部分计划(partial plans),成本就越高(注:成本高,执行效率就低)。这使得优化器可扩展更多的表只用较低成本的部分计划(partial plans)类比当前最好的完整计划。
完成搜索一条最佳QEP的关键路线见sql/sql_select.cc,
find_best()
。它执行了所有可能计划的详尽搜索,从而保证它最终将找到一个最佳的一条。
如下我们描述find_best()方法的伪代码。这是递归的,所以一些输入变量被标记了,以表明到目前为止,他们从前一个的迭代来的。
remaining_tables
=
{t1,...,tn};
/*
alltablesreferencedinaquery
*/
procedurefind_best(
partial_plan
in
,
/*
in,partialplanoftables-joined-so-far
*/
partial_plan_cost,
/*
in,costofpartial_plan
*/
remaining_tables,
/*
in,setoftablesnotreferencedinpartial_plan
*/
best_plan_so_far,
/*
in/out,bestplanfoundsofar
*/
best_plan_so_far_cost)
/*
in/out,costofbest_plan_so_far
*/
{
for
eachtableTfromremaining_tables
{
/*
CalculatethecostofusingtableT.Factorsthatthe
optimizertakesintoaccountmayinclude:
Manyrowsintable(bad)
Manykeypartsincommonwithtablessofar(verygood)
RestrictionmentionedintheWHEREclause(good)
Longkey(good)
Uniqueorprimarykey(good)
Full-textkey(bad)
Otherfactorsthatmayatsometimebeworthconsidering:
Manycolumnsinkey
Shortaverage/maximumkeylength
Smalltablefile
Fewlevelsinindex
AllORDERBY/GROUPcolumnscomefromthistable
*/
cost
=
complex
-
series
-
of
-
calculations;
/*
Addthecosttothecostsofar.
*/
partial_plan_cost
+=
cost;
if
(partial_plan_cost
>=
best_plan_so_far_cost)
/*
partial_plan_costalreadytoogreat,stopsearch
*/
continue
;
partial_plan
=
expandpartial_planbybest_access_method;
remaining_tables
=
remaining_tables
-
tableT;
if
(remaining_tables
is
notanempty
set
)
{
find_best(partial_plan,partial_plan_cost,
remaining_tables,
best_plan_so_far,best_plan_so_far_cost);
}
else
{
best_plan_so_far_cost
=
partial_plan_cost;
best_plan_so_far
=
partial_plan;
}
}
}
这里优化器利用了一种深度优先搜索算法。它完成了在FROM语句中评估所有的表。如果评估比起目前为止最好的评估,变得更差,它将停止搜索。扫描的顺序依赖于出现FROM语句中的表的顺序。
源代码见:/sql/table.h,
struct st_table
。
分析表(ANALYZE TABLE)
可能会影响到一些优化器决断的因素。源代码见:/sql/sql_sqlect.cc,
make_join_statistics()
。
find_best()和greedy_search()的直截了当(straightforward)使用将不会用于LEFT JOIN或RIGHT JOIN。例如,从MySQL 4.0.14起,在一些情况下,优化器可能转变LEFT JOIN为STRAIHT JOIN,并交换表的顺序。另外见:LEFT JOINandRIGHT JOINOptimization。
RANGE联接类型
有些条件可以使用索引,但是在一个键的范围(range)或宽度内。这些称为范围条件,最常看到的是带>,>=,<,<=,IN,LIKE,BETWEEN的查询表达式。
对优化器来说,如下表达式:
column1IN( 1 , 2 , 3 )
和这个是一样的:
column1 = ORcolumn1 = ORcolumn1 = 3
MySQL同样对待这种语句,无需对查询条件的IN到OR或OR到IN做转变。
如下语句,优化器也会用到索引(范围查询range search)
column1LIKE ' x% '
但这种就不行:
column1LIKE ' % x% '
也就是说,如果匹配条件的第一个字符是通配符,那就没范围查询。
同样,如下两个语句也是一样的
column1BETWEEN 5 AND 7
和
column1 >= ANDcolumn1 <= 7
如果查询的条件,检索了太多的索引键,优化器可能转变RANGE联接类型为ALL JOIN联接类型。像这种转变,特别可能在<和>条件和多级第二索引(secondary indexes)中。源代码见:/myisam/mi_range.c,
mi_records_in_range()
(MyISAM索引)。
INDEX联接类型
考虑这个查询
SELECTcolumn1FROMTable1;
如果column1有加索引,那优化器可能选择从加的索引取值,而不是从表(全表扫描)。像这种方式的索引,一般称为覆盖索引(COVERING INDEX)。在EXPLAIN Extra描述中,MySQL会简单用INDEX单词来表示覆盖索引(COVERING INDEX)。
语句:
SELECTcolumn1,column2FROMTable1;
只有当索引被定义成如下,优化器会使用JOIN联接类型为INDEX
:join type = index
CREATEINDEX...ONTable1(column1,column2);
换句话说,被查询的字段(如:column1,column2)都必需被加索引的,被加索引的多个字段是无顺序之分的。因此,更有意义的严格定义一个多列索引(multiple-column index)作为一个覆盖索引(COVERING INDEX)来使用,无论搜索的考虑。
INDEX MERGE联接类型
概述
使用索引合并(INDEX MERGE),当表的条件可转化成如下:
cond_1ORcond_2...ORcond_N
转化的条件是:每个cond_i(cond_1,cond_2。。。)条件可用于范围扫描,且没有一对条件(cond_i,
cond_j
)用相同的索引。如果cond_i
和cond_j
条件使用相同的索引,那么cond_i
或者cond_j
条件能结合一个单一范围扫描,也就没合并的必要了。
如下查询就用了索引合并(INDEX MERGE):
SELECT
*
FROMtWHEREkey1
=
c1ORkey2
<
c2ORkey3IN(c3,c4);
SELECT
*
FROMtWHERE(key1
=
c1ORkey2
<
c2)ANDnonkey
=
c3;
索引合并(INDEX MERGE),是实现成一种范围键(range key)并以cond_i(cond_1,cond_2。。。)条件构造成的容器。在做索引合并(INDEX MERGE)时,MySQL检索每个键扫描(keyscans)的行,然后通过一个消除重复的过程来运行它们。目前类Unique用于消除重复的。
INDEX MERGE优化器
单一SEL_TREE对象不能被构造成在OR语句中有不同成员的键的条件,类似这条件:
key1 < c1ORkey2 < c2
从MySQL5.0开始,这些条件被索引合并(INDEX MERGE)方法,和范围优化器(range optimizer)结构的类SEL_IMERGE处理。SEL_IMERGE代表了若干SEL_TREE对象的析取,这种被表示为:
sel_imerge_cond = (t_1ORt_1OR...ORt_n)
每个t_i(t_1,t_2。。。)代表一个SEL_TREE,没有一对(t_i,t_j)不同的SEL_TREE对象能被合并成单一的SEL_TREE对象。
目前的实现方法在构建SEL_IMERGE时,只有当没有单一的SEL_TREE对象能被构建成被分析过的查询的一部分;如果发现单一SEL_TREE对象能被构造,就会马上丢弃SEL_TREE。这实际是一个限制,并且可能导致最坏行检索策略的使用。如下查询:
SELECT * FROMtWHERE(goodkey1 = c1ORgoodkey1 = c2)ANDbadkey = c3
在badkey的扫描会被选择,即使在(goodkey1,goodkey1)上的索引合并(INDEX MERGE)会更快。
索引合并(INDEX MERGE)优化器会收集索引合并(INDEX MERGE)访问行的所有可能的路线列表。这种SEL_IMERGE结构列表表示如下的条件:
(t_11ORt_12OR...ORt_1k)AND
(t_21ORt_22OR...ORt_2l)AND
...AND
(t_M1ORt_M2OR...ORt_mp)
当t_ij是一个SEL_IMERGE且一个条件就是一个SEL_IMERGE对象。
最小成本的SEL_IMERGE对象用来检索行。
索引合并(INDEX MERGE)构造函数的详细信息见:源代码sql/opt_range.cc,
imerge_list_and_list(),
imerge_list_or_list()
,和SEL_IMERGE类的成员函数。
RANGE优化器
为了范围RANGE查询,MySQL优化器构建一个SEL_TREE对象,如下这种形式:
range_cond = (cond_key_1ANDcond_key_2AND...ANDcond_key_N)
每一个cond_key_i都是一个键的组成部分的条件。MySQL为每个有用的键创建一个cond_key_i条件。然后这种成本最便宜的条件cond_key_i用来做范围RANGE扫描。
单一的cond_key_i条件是用SEL_ARG对象中的一个相联指针网(a pointer-linked network ofSEL_ARG
objects)来表示。每个SEL_ARG对象参考键的特定部分和表示如下的条件:
sel_arg_cond
=
(inf_val
<
key_part_nANDkey_part_n
<
sup_val)(
1
)
ANDnext_key_part_sel_arg_cond(
2
)
ORleft_sel_arg_cond(
3
)
ORright_sel_arg_cond(
4
)
1。实现间隔,可能没有上下临界,也或包括或没包括临界值。
2。实现SEL_ARG对象以下一个键组件作为条件(is for aSEL_ARG
object with condition on next key component)。
3。实现有间隔的SEL_ARG对象,在同样区域作为这个SEL_ARG对象(is for aSEL_ARG
object with an interval on the same field as thisSEL_ARG
object)。在当前对象和左边对象中的间隔,是不相交的。left_sel_arg_cond.sup_val <= inf_val
。
4。实现有间隔的SEL_ARG对象,在同样区域作为这个SEL_ARG对象。在当前对象和右边对象中的间隔,是不相交的。
left_sel_arg_cond.min_val >= max_val
。
MySQL会转变任意深度的嵌套AND-OR条件为上述相连接的形式。
行检索算法
索引合并(INDEX MERGE)有如下两个步骤:
准备阶段:
activate
'
indexonly
'
;
foreach
key_i
in
(key_scans\clustered_pk_scan)
{
while
(retrievenext(key,rowid)pairfromkey_i)
{
if
(noclusteredPKscan
||
rowdoesn
'
tmatchclusteredPKscancondition)
putrowidintoUnique;
}
}
deactivate
'
indexonly
'
;
行检索阶段:
for
eachrowid
in
Unique
{
retrieverowandpassittooutput;
}
if
(clustered_pk_scan)
{
while
(retrievenextrow
for
clustered_pk_scan)
passrowtooutput;
}
源代码见:sql/opt_range.cc
,QUICK_INDEX_MERGE_SELECT
类函数的索引合并(INDEX MERGE)行检索代码。
3.换位(Transpositions)
MySQL支持简单语句表达式的换位(反转关系操作符的操作数的顺序)。换句话说:
WHERE - 5 = column1
此语句可转化成:
WHEREcolumn1 = - 5
然而,MySQL不支持有运算存在的换位,如:
WHERE 5 = - column1
而这句不能同等对待:
WHEREcolumn1 = - 5
像这形式column = constant
表达式的换位是为了更好的索引检索。如果这种形式的语句有加了索引的字段,不论表的大小,MySQL始终使用上索引的。(例外:如果表无记录或只有一行记录,它就是常数表,需特别处理。见常数值和常数表)。
AND关系
一个AND的查询形式如condition1
ANDcondition2,如下:
WHEREcolumn1 = ' x ' ANDcolumn2 = ' y '
这步骤描述了优化器决断的过程:
1。如果两个条件都没被索引,使用顺序扫描(全表扫描)。
2。除前一点之外,如果其中一个条件有更好的JOIN联接类型,则以JOIN联接类型选择一个驱动。(见
确定JOIN联接类型)
3。除前两点之外,如果两个条件都有加索引且平等的JOIN联接类型(
注:JON 联接类型效果有好坏之分),则以第一个创建的索引选择一个驱动。
优化器也会根据索引交叉选择索引合并(INDEX MERGE),见INDEX MERGE联接类型。 例子如下:
CREATETABLETable1(s1INT,s2INT);
CREATEINDEXIndex1ONTable1(s2);
CREATEINDEXIndex2ONTable1(s1);
...
SELECT
*
FROMTable1WHEREs1
=
ANDs2
=
5
;
当选择一种策略来解决这个查询,优化器会选择s2 = 5作为驱动,由于s2上的索引首先被创建。视为一个偶然的效果,而不是一种规则,在任何时刻都有可能会改变的。
OR关系
一个OR的查询形式如condition1
ORcondition2,如下:
WHEREcolumn1 = ' x ' ORcolumn2 = ' y '
这种查询优化器的决断是使用顺序全表扫描。
还有一种选择在特定的环境下会使用索引合并(INDEX MERGE),更多信息见INDEX MERGE优化器和Index Merge Optimization。
上述的特定情况不能用于如果两条件的字段是一样。如下:
WHEREcolumn1 = ' x ' ORcolumn1 = ' y '
这种情况,由于语句是RANG查询,所以会走索引的。这个话题会在IN限定(predicate)的讨论中再次看到。
UNION查询
所有含有UNION的SELECT查询语句会被各自优化。因此,这个查询:
SELECT
*
FROMTable1WHEREcolumn1
=
'
x
'
UNIONALL
SELECT
*
FROMTABLE1WHEREcolumn2
=
'
y
'
如果column1和column2都有索引的,每个SELECT都会使用索引扫描,各自的结果集会被合并。注意:此查询可能产生相同的结果集,如果查询使用了顺序扫描OR的例子。
NOT(<>)关系
一个逻辑条件如下 :
column1 <> 5
等价于:
column1 < 5 ORcolumn1 > 5
然而,MySQL不会对这种条件进行转化语句。如果你觉得用RANG查询效果会更好,你必需自己手动做语句转化。
还有一个逻辑条件如下:
WHERENOT(column1 != 5 )
等价于:
WHEREcolumn1 = 5
对这种情况,MySQL也不会做语句转化的。
我们期待能针对上述两个情况加入新的优化方法。
ORDER BY语句
通常,如果优化器发现行记录不管怎么样都是有序的,在ORDER BY语句中它也会跳过SORT过程。但是还是验证几个例外的情况。
例:
SELECTcolumn1FROMTable1ORDERBY ' x ' ;
优化器会扔掉ORDER BY语句,这也是死代码删除一个例子。
例:
SELECTcolumn1FROMTable1ORDERBYcolumn1;
优化器会使用column1的索引,如果存在的话。
例:
SELECTcolumn1FROMTable1ORDERBYcolumn1 + 1 ;
优化器会使用column1的索引,如果存在的话。但是不要被弄混了,索引只用来查找记录值。另外:顺序扫描索引的成本比顺序扫描全表的成本是更便宜的(一般索引的大小会比数据值的大小小的),这也是为什么INDEX JOIN联接类型会比ALL类型更优化。见确定JOIN联接类型。
还有一种结果集的全部排序SORT,例:
SELECT
*
FROMTable1
WHEREcolumn1
>
'
x
'
ANDcolumn2
>
'
x
'
ORDERBYcolumn2;
如果column1和column2都有索引的,优化器会走在column1上的索引。在这个查询语句,对column2值的排序不会影响驱动的选择。
源代码见:/sql/sql_select.cc
,test_if_order_by_key()
和/sql/sql_select.cc
,test_if_skip_sort_order()
。
ORDER BYOptimization,描述了SORT排序过程的内容机制,在这里不重复解释。但恳请你一定要阅读,因为它描述了缓冲和快速排序机制的操作。
GROUP BY和相关的条件
这里描述了GROUP BY和相关条件(HAVING
,COUNT(),
MAX(),
MIN(),
SUM(),
AVG(),
DISTINCT()
)的主要优化。
- GROUP BY会使用索,如果一个索引存在的话。
- GROUP BY会用排序,如果没有索引存在。优化器可能选择使用HASH表排序。
- GROUP BY x ORDER BY x的情况,优化器会因为GROUP BY会以 x 的排序,而认为ORDER BY是不需要的。
- 优化器包含了为转移特定HAVING条件的WHERE语句中的代码。然而,此代码在编写时是不生效的。源代码见:
/sql/sql_select.cc,
JOIN::optimize(),在
#ifdef HAVE_REF_TO_FIELDS
之后。 - 如果表句柄(handler)有个有效的快速行总数(row-count),那么这个查询:
SELECTCOUNT( * )FROMTable1;
不必扫描所有行,就能得到行总数值。这只对MyISAM表是正确的,但不适合InnoDB表。另外这个查询
SELECTCOUNT(column1)FROMTable1;
不会有同样的优化,除非column1被定义为NOT NULL。
- MAX()和MIN()新的优化方法。例:
SELECTMAX(column1)
FROMTable1
WHEREcolumn1
<
'
a
'
;
如果column1被索引了,就很容易找到最大值通过查询索引中的'a'值并且在这之前返回索引键。
- 优化对如下形式的查询,进行语句转化:
SELECTDISTINCTcolumn1FROMTable1;
成:
SELECTcolumn1FROMTable1GROUPBYcolumn1;
当且仅当这两个条件都是正确:
*GROUP BY能通过索引来未完成。这暗示了只有一个表在FROM语句中且没有WHERE语句。
*没有LIMIT语句。
因为DISTINCT语句并不总是被转化成GROUP BY,不要期望含有DISTINCT查询语句总会有被排序的结果集。然而,你能依赖GROUP BY优化规则,除非查询包括ORDER BY NULL。
三。其它优化
这部分,讨论其它更特别的优化方法。
1. ref和eq_ref的NULLs值过滤访问
这部分讨论ref和eq_ref联接类型的NULLs值过滤优化方法。
前期(early)NULLs值过滤
假设我们有个联接顺序如下:
...,tblX,...,tblY,...
更深入假设,表tblY通过ref或eq_ref 联合类型被访问:
tblY.key_column = tblX.column
或者,使用多个键部分的ref类型访问:
...ANDtblY.key_partN = tblX.columnAND...
tblX.column可以为NULL。ref(或eq_ref)类型访问时,前期会应用NULLs过滤。我们做如下的推断:
(tblY.key_partN = tblX.column) => (tblX.columnISNOTNULL)
原等式的检查只有在读了表tblX和tblY的当前行记录后。IS NOT NULL限定(predicate)的检查,只有在读了表tblX的当前行记录后。如果在表tblX和tblY的联合排序中有任何
其它表,IS NOT NULL限定(predicate)的检查就允许我们跳过访问这些表。
这个特性的实现代码如下:
- ref分析器(包含方法
update_ref_and_keys()
)通过设置KEY_FIELD::null_rejecting=TRUE
检查和标记像上述这种类型的查询等式。 - 选择JOIN联接排序以后,
add_not_null_conds()
会增加适当的IS NOT NULL限定(predicate)到适当表的相关条件中。
对所有等式加了IS NOT NULL限定(predicate)是有可能被ref访问类型使用(而不是那些有实际使用的)。然而,目前没这样做。
后期(Late)NULLs过滤
假设我们有一个表tblX查询计划,是通过ref访问类型被访问:
tblX.key_part1 = expr1ANDtblX.key_part2 = expr2AND...
在调用索引检索前,我们确定任何expri(expr1,expr2,expr3。。。)值是否为NULL。如果是,我们不会调用检索,而是会马上返回没找到匹配数组。
这个优化方法重用了由前期(early)NULLs过滤产生的null_rejecting属性。这个检查的源代码见:函数join_read_always_key()。
2.分区相关的优化
这部分讨论MySQL分区相关的优化。MySQL5.1分区相关概念和实现见:Partitioning。
分区裁剪(pruning)
分区裁剪(partition pruning)的操作,如下定义:
“提供一个分区表的查询,比对此分区表的DDL语句和查询中的任何WHERE或ON语句,且找出这查询访问的最小分区集。”
这样得到的分区集会比表所有分区的集合小很多,这个分区集也是之后查询语句要用到的。没被加入这个分区集的其它分区,就不会被访问的,也就是说被裁剪掉的分区。正因为这样,查询的执行速度变得更快。
Non-Transactional Table Engines.??如MyISAM无事务存储引擎,锁会被加在整个分区表。理论上讲,使用分区裁剪(partition pruning)是有可能提高并发,只把锁加在被使用的分区上。但是目前还没实现这功能。
分区裁剪(partition pruning)不依赖表的存储引擎,所以这功能是MySQL查询优化器的一部分。接下来章节描述分区裁剪(partition pruning)的细节。
分区裁剪概述
分区裁剪(partition pruning)的实现步骤如下:
1。分析WHERE语句条件并构造区间图
interval graph,用来描述分析的结果情况。
2。通过区间图,为每个区间找出被访问的分区集(包括子分区)。
3。构造查询所需要的分区集。
区间图interval graph是自下而上的方式构造成,并来表示上述步骤的描述。接着讨论,我们会首先定义术语区间图interval graph,接着描述怎样用分区区间来组成一个区间图interval graph,最后描述区间图interval graph的工作流程。
分区区间(Partitioning Intervals)
单点区间(Single-Point Intervals)
从最简单的情况开始,假设一个有N个列的分区表,通过分区类型p_type和分区函数p_func,表示如下:
CREATETABLEt(columns)
PARTITIONBYp_type(p_func(col1,col2,...colN)...);
再假设查询的WHERE条件形式如下:
WHEREt.col1 = const1ANDt.col2 = const2AND...t.colN = constN
我们能计算出p_func(const1, const2 ... constN),并挖掘出哪个分区
包含的记录和WHERE条件一样。注意:这个流程会在所有的分区类型和所有的分区函数上操作。
注意:此流程只工作在,如果WHERE条件的形式像上述那样,表的每个列必需被验证是否等与一些任意常数(不需要相同的常数为每列)。例如,如果上述例子的WHERE语句中没有col1=const1,那么我们不会计算p_func分区函数的值,也就不会约束实际被用的分区集。
区间游历(Walking)
假设一个分区表t被定义成columns列集,分区类型p_type,分区函数p_func使用integer类型字段int_col,如下:
CREATETABLEt(columns)
PARTITIONBY
p_type(p_func(int_col))
...
假设我们有如下形式的WHERE条件查询:
WHEREconst1 <= int_col <= const2
我们能缩小此情况的条件成一系列单点区间(Single-Point Intervals),如下,通过转化此WHERE语句为以下关系:
int_field
=
const1OR
int_field
=
const1
+
1
OR
int_field
=
const1
+
2
OR
...OR
int_field
=
const2
在源代码里,这种转化被称作区间游历(Walking)。游历短的区间成本是不贵的,这样我们能缩小分区数来扫描小的分区。然尔,游历长的区间不是那么非常有效的,需要检查大量的分区,这样的话,可能所有分区都会被扫描的。
如下参数决定区间游历(Walking)的值:
#define MAX_RANGE_TO_WALK=10
注意:如下条件关系也会利用上述区间游历(Walking)的逻辑:
const1 >= int_col >= const2
区间映射(mapping)
假设如下的分区表定义:
CREATETABLEt(columns)
PARTITIONBYRANGE
|
LIST(unary_ascending_function(column))
假设我们对表t的查询的WHERE语句,是如下形式中的一种:
- const1 <= t.column <= const2
- t.column <= const2
- const1 <= t.column
自分区函数是升序,看如下的关系:
const1
<=
t.col
<=
const2
=>
p_func(const1)
<=
p_func(t.column)
<=
p_func(const2)
用A和B表示这关系的最左和最右部分,我们能重写关系为:
A <= p_func(t.column) <= B
注意:在这实例中,区间是关闭的且有两个界值。但是,类似的推论可以类推到其它类型的区间。
如范围分区(RANGE partitioning),每个分区占据一个区间于分区函数值的轴线上,每个区间是不相连的,如下:
p0p1p2
tablepartitions
------
x
------
x
--------
x
-------->
searchinterval
----
x
==============
x
----------->
AB
一个分区需要被访问,当且仅当如果它的区间和搜索区间[A, B]没有空的交叉点。
如列举分区(LIST partitioning),每个分区包括点集于分区函数值的轴线上,各分区会产生不同的交叉点,如下:
p0p1p2p1p1p0
tablepartitions
--+---+----+----+----+----+---->
searchinterval
----
x
===================
x
------>
AB
一个分区需要被访问,至少一个交叉点在搜索区间[A, B]里。所用的分区集可确定运行从A到B,并收集它们的点在这个搜索范围内的分区。
子分区区间(subpartitioning intervals)
在前面部分我们描述几种从基本的WHERE条件推断出在用分区集。一切都表明,这些分区的推断方法都适合于子分区,除范围分区(RANGE partitioning)和列举分区(LIST partitioning)的子分区外。
自每个分区以同样的方式被分子分区,我们会找出在每个分区内的哪个子分区会被访问。
从WHERE语句到区间(From WHERE Clauses to Intervals)
之前的章节讲述了,从表示分区和子分区区间的WHERE语句推断出分区集。现在我们看看如何从任意WHERE语句抽出区间。
抽取的流程使用范围分析器(RANGE Analyzer),属于MySQL优化器的一部分,它产生范围RANGE访问的计划。这是因为这个任务是相似的。两种WHERE语句的形式:RANGE访问类型使用索引范围(区间)扫描;分区裁剪(partition pruning)模块使用分区区间,用来决定哪个分区被使用。
为了分区裁剪(partition pruning),范围分析器(RANGE Analyzer)与WHERE语句被调用,一个由分区和子分区函数使用的表的列清单:
(part_col1,part_col2,...part_colN,
subpart_col1,subpart_col2,...subpart_colM)
范围分析器(RANGE Analyzer)工作的结果被称为SEL_ARG图。这是一个很复杂的结构,我们不打算在这里描述它。目前这个文化讨论的重点是我们能游历所有分区,并收集分区和子分区的区间。
如下例子阐明结构和游历流程。假设表t按如下的分区:
CREATETABLEt(...,pfINT,sp1CHAR(
5
),sp2INT,...)
PARTITIONBYLIST(pf)
SUBPARTITIONBYHASH(sp1,sp2)(
PARTITIONp0VALUESIN(
1
),
PARTITIONp1VALUESIN(
2
),
PARTITIONp2VALUESIN(
3
),
PARTITIONp3VALUESIN(
4
),
PARTITIONp4VALUESIN(
5
),
);
现假设对表t的一个很复杂的WHERE语句查询:
pf
=
1
AND(sp1
=
'
foo
'
ANDsp2IN(
40
,
50
))
OR
(pf1
=
3
ORpf1
=
4
)ANDsp1
=
'
bar
'
ANDsp2
=
33
OR
((pf
=
3
ORpf
=
4
)ANDsp1
=
5
)
OR
p
=
8
SEL_ARG图如下:
(root)
|
:
|
Partitioning:Sub
-
partitioning
|
:
|
:
|
:
|
+------+
:
+-----------+
+--------+
\
---|
pf
=
1
|----
:
-----|
sp1
=
'
foo
'
|---|
sp2
=
40
|
+------+
:
+-----------+
+--------+
|
:
|
|
:
+--------+
|
:
|
sp2
=
50
|
|
:
+--------+
|
:
|
:
+------+
:
+-----------+
+--------+
|
pf
=
3
|----
:
--+--|
sp1
=
'
bar
'
|---|
sp2
=
33
|
+------+
:
|
+-----------+
+--------+
|
:
|
+------+
:
|
|
pf
=
4
|----
:
--+
+------+
:
|
:
|
:
+------+
:
+-----------+
|
pf
=
8
|----
:
-----|
sp1
=
'
baz
'
|
+------+
:
+-----------+
上述图表,竖的边界(|)代表OR,横的(-)代表AND,横的和竖的线也代表AND。
分区裁剪(partition pruning)代码游历从图上方到下方,从左边到右边,并做了如下的推论
1。在最上和最左的区间,从使用分区的空集合开始游历:
2。
- 执行pf=1的区间分析,找到分区P0的相应集合,右移到sp1='foo'
- 再次右移,到sp2=40
- 分析sp1='foo' AND sp2=40区间,在某SP1子分区找到行。推论一:在每个分区组成集合P0,标识子分区SP1“被使用”
- 下移到sp2=50
- 分析sp1='foo'区间和sp2=50区间,在某SP2子分区找到行。推论二:在每个分区组成集合P0,标识子分区SP2“被使用”
- 移回到pf=1,然后下称到pf=3
3。
- 执行pf=3的区间分析,找到分区P1的相应集合,右移到sp1='bar'
- 再次右移,到sp2=33
- 分析sp1='bar' ANDsp2=33区间,在某SP3子分区找到行。推论三:在每个分区组成集合P1,标识子分区SP3“被使用”
- 移回到pf=3,然后下移到pf=4
4。
- 执行pf=4的区间分析,找到分区P2的相应集合,右移到sp2='bar'
- 执行移动和类似的推论已在pf=3验证正确。这样的效果是比较差的,因为我们将再次分析sp1='bar' ANDsp2=33区间,但这个操作不会很大影响到整体性能。
- 移回到pf=3,然后下称到pf=8
5。
- 执行pf=8的区间分析,找到分区P3的相应集合,右移到sp1='baz'
- 现在到了sp1='baz',发现不能再向右移动,也不能构建子分区区间。我们记录下,并返回pf=8
- 从之前的过程,我们不能再限制子分区区间了,所以推论:在P3分区集里的每个分区,假设所有的子分区都是有效在用的。
6。尝试从pf=9下移,发现到尾,所以游历图也就完成。
注意:在特定的情况下,范围分析器(RANGE Analyzer)的结果会有几种的SEL_ARG图,这图是由OR或AND操作符组成的。出现这种情况对于WHERE语句,要么是非常复杂的要么不允许一个单一的区间列表构建。对这种情况,分区裁剪(partition pruning)代码采用合适的操作,例:
SELECT * FROMt1WHEREpartition_id = 10 ORsubpartition_id = 20
在这个实例中,没有单一的区间被构建,但分区裁剪(partition pruning)代码正确地推断了使用的分区集是联合:
所有在分区里的子分区包含了partition_id=10的行,在每个分区里一个子分区包含subpartition_id=20的行。
源代码中分区裁剪(partition pruning)实现
源代码的简单解说:
- sql/opt_range.cc:
这代码包含了
从WHERE语句到区间(From WHERE Clauses to Intervals)的实现,方法
prune_partitions()
。关于
分区裁剪(partition pruning)的都有详细的行行代码注释,从
PartitionPruningModule
代码开始:
-
sql/partition_info.h
:
class
partition_info{
...
/*
Bitmapofused(i.e.notprunedaway)partitions.Thisiswhereresult
ofpartitionpruningisstored.
*/
MY_BITMAPused_partitions;
/*
"virtualfunction"pointerstofunctionsthatperformintervalanalysis
onthispartitionedtable(usedbythecodeinopt_range.cc)
*/
get_partitions_in_range_iterget_part_iter_for_interval;
get_partitions_in_range_iterget_subpart_iter_for_interval;
};
-
sql/sql_partition.cc
:
这代码包含了实现所有分区区间分析类型的方法。
分区检索
如果分区表被一系列索引检索(即ref,eq_ref,ref_or_null联接访问方式)访问,MySQL会检查是否需要所有分区做索引检索或者限制访问到一个特定的分区。例:
CREATETABLEt1(aINT,bINT);
INSERTINTOt1VALUES(
1
,
1
),(
2
,
2
),(
3
,
3
);
CREATETABLEt2(
keypart1INT,
keypart2INT,
KEY(keypart1,keypart2)
)
PARTITIONBYHASH(keypart2);
INSERTINTOt2VALUES(
1
,
1
),(
2
,
2
),(
3
,
3
);
查询条件如下:
SELECT
*
FROMt1,t2
WHEREt2.keypart1
=
t1.a
ANDt2.keypart2
=
t1.b;
利用如下算法执行:
(
for
eachrecord
in
t1:)
{
t2
->
index_read({current
-
value
-
of(t1.a),current
-
value
-
of(t1.b)});
while
(t2
->
index_next_same())
passrowcombinationtoqueryoutput;
}
在index_read()调用中,分区表句柄会挖掘出被确定所有分区列的值,在这个例子中,是单一列b,接着找出一个分区访问。如果这个分区被裁剪过,就没其它的分区可访问。
-EOF-
推荐阅读
-
【2022新手指南】Java编程进阶之路 - 六、技术架构篇 ### MySQL索引底层解析与优化实战 - 你会讲解MySQL索引的数据结构吗?性能调优技巧知多少? - Redis深度揭秘:你知道多少?从基础到哨兵、主从复制全梳理 - Redis持久化及哨兵模式详解,还有集群搭建和Leader选举黑箱打开 - Zookeeper是个啥?特性和应用场景大公开 - ZooKeeper集群搭建攻略及 Leader选举、读写一致性、共享锁实现细节 - 探究ZooKeeper中的Leader选举机制及其在分布式环境中的作用 - Zab协议深入剖析:原理、功能与在Zookeeper中的核心地位 - RabbitMQ全方位解读:工作模式、消费限流、可靠投递与配置策略 - 设计者视角:RabbitMQ过期时间、死信队列与延时队列实践指南 - RocketMQ特性和应用场景揭示:理解其精髓与差异化优势 - Kafka详细介绍:特性及广泛应用于实时数据处理的场景解析 - ElasticSearch实力揭秘:特性概述与作为搜索引擎的广泛应用 - MongoDB认知升级:非关系型数据库的优势阐述,安装与使用实战教学 - BIO/NIO/AIO网络模型对比:掌握它们的区别与在网络编程中的实际应用 - Netty带你飞:理解其超快速度背后的秘密,包括线程模型分析 - 网络通信黑科技:Netty编解码原理与常用编解码器的应用,Protostuff实战演示 - 解密Netty粘包与拆包现象,怎样有效应对这一常见问题 - 自定义Netty心跳检测机制,轻松调整检测间隔时间的艺术 - Dubbo轻骑兵介绍:核心特性概览,服务降级实战与其实现益处 - Dubbo三大神器解读:本地存根与本地伪装的实战运用与优势呈现 ----------------------- 七、结语与回顾
-
SSM三大框架基础面试题-一、Spring篇 什么是Spring框架? Spring是一种轻量级框架,提高开发人员的开发效率以及系统的可维护性。 我们一般说的Spring框架就是Spring Framework,它是很多模块的集合,使用这些模块可以很方便地协助我们进行开发。这些模块是核心容器、数据访问/集成、Web、AOP(面向切面编程)、工具、消息和测试模块。比如Core Container中的Core组件是Spring所有组件的核心,Beans组件和Context组件是实现IOC和DI的基础,AOP组件用来实现面向切面编程。 Spring的6个特征: 核心技术:依赖注入(DI),AOP,事件(Events),资源,i18n,验证,数据绑定,类型转换,SpEL。 测试:模拟对象,TestContext框架,Spring MVC测试,WebTestClient。 数据访问:事务,DAO支持,JDBC,ORM,编组XML。 Web支持:Spring MVC和Spring WebFlux Web框架。 集成:远程处理,JMS,JCA,JMX,电子邮件,任务,调度,缓存。 语言:Kotlin,Groovy,动态语言。 列举一些重要的Spring模块? Spring Core:核心,可以说Spring其他所有的功能都依赖于该类库。主要提供IOC和DI功能。 Spring Aspects:该模块为与AspectJ的集成提供支持。 Spring AOP:提供面向切面的编程实现。 Spring JDBC:Java数据库连接。 Spring JMS:Java消息服务。 Spring ORM:用于支持Hibernate等ORM工具。 Spring Web:为创建Web应用程序提供支持。 Spring Test:提供了对JUnit和TestNG测试的支持。 谈谈自己对于Spring IOC和AOP的理解 IOC(Inversion Of Controll,控制反转)是一种设计思想: 在程序中手动创建对象的控制权,交由给Spring框架来管理。IOC在其他语言中也有应用,并非Spring特有。IOC容器实际上就是一个Map(key, value),Map中存放的是各种对象。 将对象之间的相互依赖关系交给IOC容器来管理,并由IOC容器完成对象的注入。这样可以很大程度上简化应用的开发,把应用从复杂的依赖关系中解放出来。IOC容器就像是一个工厂一样,当我们需要创建一个对象的时候,只需要配置好配置文件/注解即可,完全不用考虑对象是如何被创建出来的。在实际项目中一个Service类可能由几百甚至上千个类作为它的底层,假如我们需要实例化这个Service,可能要每次都搞清楚这个Service所有底层类的构造函数,这可能会把人逼疯。如果利用IOC的话,你只需要配置好,然后在需要的地方引用就行了,大大增加了项目的可维护性且降低了开发难度。 Spring中的bean的作用域有哪些? 1.singleton:该bean实例为单例 2.prototype:每次请求都会创建一个新的bean实例(多例)。 3.request:每一次HTTP请求都会产生一个新的bean,该bean仅在当前HTTP request内有效。 4.session:每一次HTTP请求都会产生一个新的bean,该bean仅在当前HTTP session内有效。 5.global-session:全局session作用域,仅仅在基于Portlet的Web应用中才有意义,Spring5中已经没有了。Portlet是能够生成语义代码(例如HTML)片段的小型Java Web插件。它们基于Portlet容器,可以像Servlet一样处理HTTP请求。但是与Servlet不同,每个Portlet都有不同的会话。 Spring中的单例bean的线程安全问题了解吗? 概念用于理解:大部分时候我们并没有在系统中使用多线程,所以很少有人会关注这个问题。单例bean存在线程问题,主要是因为当多个线程操作同一个对象的时候,对这个对象的非静态成员变量的写操作会存在线程安全问题。 有两种常见的解决方案(用于回答的点): 1.在bean对象中尽量避免定义可变的成员变量(不太现实)。 2.在类中定义一个ThreadLocal成员变量,将需要的可变成员变量保存在ThreadLocal(线程本地化对象)中(推荐的一种方式)。 ThreadLocal解决多线程变量共享问题(参考博客):https://segmentfault.com/a/1190000009236777 Spring中Bean的生命周期: 1.Bean容器找到配置文件中Spring Bean的定义。 2.Bean容器利用Java Reflection API创建一个Bean的实例。 3.如果涉及到一些属性值,利用set方法设置一些属性值。 4.如果Bean实现了BeanNameAware接口,调用setBeanName方法,传入Bean的名字。 5.如果Bean实现了BeanClassLoaderAware接口,调用setBeanClassLoader方法,传入ClassLoader对象的实例。 6.如果Bean实现了BeanFactoryAware接口,调用setBeanClassFacotory方法,传入ClassLoader对象的实例。 7.与上面的类似,如果实现了其他*Aware接口,就调用相应的方法。 8.如果有和加载这个Bean的Spring容器相关的BeanPostProcessor对象,执postProcessBeforeInitialization方法。 9.如果Bean实现了InitializingBean接口,执行afeterPropertiesSet方法。 10.如果Bean在配置文件中的定义包含init-method属性,执行指定的方法。 11.如果有和加载这个Bean的Spring容器相关的BeanPostProcess对象,执行postProcessAfterInitialization方法。 12.当要销毁Bean的时候,如果Bean实现了DisposableBean接口,执行destroy方法。 13.当要销毁Bean的时候,如果Bean在配置文件中的定义包含destroy-method属性,执行指定的方法。 Spring框架中用到了哪些设计模式? 1.工厂设计模式:Spring使用工厂模式通过BeanFactory和ApplicationContext创建bean对象。 2.代理设计模式:Spring AOP功能的实现。 3.单例设计模式:Spring中的bean默认都是单例的。 4.模板方法模式:Spring中的jdbcTemplate、hibernateTemplate等以Template结尾的对数据库操作的类,它们就使用到了模板模式。 5.包装器设计模式:我们的项目需要连接多个数据库,而且不同的客户在每次访问中根据需要会去访问不同的数据库。这种模式让我们可以根据客户的需求能够动态切换不同的数据源。 6.观察者模式:Spring事件驱动模型就是观察者模式很经典的一个应用。 7.适配器模式:Spring AOP的增强或通知(Advice)使用到了适配器模式、Spring MVC中也是用到了适配器模式适配Controller。 还有很多。。。。。。。 @Component和@Bean的区别是什么 1.作用对象不同。@Component注解作用于类,而@Bean注解作用于方法。 2.@Component注解通常是通过类路径扫描来自动侦测以及自动装配到Spring容器中(我们可以使用@ComponentScan注解定义要扫描的路径)。@Bean注解通常是在标有该注解的方法中定义产生这个bean,告诉Spring这是某个类的实例,当我需要用它的时候还给我。 3.@Bean注解比@Component注解的自定义性更强,而且很多地方只能通过@Bean注解来注册bean。比如当引用第三方库的类需要装配到Spring容器的时候,就只能通过@Bean注解来实现。 @Configuration public class AppConfig { @Bean public TransferService transferService { return new TransferServiceImpl; } } <beans> <bean id="transferService" class="com.kk.TransferServiceImpl"/> </beans> @Bean public OneService getService(status) { case (status) { when 1: return new serviceImpl1; when 2: return new serviceImpl2; when 3: return new serviceImpl3; } } 将一个类声明为Spring的bean的注解有哪些? 声明bean的注解: @Component 组件,没有明确的角色 @Service 在业务逻辑层使用(service层) @Repository 在数据访问层使用(dao层) @Controller 在展现层使用,控制器的声明 注入bean的注解: @Autowired:由Spring提供 @Inject:由JSR-330提供 @Resource:由JSR-250提供 *扩:JSR 是 java 规范标准 Spring事务管理的方式有几种? 1.编程式事务:在代码中硬编码(不推荐使用)。 2.声明式事务:在配置文件中配置(推荐使用),分为基于XML的声明式事务和基于注解的声明式事务。 Spring事务中的隔离级别有哪几种? 在TransactionDefinition接口中定义了五个表示隔离级别的常量:ISOLATION_DEFAULT:使用后端数据库默认的隔离级别,Mysql默认采用的REPEATABLE_READ隔离级别;Oracle默认采用的READ_COMMITTED隔离级别。ISOLATION_READ_UNCOMMITTED:最低的隔离级别,允许读取尚未提交的数据变更,可能会导致脏读、幻读或不可重复读。ISOLATION_READ_COMMITTED:允许读取并发事务已经提交的数据,可以阻止脏读,但是幻读或不可重复读仍有可能发生ISOLATION_REPEATABLE_READ:对同一字段的多次读取结果都是一致的,除非数据是被本身事务自己所修改,可以阻止脏读和不可重复读,但幻读仍有可能发生。ISOLATION_SERIALIZABLE:最高的隔离级别,完全服从ACID的隔离级别。所有的事务依次逐个执行,这样事务之间就完全不可能产生干扰,也就是说,该级别可以防止脏读、不可重复读以及幻读。但是这将严重影响程序的性能。通常情况下也不会用到该级别。 Spring事务中有哪几种事务传播行为? 在TransactionDefinition接口中定义了八个表示事务传播行为的常量。 支持当前事务的情况:PROPAGATION_REQUIRED:如果当前存在事务,则加入该事务;如果当前没有事务,则创建一个新的事务。PROPAGATION_SUPPORTS: 如果当前存在事务,则加入该事务;如果当前没有事务,则以非事务的方式继续运行。PROPAGATION_MANDATORY: 如果当前存在事务,则加入该事务;如果当前没有事务,则抛出异常。(mandatory:强制性)。 不支持当前事务的情况:PROPAGATION_REQUIRES_NEW: 创建一个新的事务,如果当前存在事务,则把当前事务挂起。PROPAGATION_NOT_SUPPORTED: 以非事务方式运行,如果当前存在事务,则把当前事务挂起。PROPAGATION_NEVER: 以非事务方式运行,如果当前存在事务,则抛出异常。 其他情况:PROPAGATION_NESTED: 如果当前存在事务,则创建一个事务作为当前事务的嵌套事务来运行;如果当前没有事务,则该取值等价于PROPAGATION_REQUIRED。 二、SpringMVC篇 什么是Spring MVC ?简单介绍下你对springMVC的理解? Spring MVC是一个基于Java的实现了MVC设计模式的请求驱动类型的轻量级Web框架,通过把Model,View,Controller分离,将web层进行职责解耦,把复杂的web应用分成逻辑清晰的几部分,简化开发,减少出错,方便组内开发人员之间的配合。 Spring MVC的工作原理了解嘛? image.png Springmvc的优点: (1)可以支持各种视图技术,而不仅仅局限于JSP; (2)与Spring框架集成(如IoC容器、AOP等); (3)清晰的角色分配:前端控制器(dispatcherServlet) , 请求到处理器映射(handlerMapping), 处理器适配器(HandlerAdapter), 视图解析器(ViewResolver)。 (4) 支持各种请求资源的映射策略。 Spring MVC的主要组件? (1)前端控制器 DispatcherServlet(不需要程序员开发) 作用:接收请求、响应结果,相当于转发器,有了DispatcherServlet 就减少了其它组件之间的耦合度。 (2)处理器映射器HandlerMapping(不需要程序员开发) 作用:根据请求的URL来查找Handler (3)处理器适配器HandlerAdapter 注意:在编写Handler的时候要按照HandlerAdapter要求的规则去编写,这样适配器HandlerAdapter才可以正确的去执行Handler。 (4)处理器Handler(需要程序员开发) (5)视图解析器 ViewResolver(不需要程序员开发) 作用:进行视图的解析,根据视图逻辑名解析成真正的视图(view) (6)视图View(需要程序员开发jsp) View是一个接口, 它的实现类支持不同的视图类型(jsp,freemarker,pdf等等) springMVC和struts2的区别有哪些? (1)springmvc的入口是一个servlet即前端控制器(DispatchServlet),而struts2入口是一个filter过虑器(StrutsPrepareAndExecuteFilter)。 (2)springmvc是基于方法开发(一个url对应一个方法),请求参数传递到方法的形参,可以设计为单例或多例(建议单例),struts2是基于类开发,传递参数是通过类的属性,只能设计为多例。 (3)Struts采用值栈存储请求和响应的数据,通过OGNL存取数据,springmvc通过参数解析器是将request请求内容解析,并给方法形参赋值,将数据和视图封装成ModelAndView对象,最后又将ModelAndView中的模型数据通过reques域传输到页面。Jsp视图解析器默认使用jstl。 SpringMVC怎么样设定重定向和转发的? (1)转发:在返回值前面加"forward:",譬如"forward:user.do?name=method4" (2)重定向:在返回值前面加"redirect:",譬如"redirect:http://www.baidu.com" SpringMvc怎么和AJAX相互调用的? 通过Jackson框架就可以把Java里面的对象直接转化成Js可以识别的Json对象。具体步骤如下 : (1)加入Jackson.jar (2)在配置文件中配置json的映射 (3)在接受Ajax方法里面可以直接返回Object,List等,但方法前面要加上@ResponseBody注解。 如何解决POST请求中文乱码问题,GET的又如何处理呢? (1)解决post请求乱码问题: 在web.xml中配置一个CharacterEncodingFilter过滤器,设置成utf-8; <filter> <filter-name>CharacterEncodingFilter</filter-name> <filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class> <init-param> <param-name>encoding</param-name> <param-value>utf-8</param-value> </init-param> </filter> <filter-mapping> <filter-name>CharacterEncodingFilter</filter-name> <url-pattern>/*</url-pattern> </filter-mapping> (2)get请求中文参数出现乱码解决方法有两个: ①修改tomcat配置文件添加编码与工程编码一致,如下: <ConnectorURIEncoding="utf-8" connectionTimeout="20000" port="8080" protocol="HTTP/1.1" redirectPort="8443"/> ②另外一种方法对参数进行重新编码: String userName = new String(request.getParamter("userName").getBytes("ISO8859-1"),"utf-8") ISO8859-1是tomcat默认编码,需要将tomcat编码后的内容按utf-8编码。 Spring MVC的异常处理 ? 统一异常处理: Spring MVC处理异常有3种方式: (1)使用Spring MVC提供的简单异常处理器SimpleMappingExceptionResolver; (2)实现Spring的异常处理接口HandlerExceptionResolver 自定义自己的异常处理器; (3)使用@ExceptionHandler注解实现异常处理; 统一异常处理的博客:https://blog.csdn.net/ctwy291314/article/details/81983103 SpringMVC的控制器是不是单例模式,如果是,有什么问题,怎么解决? 是单例模式,所以在多线程访问的时候有线程安全问题,不要用同步,会影响性能的,解决方案是在控制器里面不能写成员变量。(此题目类似于上面Spring 中 第5题 有两种解决方案) SpringMVC常用的注解有哪些? @RequestMapping:用于处理请求 url 映射的注解,可用于类或方法上。用于类上,则表示类中的所有响应请求的方法都是以该地址作为父路径。 @RequestBody:注解实现接收http请求的json数据,将json转换为java对象。 @ResponseBody:注解实现将conreoller方法返回对象转化为json对象响应给客户。 SpingMvc中的控制器的注解一般用那个,有没有别的注解可以替代? 一般用@Controller注解,也可以使用@RestController,@RestController注解相当于@ResponseBody + @Controller,表示是表现层,除此之外,一般不用别的注解代替。 如果在拦截请求中,我想拦截get方式提交的方法,怎么配置? 可以在@RequestMapping注解里面加上method=RequestMethod.GET。 怎样在方法里面得到Request,或者Session? 直接在方法的形参中声明request,SpringMVC就自动把request对象传入。 如果想在拦截的方法里面得到从前台传入的参数,怎么得到? 直接在形参里面声明这个参数就可以,但必须名字和传过来的参数一样。 如果前台有很多个参数传入,并且这些参数都是一个对象的,那么怎么样快速得到这个对象? 直接在方法中声明这个对象,SpringMVC就自动会把属性赋值到这个对象里面。 SpringMVC中函数的返回值是什么? 返回值可以有很多类型,有String, ModelAndView。ModelAndView类把视图和数据都合并的一起的。 SpringMVC用什么对象从后台向前台传递数据的? 通过ModelMap对象,可以在这个对象里面调用put方法,把对象加到里面,前台就可以拿到数据。 怎么样把ModelMap里面的数据放入Session里面? 可以在类上面加上@SessionAttributes注解,里面包含的字符串就是要放入session里面的key。 SpringMvc里面拦截器是怎么写的: 有两种写法,一种是实现HandlerInterceptor接口,另外一种是继承适配器类,接着在接口方法当中,实现处理逻辑;然后在SpringMvc的配置文件中配置拦截器即可: <!-- 配置SpringMvc的拦截器 --> <mvc:interceptors> <!-- 配置一个拦截器的Bean就可以了 默认是对所有请求都拦截 --> <bean id="myInterceptor" class="com.zwp.action.MyHandlerInterceptor"></bean> <!-- 只针对部分请求拦截 --> <mvc:interceptor> <mvc:mapping path="/modelMap.do" /> <bean class="com.zwp.action.MyHandlerInterceptorAdapter" /> </mvc:interceptor> </mvc:interceptors> 注解原理: 注解本质是一个继承了Annotation的特殊接口,其具体实现类是Java运行时生成的动态代理类。我们通过反射获取注解时,返回的是Java运行时生成的动态代理对象。通过代理对象调用自定义注解的方法,会最终调用AnnotationInvocationHandler的invoke方法。该方法会从memberValues这个Map中索引出对应的值。而memberValues的来源是Java常量池 三、Mybatis篇 什么是MyBatis? MyBatis是一个可以自定义SQL、存储过程和高级映射的持久层框架。 讲下MyBatis的缓存 MyBatis的缓存分为一级缓存和二级缓存,一级缓存放在session里面,默认就有, 二级缓存放在它的命名空间里,默认是不打开的,使用二级缓存属性类需要实现Serializable序列化接口, 可在它的映射文件中配置<cache/> Mybatis是如何进行分页的?分页插件的原理是什么? 1)Mybatis使用RowBounds对象进行分页,也可以直接编写sql实现分页,也可以使用Mybatis的分页插件。 2)分页插件的原理:实现Mybatis提供的接口,实现自定义插件,在插件的拦截方法内拦截待执行的sql,然后重写sql。 举例:select * from student,拦截sql后重写为:select t.* from (select * from student)t limit 0,10 简述Mybatis的插件运行原理,以及如何编写一个插件? 1)Mybatis仅可以编写针对ParameterHandler、ResultSetHandler、StatementHandler、 Executor这4种接口的插件,Mybatis通过动态代理, 为需要拦截的接口生成代理对象以实现接口方法拦截功能, 每当执行这4种接口对象的方法时,就会进入拦截方法, 具体就是InvocationHandler的invoke方法,当然, 只会拦截那些你指定需要拦截的方法。 2)实现Mybatis的Interceptor接口并复写intercept方法, 然后在给插件编写注解,指定要拦截哪一个接口的哪些方法即可, 记住,别忘了在配置文件中配置你编写的插件。 Mybatis动态sql是做什么的?都有哪些动态sql?能简述一下动态sql的执行原理不? 1)Mybatis动态sql可以让我们在Xml映射文件内, 以标签的形式编写动态sql,完成逻辑判断和动态拼接sql的功能。 2)Mybatis提供了9种动态sql标签:trim|where|set|foreach|if|choose|when|otherwise|bind。 3)其执行原理为,使用OGNL从sql参数对象中计算表达式的值, 根据表达式的值动态拼接sql,以此来完成动态sql的功能。 #{}和${}的区别是什么? 1)#{}是预编译处理,${}是字符串替换。 2)Mybatis在处理#{}时,会将sql中的#{}替换为?号,调用PreparedStatement的set方法来赋值(有效的防止SQL注入); 3)Mybatis在处理${}时,就是把${}替换成变量的值。 为什么说Mybatis是半自动ORM映射工具?它与全自动的区别在哪里? Hibernate属于全自动ORM映射工具, 使用Hibernate查询关联对象或者关联集合对象时, 可以根据对象关系模型直接获取,所以它是全自动的。 而Mybatis在查询关联对象或关联集合对象时, 需要手动编写sql来完成,所以,称之为半自动ORM映射工具。 Mybatis是否支持延迟加载?如果支持,它的实现原理是什么? 1)Mybatis仅支持association关联对象和collection关联集合对象的延迟加载, association指的就是一对一,collection指的就是一对多查询。 在Mybatis配置文件中, 可以配置是否启用延迟加载lazyLoadingEnabled=true|false。 2)它的原理是,使用CGLIB创建目标对象的代理对象, 当调用目标方法时,进入拦截器方法, 比如调用a.getB.getName, 拦截器invoke方法发现a.getB是null值, 那么就会单独发送事先保存好的查询关联B对象的sql, 把B查询上来,然后调用a.setB(b), 于是a的对象b属性就有值了, 接着完成a.getB.getName方法的调用。 这就是延迟加载的基本原理。 MyBatis与Hibernate有哪些不同? 1)Mybatis和hibernate不同,它不完全是一个ORM框架, 因为MyBatis需要程序员自己编写Sql语句, 不过mybatis可以通过XML或注解方式灵活配置要运行的sql语句, 并将java对象和sql语句映射生成最终执行的sql, 最后将sql执行的结果再映射生成java对象。 2)Mybatis学习门槛低,简单易学,程序员直接编写原生态sql, 可严格控制sql执行性能,灵活度高,非常适合对关系数据模型要求不高的软件开发, 例如互联网软件、企业运营类软件等,因为这类软件需求变化频繁, 一但需求变化要求成果输出迅速。但是灵活的前提是mybatis无法做到数据库无关性, 如果需要实现支持多种数据库的软件则需要自定义多套sql映射文件,工作量大。 3)Hibernate对象/关系映射能力强,数据库无关性好, 对于关系模型要求高的软件(例如需求固定的定制化软件) 如果用hibernate开发可以节省很多代码,提高效率。 但是Hibernate的缺点是学习门槛高,要精通门槛更高, 而且怎么设计O/R映射,在性能和对象模型之间如何权衡, 以及怎样用好Hibernate需要具有很强的经验和能力才行。 总之,按照用户的需求在有限的资源环境下只要能做出维护性、 扩展性良好的软件架构都是好架构,所以框架只有适合才是最好。 MyBatis的好处是什么? 1)MyBatis把sql语句从Java源程序中独立出来,放在单独的XML文件中编写, 给程序的维护带来了很大便利。 2)MyBatis封装了底层JDBC API的调用细节,并能自动将结果集转换成Java Bean对象, 大大简化了Java数据库编程的重复工作。 3)因为MyBatis需要程序员自己去编写sql语句, 程序员可以结合数据库自身的特点灵活控制sql语句, 因此能够实现比Hibernate等全自动orm框架更高的查询效率,能够完成复杂查询。 简述Mybatis的Xml映射文件和Mybatis内部数据结构之间的映射关系? Mybatis将所有Xml配置信息都封装到All-In-One重量级对象Configuration内部。 在Xml映射文件中,<parameterMap>标签会被解析为ParameterMap对象, 其每个子元素会被解析为ParameterMapping对象。 <resultMap>标签会被解析为ResultMap对象, 其每个子元素会被解析为ResultMapping对象。 每一个<select>、<insert>、<update>、<delete> 标签均会被解析为MappedStatement对象, 标签内的sql会被解析为BoundSql对象。 什么是MyBatis的接口绑定,有什么好处? 接口映射就是在MyBatis中任意定义接口,然后把接口里面的方法和SQL语句绑定, 我们直接调用接口方法就可以,这样比起原来了SqlSession提供的方法我们可以有更加灵活的选择和设置. 接口绑定有几种实现方式,分别是怎么实现的? 接口绑定有两种实现方式,一种是通过注解绑定,就是在接口的方法上面加 上@Select@Update等注解里面包含Sql语句来绑定, 另外一种就是通过xml里面写SQL来绑定,在这种情况下, 要指定xml映射文件里面的namespace必须为接口的全路径名. 什么情况下用注解绑定,什么情况下用xml绑定? 当Sql语句比较简单时候,用注解绑定;当SQL语句比较复杂时候,用xml绑定,一般用xml绑定的比较多 MyBatis实现一对一有几种方式?具体怎么操作的? 有联合查询和嵌套查询,联合查询是几个表联合查询,只查询一次, 通过在resultMap里面配置association节点配置一对一的类就可以完成; 嵌套查询是先查一个表,根据这个表里面的结果的外键id, 去再另外一个表里面查询数据,也是通过association配置, 但另外一个表的查询通过select属性配置。 Mybatis能执行一对一、一对多的关联查询吗?都有哪些实现方式,以及它们之间的区别? 能,Mybatis不仅可以执行一对一、一对多的关联查询, 还可以执行多对一,多对多的关联查询,多对一查询, 其实就是一对一查询,只需要把selectOne修改为selectList即可; 多对多查询,其实就是一对多查询,只需要把selectOne修改为selectList即可。 关联对象查询,有两种实现方式,一种是单独发送一个sql去查询关联对象, 赋给主对象,然后返回主对象。另一种是使用嵌套查询,嵌套查询的含义为使用join查询, 一部分列是A对象的属性值,另外一部分列是关联对象B的属性值, 好处是只发一个sql查询,就可以把主对象和其关联对象查出来。 MyBatis里面的动态Sql是怎么设定的?用什么语法? MyBatis里面的动态Sql一般是通过if节点来实现,通过OGNL语法来实现, 但是如果要写的完整,必须配合where,trim节点,where节点是判断包含节点有 内容就插入where,否则不插入,trim节点是用来判断如果动态语句是以and 或or 开始,那么会自动把这个and或者or取掉。 Mybatis是如何将sql执行结果封装为目标对象并返回的?都有哪些映射形式? 第一种是使用<resultMap>标签,逐一定义列名和对象属性名之间的映射关系。 第二种是使用sql列的别名功能,将列别名书写为对象属性名, 比如T_NAME AS NAME,对象属性名一般是name,小写, 但是列名不区分大小写,Mybatis会忽略列名大小写,
-
MySQL中的视图、存储过程、触发器、函数、事务、SQL动态执行
-
mysql 管理工具 navicatformysql 视图、触发器、函数、存储过程、游标、SQL 动态执行(防 SQL 注入)
-
深入了解 MySql 子查询 IN 的执行和优化
-
优化 mysql 更新语句的执行效率
-
MySQL-8.0 执行器及其改进
-
了解两种 SQL 优化器 CBO 和 RBO
-
SQL 优化器 - 什么是 RBO 和 CBO?
-
Oracle] 优化器 RBO 和 CBO