1 对这一个小时进行AWR的收集和分析,首先,从报告头中看到DB Time达到近500分钟,(DB Time)/Elapsed=8,这个比值偏高:
Snap Id | Snap Time | Sessions | Cursors/Session | |
Begin Snap: | 15142 | 20-11月-12 09:00:05 | 62 | 5.8 |
End Snap: | 15143 | 20-11月-12 10:00:56 | 74 | 8.3 |
Elapsed: | 60.85 (mins) | |||
DB Time: | 492.88 (mins) |
2 再看TOP 5事件:
看到排在第一位的是enq: TX - row lock contention事件,也就是说系统中在这一个小时里产生了较为严重的行级锁等待事件。
Top 5 Timed Events
Event | Waits | Time(s) | Avg Wait(ms) | % Total Call Time | Wait Class |
CPU time | 21,215 | 71.7 | |||
enq: TX - row lock contention | 12,232 | 6,013 | 492 | 20.3 | Application |
gc cr multi block request | 14,696,067 | 1,675 | 0 | 5.7 | Cluster |
gc buffer busy | 441,472 | 719 | 2 | 2.4 | Cluster |
db file sequential read | 4,191 | 25 | 6 | .1 | User I/O |
通常,产生enq: TX - row lock contention事件的原因有以下几种可能:
· 不同的session更新或删除同一条记录;
· 唯一索引有重复索引;
· 位图索引同时被更新或同时并发的向位图索引字段上插入相同字段值;
· 并发的对同一个数据块上的数据进行update操作;
· 等待索引块完成分裂;
同时,从段的统计信息章节中,也看到下面的信息:
Segments by Row Lock Waits
· % of Capture shows % of row lock waits for each top segment compared
· with total row lock waits for all segments captured by the Snapshot
Owner | Tablespace Name | Object Name | Subobject Name | Obj. Type | Row Lock Waits | % of Capture |
SUNISCO | SUNISCO_DATA1 | BIND_PROCESS_LOG_REFNO | INDEX | 159 | 67.66 | |
SUNISCO | FDN_EDI_I01 | IDX_EDI_WORK_QUEUE_1 | INDEX | 29 | 12.34 | |
SUNISCO | SUNISCO_DATA1 | IND_EDI_CUSTOMER_TYPE_CODE | INDEX | 15 | 6.38 | |
SUNISCO | SUNISCO_DATA1 | IDX_EDI_MESSAGE_1 | INDEX | 14 | 5.96 | |
SUNISCO | FDN_BASE_T01 | BSE_NUM_LIST | TABLE | 6 | 2.55 |
看到row lock waits发生在索引上。
3那么,究竟是什么操作导致了这个enq: TX - row lock contention等待事件呢? 查看系统中,当前有哪些会话产生了enq: TX - row lock contention等待事件?
1 2 3 4 5 6 7 8 9 10 |
|
看到SID为224,238,247,248,253的会话产生enq: TX - row lock contention等待事件。
4 查看系统中的当前会话,是在哪个对象上产生了产生了enq: TX - row lock contention等待事件?
1 2 3 4 5 6 7 8 9 10 11 12 13 |
|
5 那么这个数据库对象为369195的对象究竟是什么呢?
1 2 3 4 5 6 7 8 9 10 11 |
|
可以看到,定位到的结果同上述AWR报告中段统计信息吻合,是SUNISCO这个用户下的一个索引。
6接下来,继续看看SID为224,238,247,248,253的会话到底在执行哪些操作导致enq: TX - row lock contention等待事件?
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 |
|
看到有SQL_ID不同的SQL在同时向EDI_MESSAGE_PROCESS_LOG这张表执行INSERT操作。
7 接下去看看EDI_MESSAGE_PROCESS_LOG这张表和索引BIND_PROCESS_LOG_REFNO之间有没有什么关系?
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
|
发现,这个索引BIND_PROCESS_LOG_REFNO是位于EDI_MESSAGE_PROCESS_LOG这张表的REFNO字段上的一个位图索引,而且是2012/11/05 10:18:28创建的,也就是说是近期才创建的1个位图索引。
问题定位到这一步基本比较清晰了,产生enq: TX - row lock contention事件的原因就是上述的第2个可能原因:位图索引同时被更新或同时并发的向位图索引字段上插入相同字段值。
8 那么,解决的办法也比较简单了,就是干掉这个位图索引,因为这个位图索引在这种应用场景下确实不太适合。事后,经过同客户方沟通确认,该索引是他们的一个DBA当初看到系统比较慢,而加上去的一个位图索引。
9补充,从当时的ADDM报告中,也可以看到数据库给我们的建议:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 |
|
10 最后,从本案例中,可以看到在日常的数据库维护中,添加或修改一些对象信息时,务必要经过严格的测试,尤其是在生产系统上做调整更应如此。同样,可以看出,数据库的一些理论基础知识对于DBA还是蛮重要的。