大量日志数据库表高效删除
时间:2018-12-23 23:45 来源:linux.it.net.cn 作者:IT
需求
有两个表分别是session会话表T1和流量日志表T2,T2相当于T1的回溯功能,T1表的主键是sessionid,T2表外键是sessionid,对日志的删除操作只能按时间删除T2表,删除T2的时候当T1的sessionid在T2中不存在的时候,需要删除T1中的sessionid。
session表结构如下
sessionid srcIp dstIp createTime
流量日志表结构
sessionid detailParam
两个表的数据量的级别都是T级别的
sqlserver 设计思路
1.需要将两个表都做分区,分区函数checksum(sessionid)%1000。
2.创建临时表 select distinct sessionid from T2分区表,并对临时表sessionid创建hash索引-好处可以导入内容。
3.循环分区表 delete from T1 left join # on T1.sessionid=#.sessionid
where #.sessionid is null and t1.hashid=0 and #.hashid=0
优点
通过分区将两者更加sessionid映射到不同的桶中,形成一一对应关系,可以进行分布式并行操作,这样临时表较小可以导入内存对join效率提升很大,所以删除效率较高
(责任编辑:IT)
需求 有两个表分别是session会话表T1和流量日志表T2,T2相当于T1的回溯功能,T1表的主键是sessionid,T2表外键是sessionid,对日志的删除操作只能按时间删除T2表,删除T2的时候当T1的sessionid在T2中不存在的时候,需要删除T1中的sessionid。 session表结构如下 sessionid srcIp dstIp createTime 流量日志表结构 sessionid detailParam 两个表的数据量的级别都是T级别的 sqlserver 设计思路 1.需要将两个表都做分区,分区函数checksum(sessionid)%1000。 2.创建临时表 select distinct sessionid from T2分区表,并对临时表sessionid创建hash索引-好处可以导入内容。 3.循环分区表 delete from T1 left join # on T1.sessionid=#.sessionid where #.sessionid is null and t1.hashid=0 and #.hashid=0 优点 通过分区将两者更加sessionid映射到不同的桶中,形成一一对应关系,可以进行分布式并行操作,这样临时表较小可以导入内存对join效率提升很大,所以删除效率较高 (责任编辑:IT) |