视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
mysql的insert与update效率提高上万倍的经历
2020-11-09 15:16:13 责编:小采
文档


公司最近要做类似关注与粉丝的功能,需要将之前已经加为好友或者已经提交好友请求的数据转化为follow关系,我设计了两个表,follow和fan,同时在user_info表中添加了follow_count和fan_count两个字段,在功能上线之前,需要将现网的数据导出,然后转化为foll

公司最近要做类似关注与粉丝的功能,需要将之前已经加为好友或者已经提交好友请求的数据转化为follow关系,我设计了两个表,follow和fan,同时在user_info表中添加了follow_count和fan_count两个字段,在功能上线之前,需要将现网的数据导出,然后转化为follow关系再导入,总数据为75万条(社区刚放开,还没有大规模推广)。

策略1:

根据导出的经过排序的uid来操作,一共75万insert操作,75万update操作,整理写成sql文件, 直接cat sql | mysql 执行,居然一个下午都没有完成,通过show processlist发现没死,还在一个一个执行,只能中断操作

策略2:

将策略1生成的sql请求分成10份,有点并行操作的意思,结果还是一下午没有做完(其实没有从本跟上解决问题)

策略3:

经过分析,确定问题肯定在随机uid的insert和update操作使得mysql频繁的跨库跨表lock table和unlock taoble,时间都花费在表的切换上了。于是决定将操作按照db和table进行分类, 采用了multimap结构,

multimap< string, string > insert_query;

multimap< string, string > update_query;

以db_xx.table_xx为key,value就是要执行的sql,这样生成了两个sql:insert.sql和update.sql, 执行结果:

insert complete --- sns_user_97.user_follow_96

insert complete --- sns_user_97.user_follow_97

insert complete --- sns_user_97.user_follow_98

insert complete --- sns_user_97.user_follow_99

insert complete --- sns_user_98.user_follow_00

insert complete --- sns_user_98.user_follow_01

insert complete --- sns_user_98.user_follow_02

insert complete --- sns_user_98.user_follow_03

insert complete --- sns_user_98.user_follow_04

insert complete --- sns_user_98.user_follow_05

insert complete --- sns_user_98.user_follow_06

insert complete --- sns_user_98.user_follow_07

可以清晰的看到,顺序执行sql操作使得lock table造成的消耗降到了最低,最终结果:

update 1分钟内完成

insert 10分钟完成

策略4:

将策略3的结果sql按照key分成N块,起N个进程并行执行,这样会在1分钟之内完成,因为不同的表根本不会有锁的进程,效率提升会又上一个量级

从这个经验我想到了两点:

1.任务的队列化,如果任务的执行会涉及到大范围的随机跳转操作,而这种跳转还会引起资源竞争,那么最好的办法就是将任务队列化,按照跳转最少,资源竞争最少的原则进行排序。

2.在任务队列化的基础上,map/reduce

(备注:咱机器不行,大家不要太在意那个10分钟的时间消耗,我只是说有下这种思路,希望大家多多拍砖)

下载本文
显示全文
专题