视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
对单表亿级数据的简单测试_MySQL
2020-11-09 19:17:42 责编:小采
文档
 声明:本文写作皆因个人兴趣,仅供学习目的,限于本人水平有限,不当之处请指正,欢迎讨论。 欢迎转载,转载请注明出处 。
本文地址:http://www.imsiren.com/archives/995

本次对mysql做了单表亿级数据量的压测。
表的关系简单,只有两个int字段,user_id和company_id,且都增加了索引。
通过python脚本,随机向同一个表随机插入100W、500W、1000W-1E数据,并且记录了每次插入数据所耗时间。
先来看下写入数据的情况吧:
python脚本空转:
空转100W:0.14s
空转1000W:1.74s
单次插入1000W条数据:295.11s
1000W基础上再插入1000W,轮询,直到写入1E数据,记录每次插入所耗的时间。

可以看到,随着数据量的不断增大,每次插入1000W条数据的时间还是比较稳定,上下浮动不大。

我们最终关心的是单表乙级数据量下,查询速度能有多快。

下面是用python客户端脚本模拟对1E条数据进行随机查询,随机用的是python的随机函数;机器资源有限,开发机是公用的,

所以也没太敢占用太大资源来做压测,并发用的Python的线程模块。

本次查询测试采用三种方法:

1、单进程对数据库执行随机查询1000次操作,执行100次,记录每次时间

2、并发1000、2000线程对数据库进行随机查询1000次操作,记录每次时间

3、用mysql官方软件mysqlslap 对数据库进行操作

第一种:

单次查询1000次的结果,跑100次,发现时间浮动还是比较大,这可能跟插入的数据散列情况有关,

user_id相同的数据还是有不少,20-100之间,线上业务出现这种数据的情况不大,所以,这些数据不影响最终结果。

第二种:并发1000线程对数据库进行随机1000次查询,

1000线程:最慢时间8s,处理能力 125/s ;

2000线程:最慢时间10s,处理能力 100/s;

第三种:mysqlslap进行测试

开启2000个线程,执行SELECT * FROM user_company_test_5000 WHERE user_id=7432查询

平均处理时间8.76s,每秒能处理229个查询。

用官方的mysqlslap进行测试,跟python脚本的测试结果偏差较大,

猜测原因有两个:

1:mysqlslap 直接采用socket对Mysql进行连接,所以它除了 mysql处理时间和网络请求时间没有其他影响结果的操作

2:mysqlslap只能指定sql,没有办法随机查询数据,而测试表里面的数据分散不均匀,这也是一个原因。

mysqlslap的数据只能视为最好情况,但第二个python脚本则更接近生产环境,1000次查询数据也是随机查询,

所以第二种能作为生产环境的依据。

再来看看批量查询,IN 语句最多50个值

好吧,我只开了200个线程,最慢时间93s,最快时间46s,简直可以用惨不忍睹来讲。如果是批量查询,

那就拆成多条语句来查吧。如果用IN ,必然会影响服务。

结论:

跟dba沟通过,理论上每秒能够支持5000次的查询量是比较正常的,但我用mysqlslap对单表100W的数据量进行了

测试,2000个client 每秒处理能力也只有700左右,

从第二种数据上看,当单机client达到2000时,每秒还能处理100次左右的查询,还是不错的。

下载本文
显示全文
专题