venus番外:利用python生成一百万模拟用户数据

2020-11-09  本文已影响0人  开发小师傅

1. 目的

venus商城的项目,为了更加贴近真实场景,计划模拟1百万的虚拟用户数据。这是一个宏大计划的第一步,千里之行,始于足下,在这个项目中,希望可以将我所掌握的东西融汇贯通,并进一步扩展;在这个项目规划中,包括了分布式相关的技术、流式处理、大数据分析、以及前端、小程序等等。虽然连我自己都觉得这是在吹牛,是不可能实现的,但是话先放出去,万一将来真做成了呢!

2. 用户表相关

先从简单开始,电商项目的用户表,只要包含用户姓名、手机号、证件号、地址等信息就可以了,后续根据需要进行扩展。

// 用户表

{"userName":"李靖",

"sex":"M",

"phone":"16866668888",

"idNo":"120103xxxxxxxxxxxx",

"passwd":"uhng2343",

"address": {"province":"天津市","tag":"家","city":"天津市","district":"河西区","street_address":"陈塘关李府"},

"create_time":"2020.10.31 12:11:30"

}

3. python中的Faker库介绍

为了让模拟的数据更接近真实数据,这里引入一个python的库,Faker,地址:https://pypi.org/project/Faker/ 。使用它可以生成身份证号,手机号,地址,姓名等等,

关于这个库的详细教程,可以参照以下这篇文章:

https://zhuanlan.zhihu.com/p/87203290

以下是python使用Faker生成用户的方法(初学python,如果代码写的有毛病欢迎大家指正:) ):

4. 用户表数据库存储

这个项目的第一张表是用户表,但是我没打算使用mysql做数据存储,我选择mongoDB。在很多人眼中,mongoDB更多是一个非关系型数据库,不可能成为一个项目的核心存储库,就像redis,es等一样,只能用来辅助。但是mongoDB其实在最新的版本中已经具备了承担核心库任务的条件:

mongoDB4.2以后的版本,不仅优化了性能,而且提供了关键的事务支持。相对mysql,mongoDB在功能上已经差异不大。

mongoDB的数据结构是json形式的,数据的存储更接近代码中的实体类对象,而且表结构的扩展简单,想像一下mysql中对千万级别的表增加字段是一个多个漫长的过程?!json可以嵌套,这样在mysql中需要多张表存储的数据,mongoDB只要一张就可以了。

下面定义一个方法,将用户表的数据写入mongoDB

import pymongo

def insert_user():

       client = pymongo.MongoClient('mongodb://flnn:flnn1110@192.168.3.152:27017')   

       database = client['venus']foriinrange(100):       

       user = generate_user()       

       database['user'].insert_one(user)

下面就是执行了:

insert_user()

5. 效率提升

原本设想得很美好,我只要将上面for循环中的100改为100万,然后静静地等待它执行完就可以了,但是实际结果是程序跑了近5个小时,数据库中才插入了30多万的数据,这个效率实在是。。。(想我以前使用java往mongoDB中插入数据的时候,可是能够一个小时插入1千万的呀)

那么考虑下python的多线程吧,我的电脑是4核8线程的, 将程序改成多线程执行:

注意这里的target参数的值不要写成insert_user(),加上括号之后,就变成了将insert_user的执行结果传递给target了,那是完全不对的。

不过上面多线程的执行效率,经过对比,似乎也没有提升8倍速度,不过总算有些效果。python程序如何提升执行效率,目前能想到的就是这个手段了,其他的也许可以从mongoDB的插入方法上改进一下,比如逐条插入修改为批量插入。

万里长征的第一步总算走出去了,下一步,就是构建程序主体啦。

上一篇 下一篇

猜你喜欢

热点阅读