venus番外：利用python生成一百万模拟用户数据

2020-11-09 本文已影响0人开发小师傅

1. 目的

venus商城的项目，为了更加贴近真实场景，计划模拟1百万的虚拟用户数据。这是一个宏大计划的第一步，千里之行，始于足下，在这个项目中，希望可以将我所掌握的东西融汇贯通，并进一步扩展；在这个项目规划中，包括了分布式相关的技术、流式处理、大数据分析、以及前端、小程序等等。虽然连我自己都觉得这是在吹牛，是不可能实现的，但是话先放出去，万一将来真做成了呢！

2. 用户表相关

先从简单开始，电商项目的用户表，只要包含用户姓名、手机号、证件号、地址等信息就可以了，后续根据需要进行扩展。

// 用户表

{"userName":"李靖",

"sex":"M",

"phone":"16866668888",

"idNo":"120103xxxxxxxxxxxx",

"passwd":"uhng2343",

"address": {"province":"天津市","tag":"家","city":"天津市","district":"河西区","street_address":"陈塘关李府"},

"create_time":"2020.10.31 12:11:30"

}

3. python中的Faker库介绍

为了让模拟的数据更接近真实数据，这里引入一个python的库，Faker，地址：https://pypi.org/project/Faker/ 。使用它可以生成身份证号，手机号，地址，姓名等等，

关于这个库的详细教程，可以参照以下这篇文章：

https://zhuanlan.zhihu.com/p/87203290

以下是python使用Faker生成用户的方法（初学python，如果代码写的有毛病欢迎大家指正:) ）：

4. 用户表数据库存储

这个项目的第一张表是用户表，但是我没打算使用mysql做数据存储，我选择mongoDB。在很多人眼中，mongoDB更多是一个非关系型数据库，不可能成为一个项目的核心存储库，就像redis，es等一样，只能用来辅助。但是mongoDB其实在最新的版本中已经具备了承担核心库任务的条件：

mongoDB4.2以后的版本，不仅优化了性能，而且提供了关键的事务支持。相对mysql，mongoDB在功能上已经差异不大。

mongoDB的数据结构是json形式的，数据的存储更接近代码中的实体类对象，而且表结构的扩展简单，想像一下mysql中对千万级别的表增加字段是一个多个漫长的过程？！json可以嵌套，这样在mysql中需要多张表存储的数据，mongoDB只要一张就可以了。

下面定义一个方法，将用户表的数据写入mongoDB

import pymongo

def insert_user():

client = pymongo.MongoClient('mongodb://flnn:flnn1110@192.168.3.152:27017')

database = client['venus']foriinrange(100):

user = generate_user()

database['user'].insert_one(user)

下面就是执行了：

insert_user()

5. 效率提升

原本设想得很美好，我只要将上面for循环中的100改为100万，然后静静地等待它执行完就可以了，但是实际结果是程序跑了近5个小时，数据库中才插入了30多万的数据，这个效率实在是。。。（想我以前使用java往mongoDB中插入数据的时候，可是能够一个小时插入1千万的呀）

那么考虑下python的多线程吧，我的电脑是4核8线程的，将程序改成多线程执行：

注意这里的target参数的值不要写成insert_user()，加上括号之后，就变成了将insert_user的执行结果传递给target了，那是完全不对的。

不过上面多线程的执行效率，经过对比，似乎也没有提升8倍速度，不过总算有些效果。python程序如何提升执行效率，目前能想到的就是这个手段了，其他的也许可以从mongoDB的插入方法上改进一下，比如逐条插入修改为批量插入。

万里长征的第一步总算走出去了，下一步，就是构建程序主体啦。