PowerQuery

用PowerBI处理1069个csv文件,刷新一次耗时20分钟,

2019-04-03  本文已影响20人  PowerQuery
用PowerBI处理1069个csv文件,刷新一次耗时20分钟,占用内存5G

数据文件是1069个csv文件,文件体积280兆。共有42个查询:

用PowerBI处理1069个csv文件,刷新一次耗时20分钟,占用内存5G

大部分是powerbi desktop自动生成的查询(我偷懒)。主要的操作包括筛选、删除排在前面的若干行、提升标题、展开、条件判断等。刷新一次大概要20分钟,占用内存超过5G。主要耗时在要从14万个搜索词中匹配楼盘和地产商名字。

下面是处理的结果的一部分,主要是凑字数,内容不值一提(因为不严谨不科学),但我还是就数据进行了一些复读机式的总结:

用PowerBI处理1069个csv文件,刷新一次耗时20分钟,占用内存5G

在关注昆明开发商的人群中,有40%的人关注绿地,有20%的人关注俊发,有10%的人关注万科。绿地的关注度大约是俊发的2倍,俊发的关注度大约是万科的2倍,很有意思。

用PowerBI处理1069个csv文件,刷新一次耗时20分钟,占用内存5G

在关注昆明楼盘的人群中,有37%的人关注公园1903,有11%的人关注河畔俊园,有10%的人关注中央公园。印象中,公园1903是高端楼盘,难道昆明的富人那么多?

在关注度前十的楼盘中,俊发的楼盘最多,河畔俊园、观云海、澜湾俊园和生态半岛,都是俊发家的。

用PowerBI处理1069个csv文件,刷新一次耗时20分钟,占用内存5G

在关注昆明楼市的人群中,男性占比53.51%,女性占比46.49%。看来男人对房子的关注度稍微要多一些。

用PowerBI处理1069个csv文件,刷新一次耗时20分钟,占用内存5G

这个符合经验判断。35岁基本工作十来年,也成家立业了,应该攒了不少钱,无论是改善住房还是投资,这个群体肯定是中坚力量。25-34岁的人群占比27%,他们基本是适婚人群,应该对婚房有较强需求。

上一篇下一篇

猜你喜欢

热点阅读