洗洗睡了 | 决定放弃python连hive和presto
2020-05-27 本文已影响0人
Burke_liu
洗澡和失眠,是人类的想法最发散的时候。把想法记下来,就可以轻松的洗洗睡了。
晚上7点回来睡觉,不到八点就睡好了回公司,精神很好。
很好的状态下就开始作死:尝试用python链接hive。
出发点是好的:自动作业未来的sql,然后自动写入excel(特别是避免今天出现的skucode和provider_code会被自动数字化,而需要额外进行处理的情况)
但是安装好pyhive之后,卡在sasl的安装上。折腾了两个小时,发现中间不知道什么时候居然被封了IP和账号,难怪一直没有recall
明天要去跪求数据团队的同事们帮忙恢复账号了,要是能够得到他们指点,成功连接上hive倒也还好;不然的话就放弃吧,毕竟手动操作也没有费多少劲,而且语法不通的地方终究还是语法不通。
多花些时间在pandas的数据梳理上吧。今天欣喜的应用了条件筛选,满足了“根据某一列的某个条件选择某些行记录”的需求,还学会了一个简单的跨列赋值操作。(也是多亏了昨天晚上睡觉前紧张的“学习成果”)
想想看之后更重要的是优先学习哪些pandas或者numpy的列处理把:
- 1、vlookup
- 2、去重
- 3、分组求和
- 4、数据透视表