Pandas使用

2018-12-30  本文已影响0人  洛奇lodge

描述:

导入模块
import pandas as pd
读取文件

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv

  # 一次加载数据
  pd.read_csv(文件路径)
  # 分批加载数据(设置chunksize参数)
  df = pd.read_csv(文件路径, chunksize=1000)
  for i in df:
  # 获取1000行的Dataframe数据
  print(i)
  # 分批加载数据(设置iterator参数)
  df = pd.read_csv(文件路径, iterator = True)
  # 可带参数,获取几行,get_chunk获取数据方式同样适合上面的
  print(df.get_chunk(10))

写入文件

 df_out.to_csv(文件路径, quoting=1, index=False, float_format='%.2f') 
合并表格

http://pandas.pydata.org/pandas-docs/stable/merging.html#merging

  df1 = pd.read_csv(文件1)
  df2 = pd.read_csv(文件2)
  # 两个表根据某个字段进行合并
  df_out = pd.merge(left=df1, right=df2, on='index', how='left')
分组聚合

http://pandas.pydata.org/pandas-docs/stable/groupby.html

  # 以md_tel字段分组,计算出各个字段分组总值,最大值,最小值,数量,平均值
  df_out['goods_num'] = df.groupby('md_tel').sum()['goods_num']
  df_out['last_day'] = df.groupby('md_tel').max()['order_time']
  df_out['first_day'] = df.groupby('md_tel').min()['order_time']
  df_out['buy_times'] = df.groupby('md_tel').count()['order_id']
  df_out['sentiment'] = df.groupby('md_tel').mean()['sentiment']
函数应用
    df_out['keywords'] = df_out['keywords'].apply(函数名) 
上一篇 下一篇

猜你喜欢

热点阅读