Python

Python常用代码(1)

2020-07-12  本文已影响0人  兴富同学

编程是使用代码实现想法的过程,同一个想法可能反复用到的是同一部分的代码,现将这些代码保存在推送里,以便用到的时候备查。以下语言均为Python。

在cmd中输入如下代码,合并多个jupyter notebook文件。

nbmerge file_1.ipynb file_2.ipynb file_3.ipynb > merged.ipynb

以下代码用到的库。

import xlrd
import re
import sys
import pandas as pd

正则匹配。

re.match(r'Publications*', f) #返回True或者False

将打印在控制台内容导出到txt。

outputfile = open("./结果.txt","a")
sys.stdout = outputfile

使用xlrd获得数据(通常用来处理不规则的Excel表),关于xlrd,详细参考:https://www.cnblogs.com/insane-Mr-Li/p/9092619.html

filePath = 'my_sheets.xls'
data = xlrd.open_workbook(filePath)
table = data.sheets()[0]
​
rows = table.row_values(col_index, start_rowx=0, end_rowx=None) #获取特定行数据
cols = table.col_values(col_index, start_rowx=0, end_rowx=None) #取特定列数据
this_name = table.cell_value(0, 1) #获取某个单元格数据

去除有空值的行。

df = df.dropna(axis=0,subset=['source','type'],how='any')

将时间的字符串形式转化为时间戳格式。

time_df['date'] = pd.to_datetime(time_df['date'])

排序函数。

time_df.sort_values(by=['date'], ascending=True, inplace=True

读取时间戳的月份和季度。在https://www.jianshu.com/p/0b8dcbc2df33一文中对时间戳处理的各种函数。

time_df['period'] = time_df['date'].dt.to_period('M')
time_df['quarter'] = time_df['date'].dt.to_period('Q')

去除重复值。

df.drop_duplicates(subset=['作者id'],keep='first',inplace=True)

数据格式批量转换。

df['FWCI'] = df['FWCI'].astype(float)

去除带有空值的行或列。

data_df.dropna(axis=0,how='any',inplace=True) # axis=0去除行,axis=1去除列
上一篇下一篇

猜你喜欢

热点阅读