pandas 面试题挑战六
从Series的字符串中过滤出email地址
现有Series如下:
emails = pd.Series(['buying books at amazom.com', 'rameses@egypt.com', 'matt@t.co', 'narendra@modi.com'])
解决办法:
import re
pattern ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'
mask = emails.map(lambda x: bool(re.match(pattern, x)))
emails[mask]
结果如下:
1 rameses@egypt.com
2 matt@t.co
3 narendra@modi.com
dtype: object
重点解读:
这题的重点是对正则表达式的使用,这个建议还是先把pattern ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}'这个看懂,如果不懂就去学学正则吧,花点心思,问题不大。
mask = emails.map(lambda x: bool(re.match(pattern, x))), 这个重点是对map的理解,map就是把Series中的每个元素都交给内部的函数处理进行,获得一个mask。
然后根据mask做过滤就好了。
mask如下:
0 False
1 True
2 True
3 True
dtype: bool
把一个Series按照另外一个Series的元素进行分组,并求均值。
现有两个Series如下:
fruit = pd.Series(np.random.choice(['apple', 'banana', 'carrot'], 10))
weights = pd.Series(np.linspace(1, 10, 10))
print(weights)
print(fruit)
输出:
0 1.0
1 2.0
2 3.0
3 4.0
4 5.0
5 6.0
6 7.0
7 8.0
8 9.0
9 10.0
dtype: float64
0 banana
1 banana
2 carrot
3 apple
4 carrot
5 apple
6 banana
7 apple
8 apple
9 banana
dtype: object
现在把weights中的元素按照fruit的元素为进行分组,并求平均值
解决办法:
weights.groupby(fruit).mean()
输出:
apple 6.75
banana 5.00
carrot 4.00
dtype: float64
求两个Series的模值差
现有两个Series如下:
p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])
其实就是把p,q看成是两个向量,然后可以方便的使用np.linalg.norm()来解决问题。
p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])
np.linalg.norm(p-q)
结果如下:
18.16590212458495
找到出现最少的字符,并使用它填充字符串的空白位置
现有Series如下:
my_str = 'dbc deb abed gade'
找到出现最少的字符,并使用它填充字符串的空白位置。
解决如下:
ser = pd.Series(list('dbc deb abed gade'))
freq = ser.value_counts()
least_freq = freq.dropna().index[-1]
"".join(ser.replace(' ', least_freq))
结果如下:
'dbccdebcabedcgade'
重点解读:
freq = ser.value_counts(),首先通过ser.value_counts()计算出所有字符出现的频率。
least_freq = freq.dropna().index[-1], freq.dropna()可以删除关于空白的统计,然后找到索引的最后的位置,这个就是出现最少的字符。
"".join(ser.replace(' ', least_freq)),最后就容易了,通过ser.replace就搞定了。
创建Series,索引按照week 递进,值为随机数,范围1 - 10
产生类似的输出:
![](https://img.haomeiwen.com/i16485689/341d776134264930.png)
解决方式如下:
ser = pd.Series(np.random.randint(1,10,10),pd.date_range('2000-01-01', periods=10, freq='7D'))
ser
重点解读:
pd.date_range('2000-01-01', periods=10, freq='7D') 代表从'2000-01-01'开始,periods=10意味一共产生10个数据,freq='7D'频率是7天,D代表天。