李沐-动手学深度学习(二-2)数据预处理

2022-04-07  本文已影响0人  minlover

【课后答疑】

tensor张量是数学中定义的概念,数组array是计算机中的一个概念。深度学习里混着用的。

新分配了y的内存,那么之前y的内存会自动释放吗?——python会给自动释放


chapter_preliminaries/pandas.ipynb

为了处理缺失的数据,典型的方法包括插值法删除法。其中插值法用一个替代值弥补缺失值,而删除法则直接忽略缺失值。

     NumRooms   Alley 

0      NaN            Pave  

1      2.0               NaN 

2      4.0               NaN

3      NaN            NaN

插值法可以用fillna()函数,把这里面所有NA(缺失值)用指定的值替换掉,比如用均值:

inputs = inputs.fillna(inputs.mean())

      NumRooms Alley

0      3.0              Pave

1      2.0               NaN

2      4.0               NaN

3      3.0               NaN

某一列是string类型,没有均值,就不会变。这种也可以将其视NaN视为一个类。

例如(“Alley”)列只有两种类型的值“Pave”和“NaN”, pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。

inputs = pd.get_dummies(inputs, dummy_na=True)

        NumRooms   Alley_Pave   Alley_nan

0      3.0                        1                        0

1      2.0                        0                        1

2      4.0                        0                        1

 3      3.0                        0                        1

现在inputs和outputs中的所有条目都是数值类型,它们可以转换为张量格式。

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)

X:(tensor([[3., 1., 0.],

        [2., 0., 1.],

        [4., 0., 1.],

        [3., 0., 1.]], dtype=torch.float64),

y:tensor([127500, 106000, 178100, 140000]))

传统的python一般默认浮点数为float64,但是64位浮点数对深度学习来说计算有点慢,通常用32位浮点数。


课后:pandas删除缺失值最多的列

# 方案一

#统计每一列的NaN,找出最多的,按列删掉(data不变)

data.drop(data.isnull().sum().idxmax(),axis=1)

# 方案二

#统计每一列非缺失值的个数,找出最小的,按列删掉,并替换原来的data(data变)

data.drop(data.count(axis='index').idxmin(),axis=1,inplace=True)

上一篇 下一篇

猜你喜欢

热点阅读