数据处理中的数值初步转换

Posted on 2017-07-26(星期三) 16:04 in Data


分析基于kaggle-Titanic数据集

我们使用scikit learn进行建模预测, 而SK中的模型都只能处理数值型的数据,需要将原始的字符串类型的数据转为数值型数据。所有数据通常可以分成两种类型:定量定性。定量的属性(数值属性)通常蕴涵着可排序性,比如在泰坦尼克号数据集中,年龄就是一个定量属性。定性属性(标称 序数 二元属性)的值是一些符号或事务的名称,每个值代表某种类别编码或状态,不是可测量量,是不具有排序意义的,比如Embarked(登船地点)。

1.定性属性的数据变换

对于字符串型的定性属性转换,如果单纯的用数字来代替的化,比如对于Embarked的三个值S Q C分别用1 2 3来代替,模型会把它当成是有顺序的数值属性,对于一些根据距离来确定分类的算法来说,就不能准确运行啦。那么应该怎么将定性属性转为数字呢?

  • dummy varibles(不知道中文应该说成啥。。虚设属性?)

什么是dummy呢,举个栗子,Emarked属性的取值有三个S Q C,分别代表三个上船地点。dummy这个属性呢,就是向数据集里再加入三个属性暂且命名为Embarked_S Embarkde_Q 和Embarked_C,如果一个人是在S地点上船的,那么这三个属性的值就是(1,0,0),在Q点上船的就是(0,1,0),每个属性都是二元属性,1代表是,0代表否。所以dummy适用于值范围相对较少的属性。

import pandas as pd
#creat dummy varibles from raw data
dummies_df = pd.get_dummies(df.Embarked)
#remana the columns to Embarked_S...
dummies_df = dummies_df.rename(columns=lambda x:'Embarked_'+str(x))
df = pd.concat([df,dummies_df],axis=1)

这样就会3个dummy属性加到数据集里啦,用df.info()看一下.

  • factorizing(因子分解(把复杂计算分解为基本运算))

用dummy可以处理像Embarked这样的值域范围较小的标称属性。对于Cabin(船舱号,A43 B55这种)这种标称属性,用dummy就不好处理了。pandas提供了一个factorize()函数,用以将标称属性的字符串值映射为一个数字,相同的字符串映射为同一个数字。不同于dummy,这种映射最后只生成一个属性。对于Cabin属性,我们可以将其分成两部分,字符串+数字,新建两个属性。对于字符串(A-E & U),可以用factorize()将其处理成数字。

import re
df['CabinLetter'] = df['Cabin'].map( lambda x: re.compile("([a-zA-Z]+)").search(x).group() )
df['CabinLetter'] = pd.factorize(df.CabinLetter)[0]

上一步呢,只是把Cabin船舱号前面的字母提出来作为一个新的属性,船舱号中的数字当然也要提出来作为一个新的属性啦。

#plus one for laplace assumption
df['CabinNumber'] = df['Cabin'].map( lambda x: getCabinNumber(x) ).astype(int) +1
def getCabinNumber(cabin):
match = re.compile("([0-9]+)").search(cabin)
if match:
    return match.group()
else:
    return 0

2.定量属性的数据变换

  • 数据规范化

数据规范化通过将数据压缩到一个范围内(通常是0-1或者-1-1)赋予所有属性相等的权重。对于涉及神经网络的分类算法或者基于距离度量的分类和聚类,规范化特别有用。规范化方法有多种,如rescaling logarithmic normalize等,可以在这里找到各种规范化方法的具体实现。但是有些时候并不需要规范化,比如算法使用相似度函数而不是距离函数的时候,比如随机森林,它从不比较一个特征与另一个特征,因此也不许要规范化,关于这个问题,详细信息可以参考这篇文章http://www.faqs.org/faqs/ai-faq/neural-nets/part2/section-16.html

如果对Age属性进行规范化的话(看最后分类算法使用哪种再确定要不要规范化,如果要规范化的话,其他属性也要处理),代码如下:

if keep_scaled:
    scaler = preprocessing.StandardScaler()
    df['Age_Scaled'] = scaler.fit_transform(df['Age'])

StandardScaler将数值压缩到[-1,1]区间,计算公式为(2x - max(x) - min(x)) / (max(x) - min(x)).

  • Binning

就像直方图的bin将数据划分成几块一样,我们也可以将数值属性划分成几个bin,这是一种连续数据离散化的处理方式。我们使用pandas.qcut()函数来离散化连续数据,它使用分位数对数据进行划分,可以得到大小基本相等的bin。以下以Fare(船票价格)为例,对于其他连续属性如Age SibSp等也可以划分成bin。

def processFare():
    global df
    df['Fare'][df.Fare.isnull()] = df.Fare.dropna().mean()
    #zero values divide -- laplace
    df['Fare'][np.where(df['Fare']==0)[0]] = df['Fare'][df.Fare.nonzero()[0] ].min() / 10
    df['Fare_bin'] = pd.qcut(df.Fare, 4)

这样产生的df['Fare_bin']的值是这样的,

  • 0 [0.401, 7.91]
  • 1 (31, 512.329]
  • 2 (7.91, 14.454]
  • 3 (31, 512.329]
  • 4 (7.91, 14.454]
  • 5 (7.91, 14.454]

因为是bin,所以属性都是一个个区间,代表这个数据属于哪个区间。对于这样的数据,我们需要factorize下,转为数值型数据。

df['Fare_bin_id'] = pd.factorize(df.Fare_bin)[0]+1
scaler = preprocessing.StandardScaler()
df['Fare_bin_id_scaled'] = scaler.fit_transform(df.Fare_bin_id)

附录

Titanic 数据处理参考:

https://whuxgxj.github.io/article/kaggle-titanic-tutorial.html

kaggle-titanic数据集

https://www.kaggle.com/c/titanic/data