程序员说

解析Arff文件时对指针的一些思考

2015-02-08  本文已影响52人  鹏抟九万

这几天因为项目需要,写了个程序来解析arff文件。先解释一下什么事arff文件格式吧。Arff文件来源于Weka软件,Weka是一款用于数据挖掘的开源分析软件,而arff是weka指定的存储数据的文件格式。

Arff文件主要分为头文件和数据两部分,头文件部分说明了数据包括哪些属性,以及每一个属性的取值范围等信息。举个栗子:比如我们要记录一个班里的同学,能够想到会有Name,Gender,Height等属性,于是在arff文件里,能够看到这样的信息:

@ATTRIBUTE Name string

@ATTRIBUTE Gender {Male,Female}

@ATTRIBUTE Height real

可以看出来,头文件里每行第一个关键字@ATTRIBUTE表明这是一个属性,第二个关键字是属性的名称,比如Name,Gender,Height,第三部分是属性的取值范围,可能是个字符串string,可能是枚举型变量,也可能是个实数。

Arff文件的数据部分用@DATA开头,随后一行代表一个数据,紧跟上面的例子,数据部分会是这样的:

@DATA

Lily Female 160

Mitchel Male 175

Jack Male 178

介绍完了Arff文件,我的任务就是写一个程序分析arff文件。我的方法是建立一个arff文件结构体,里面包括两种小的结构体:”属性结构体”和“数据结构体”,就像这样:

属性结构体

struct ArffAttribute

{

char Name[16];

char Candidates[8];

ArffAttribute* Next;

};

数据结构体

struct ArffDataLine

{

char classType;

char* dataLine;

ArffDataLine* Next;

};

Arff文件结构体

struct ArffFile

{

ArffAttribute* FirstAttribute;

ArffAttribute* LastAttribute;

ArffAttribute* AttributeList;

ArffDataLine* FirstDataLine;

ArffDataLine* LastDataLine;

ArffDataLine* DataLineList;

int AttributeCount=0;

int DataLineCount=0;

};

ArffFile中用两种方式存储属性,第一种是用FirstAttribute和LastAttribute把属性按链表存储,第二种是用AttributeList把属性按照数组方式存起来。

今天在把属性链表转换成数组的时候卡住了,原因是我不清楚这个数组的元素应该是ArffAttribute,还是ArffAttribute的指针。过了一会才想明白了,由于我是把链表元素ArffAttribute保存的内容复制到数组里,所以数组的元素应该是ArffAttribute,而不是它的指针。如果我选择不是复制内容,而是原封不动的使用链表里本来就有的元素,由于这些元素在内存里不能移动,所以只能用指针指向他们,那么数组的内容就应该是指针。

今天写程序的时候在这里卡了好一会,在加上别的用指针的地方,一天里面起码有40%的时间用来思考指针的用法,或者调试指针带来的错误,特别消耗时间。记得大一的时候,教材里就写着指针是个非常危险的东西,最近一段时间对此深有体会,写程序时最需要考虑的就是指针的使用,而最容易出错的地方往往也是指针。所以平时写程序还是能避免就避免用指针吧~

上一篇下一篇

猜你喜欢

热点阅读