Apache Kylin我爱编程玩转大数据

浅谈Apache Kylin二次开发

2016-10-21  本文已影响1402人  司小幽

1、生产环境

Apache Kylin-1.5.3 for CDH
CDH 5.7
由于工作的需要,仅仅在页面操作Apache Kylin,其实时性以及所要花费的人力成本远远达不到预期的目的。

2、需求

需要对Apache kylin的Resetful API进行充分调研,开发一个类似客户端的功能,大致可以实现kafka更新到HBase中的数据可以实时或者定时地进行自动化的更新。

3、原始设计方案

总体设计分为两部分,第一部分为与kafka到HBase中程序对接的部分,第二个部分为与Kylin直接交互的部分。
整体说明:事实表即为主表,lookup表即为分表。

总体设计方案

HBase作为Hive的外表
Apache kylin web界面汉化
在整个设计的过程中,需要涉及到两份配置文件:
[图片上传中。。。(2)]配置文件说明

下面,分别以两张截图,对这两个配置文件做进一步的说明:
①配置文件1

以上图为例,此时在kylin中有一个名为cube3的cube,它包含Hive中test数据库的两张表OR1和OR3,其中OR3为事实表,OR1为lookup表,事实表的时间字段为approvaltime,事实表与lookup表的关联方式为left join,关联字段均为两表中的workflownumber字段,事实表与lookup表的主键均为id。配置文件中的不同的列间均以“\t”分隔,由上图不难看出,第一行第四列不存在SQL语句,第二行的第四列是有SQL语句的。这是为什么呢?其实是这样子的,为了适应实时refresh(cube)的需要,拟定一开始的segment以一个统一大时间段规定,但之后的segment均以天做区分。一个cube只对应一张事实表,所以kylin中的以天作为分区,说具体点,其实就是依据事实表的时间字段,然后再以时间作分区。再次回到上图,你会发现,第一行中的第一列与第三列的值是相等的,都是OR1,但第二行的第一列与第三列的值并不相等,它的第一列的值为OR3。之所以,出现这样的情况,是因为,kafka传过来的数据,既包含了事实表,又包含了lookup表,而配置文件中的第一列对应的就是kafka传过来的数据中待建模的表,而第三列对应的是,各表所对应的事实表。如果待建模的表如第一行所示,就是事实表,那么我需要刷新的对应的segment时间段,就是这个表本身带有的时间字段,毫无问题。但如果待建模的表是lookup表呢?能直接拿着它本身的时间字段去refresh或者build吗?显然不可以,因为之前说了,kylin中以天做分区,它的时间依据是事实表的时间字段,并不是lookup表的时间字段,所以需要通过第四列的SQL语句去查询该lookup表关联事实表的时间字段,自然第一行就不需要SQL语句了。
tip1:这里判断传过来的数据是分表还是主表,主要是对配置文件1进行处理,遍历按行读取,然后在每行的基础上再判断该行的第一列与第三列是否相等,相等则为事实表,无需查询,否则为lookup表,需要查询。具体实现的时候,一开始打算用二维数组,后来经同事提醒,二维数组每次比较的时候都需要遍历,开销太大,所以就转用HashMap了。具体的kylin查询语句如下,需要两个入参:SQL语句以及SQL中等于号后分表id具体值

public void testCubeQuery(String SQL,String lookupid) throws JSchException, IOException
{
String cmd = "curl -X POST -H \"Authorization: Basic QURNSU46S1lMSU4=\" -H 'Content-Type: application/json' -d '{\"sql\":\""+SQL+lookupid+"\",\"offset\":0,\"limit\":500,\"acceptPartial\":false, \"project\":\"Test\"}'  http://168.168.207.3:7070/kylin/api/query";
JschUtil.exec(cmd);
}

②配置文件2


配置文件2中包含2列,第一列为对应的需更新的数据时间,第二列为要更新数据对应事实表的名称。该数据源来自两处,其一是根据配置文件,判断更新数据为事实表数据后,直接将kafka传来的数据时间以及数据的表名写入配置文件2,否则则通过配置文件1中查得lookup表关联主表的时间字段,将其与主表名合并成'时间+“ ”+主表名’的格式写入配置文件。
设计的第一部分
旨在将kafka传来的数据,持久化到磁盘成为供更新的数据格式。这里的更新分为两种操作,对旧数据的Refresh,以及对新数据的AddSegment。
设计的第二部分
在更新的时候需要着重的注意的是两处。
其一:Kylin中的Refresh操作,是对一个cube中已有的segment进行Refresh,如果segment不存在,会报找不到某个segment的错误,因此会导致无法刷新。同时Refresh的时间点,也必须严格按照之前所建的进行操作,由于数据需要经常进行refresh,确保新增的segment可以以天区间长久存在,所以我们忍痛将kylin默认的7天一小merge,28天一大merge取消掉了。同时kylin中如果页面所建的segment是今天0点到次日0点,通过resetful api调用时,均要改为8点。为了较强的控制更新这一机制,使之模式化,我的思路是这样子的:
①首先对每个业务流程的数据,以统一的大segment建立一个cube,比如对应5个业务流程,分别建立5个cube,每个cube起初的build开始结束时间即最初的segment时间区间都为”1970-01-01 00:00:00”到“2016-09-18 00:00:00”,确保最开始大的segment的时间跨度包含当前所有数据的时间跨度。以后针对新增数据以新增数据对应的天数新建一个segment,比如新增数据为2016-09-20,则segment为“2016-09-20 00:00:00”到“2016-09-21 00:00:00”。这样子当kafka的数据持久化到文件中后,对文件中的数据大概会有三种操作:
**a、首先判断文件中的时间对应的segment在需要刷新的cube中是否存在,如果存在,说明要进行的是Refresh操作,否则进行的是新增及Build操作:
/*
*获取某个cube的信息,目的在于获取该cube已有的segment。
*/
public StringBuffer Cubeseg(String cubename) throws JSchException, IOException{
String cmd = "curl -X GET -H \"Authorization: Basic QURNSU46S1lMSU4=\" -H 'Content-Type: application/json' http://168.168.207.3:7070/kylin/api/cubes/"+cubename;
cubeseg=JschUtil.exec(cmd);
return cubeseg;
}

**b.判断是Refresh操作后,如果对应的segment的时间小于“2016-09-18”也即大segment的结束时间,则Refresh大segment,否则refresh小segment

/*
*Refresh原始的大segment,拟定大segment的起始时间为:1970-01-01 08:00:00,结束时间为:2016-09-012 08:00:00
*/
public StringBuffer RefreshOriginalCube(String ocube) throws ParseException {
SimpleDateFormat format = new SimpleDateFormat("yyyy-MM-dd hh:mm:ss");
try {
Date start = format.parse("1970-01-01 08:00:00");
Date end = format.parse("2016-09-18 08:00:00");
String cmd = "curl -X PUT -H \"Authorization: Basic QURNSU46S1lMSU4=\" -H 'Content-Type: application/json' -d '{\"startTime\":'"+start.getTime()+"', \"endTime\":'"+end.getTime()+"', \"buildType\":\"REFRESH\"}' http://168.168.207.3:7070/kylin/api/cubes/"+ocube+"/rebuild";
buffer1=JschUtil.exec(cmd);
}catch (JSchException e){
e.printStackTrace();
}catch (IOException e){
e.printStackTrace();
}
return buffer1;
}
/*
*Refresh以天做分区的小Segment,默认小Segment的起始时间为当天的0点,结束时间为次日0点。
*/
public StringBuffer RefreshCube(String rstarttime,String rendtime,String rcube) throws ParseException {
SimpleDateFormat format = new SimpleDateFormat("yyyy-MM-dd hh:mm:ss");
try {
Date start = format.parse(rstarttime+" "+"08:00:00");
Date end = format.parse(rendtime+" "+"08:00:00");
buffer2 = new StringBuffer();
String cmd = "curl -X PUT -H \"Authorization: Basic QURNSU46S1lMSU4=\" -H 'Content-Type: application/json' -d '{\"startTime\":'"+start.getTime()+"', \"endTime\":'"+end.getTime()+"', \"buildType\":\"REFRESH\"}' http://168.168.207.3:7070/kylin/api/cubes/"+rcube+"/rebuild";
buffer2=JschUtil.exec(cmd);}
catch (JSchException e){
e.printStackTrace();
}
catch (IOException e){
e.printStackTrace();
}
return buffer2;
}

其二:Segment的忙时等待设计:
①需求
每次读取数据,要检查该数据对应segment的状态,当查得有job在刷segment的时候,不能再刷,以防漏刷数据。
②问题
查询segment是通过查询cube信息获得segment信息,(以查询cube3信息为例)

public void testCube() throws JSchException, IOException
      {
String cmd = "curl -X GET -H \"Authorization: Basic QURNSU46S1lMSU4=\" -H 'Content-Type: application/json' http://168.168.207.3:7070/kylin/api/cubes/cube3";
JschUtil.exec(cmd);
}

经测试发现,如果某个cube中存在segment,则该segment的状态无论是cube在enable还是disable或者该seg是否正在刷新,都显示READY状态,不具有辨识性。

segment状态

③拟定解决方案
如果一个segment正在刷新,此时再请求刷新该segment时,返回的buf会提示overlap(重叠)信息,如下图所示:

overlap

可以先自定义个字符串(overlap),每次请求操作数据时,将返回的buf内容与该字符串进行比较,如果返回的buf中存在此字符串时,说明该数据对应的segment正在刷新,将这条数据存放到set集合中。匹配过程拟用如下代码实现:

package testone;
public class compare {
public static boolean containsAny(String str,String searchChars){
return str.contains(searchChars);
}
public static void main(String[] args){
String str="{\"url\":\"http://168.168.207.3:7070/kylin/api/cubes/cube3/rebuild\",\"exception\":\"Segments overlap: cube3[20140101000000_20150101155959] and cube3[20140101000000_20150101155959]\"}";
String searchChars="overlap";
boolean a=containsAny(str,searchChars);
System.out.println(a);
}
}

Compare

如果segment正在刷新的时候,连续来了多条该segment的数据,由于是set集合,只保留一条,因此不存在冗余,定时从徐铉的文件中得到数据去刷,并且set里面的内容也定时的去刷。Set的存在在这里起到了一个分流的作用,数据从文件中读取后,一批对应的segment没在进行的,拿去刷了,另外一批存到了set中,set本身也在遍历请求刷新,之前忙碌过段时间空闲的segment,也从set中拿去刷了,还忙碌的依旧保留,当然随着定时读取文件的操作,也会有新的数据源源不断的补充到set中,这样的一个闭环,目的在于,一个都不能少。
在第二部分,除了着重注意的两处,还有一些也是需要考虑的,就是对kylin job的监控措施,kylin对于job的监控,提供了2个api,但这两个api在kylin-1.5.3 for cdh里均涉及到job id,但获取job id的api,kylin却没有提供,所以这里我们采取的是改变kylin的源码,改变后的获取job id的方法如下:

/*
*获取某个cube中的所有job的id
*/
public StringBuffer  jobid(String cubename) throws JSchException, IOException {
StringBuffer job = new StringBuffer();
String cmd = "curl -X GET -H \"Authorization: Basic QURNSU46S1lMSU4=\" -H 'Content-Type: application/json' http://168.168.207.3:7070/kylin/api/jobs/list/OADepartment/"+cubename;
job= JschUtil.exec(cmd);
return job;
}

同时,为了提高程序的可用性,当程序崩溃了,可能Set集合待更新的数据就会丢失,我们又在遍历set前,将其持久化到了本地。

4、更新后的设计方案

更新后的设计方案对原始设计方案的第一部分以及配置文件的设置,没有大的改动,主要是对第二部分的刷新机制以及一些小的细节方面做了优化,这里,主要讲一下更新后的刷新机制。在原始设计方案中,对kafka到hbase中的数据,主要进行了3步操作,更新后减少为2步,通过一个返回bool值的方法,判断我要更新的数据,是否在对应cube中已经存在Segment,如果已经存在则执行Refresh操作,否则则执行Build操作。刷新的开始结束时间,如果是Refresh操作的话,则是该数据对应segment的开始结束时间,如果不是,则直接将数据的时间作为参数传进去,具体代码如下:

/*
*判断需要建模的表对应的segment是否在其对应cube中存在,存在则执行Refresh操作,否则则执行Build操作。
*/
public boolean useLoop(String cubename,String compare) throws JSONException, JSchException, IOException {boolean ok = false;json.jsonseg(cubename);for(int j=0;j0&&compare.compareTo(json.end1[j])<0);
starttime.put(compare,json.start1[j]);
endtime.put(compare, json.end1[j]);
ok=true;//如果存在,则将ok置为true
}
return ok;
}

这里if判断为最关键性地步骤,通过它来判断数据是进行Refresh还是Build操作。设置一个bool值变量ok,初始化为false,一旦数据对应的Segment已经在cube中存在,则置为true,在主函数中执行Refresh操作,否则为false时执行Build操作。
经过测试,发现方案一无论在性能上和功能上都存在一些不足,例如我有一个大的segment,其区间为1970-01-01~2016-09-12,这时候假设我们需要操作的数据为2个,其对应的时间分别为2016-04-20,2015-08-06,通过方案一的useLoop方法,会判断出这两条数据对应的segment已经存在,所以需要执行的均是refresh操作,但是它会执行两次,即2016-04-20会拿去refresh,这时候2015-08-06也会拿去refrsh,但是当后者做refresh请求时,发现该segment正在忙碌,因为去刷2016-04-20了,所以需要等待,2条其实在性能瓶颈上看的还不是特别明显,那100条呢?1000条呢?所以必须重新设计一个方案针对批量数据的处理。
方案2应运而生,并且该方案是我们最终采纳的方案,通过一个数据清洗方法-------cleanData,在请求kylin之前,对拿到的那个文件夹中的数据统一做一次处理,即将待刷新的数据放到一个refreshSet中,而新增数据则存放至addSegment中,之后只要分别遍历这两个set,再执行对应的请求就行了。具体方法如下:

/**
* 将经Kafka到HBase处理过后的数据分为需Refresh操作和需新增操作这两批
* @param cubeName
* @param dataTime
*/
public void cleanData(String cubeName, String dataTime) {
logger.info("cleanData" + ":" + cubeName + "--------" + dataTime);
json.compileSegmentJson(cubeName);
for (int j = 0; j < json.sSize; j++) {
if (dataTime.compareTo(json.segStartTime[j]) >= 0 && dataTime.compareTo(json.segEndTime[j]) < 0) {
refreshSet.add(json.segStartTime[j]);
refreshMap.put(json.segStartTime[j], json.segEndTime[j]);
CompareTime compareTime = new CompareTime(dataTime);
if (timeMap.get(json.segStartTime[j])==null) {
timeMap.put(json.segStartTime[j], new HashMap());
}

timeMap.get(json.segStartTime[j]).put(dataTime, compareTime);
}

else {
addSet.add(dataTime);
addMap.put(dataTime, time.getNextDate(dataTime));
    }
  }
}

其中方案2在功能以及可靠性上也做了一些改进,功能上,之前是将经kafka到HBase生成的数据文件,读到一个map中,以时间列为key值,以主表名为value值,但是一个key只能对应一个value,如果出现不同的表需要操作的数据时间相同,显然之前的设计就不适用,这里做了一点改进,将value即主表名读到一个map中,这样子,就可以在获取一个对应时间后,将它涉及到的所有主表都进行操作,具体操作如下:

Map <String,Map>  initMap = new HashMap>();
class MainTableInfo{
String table;
public MainTableInfo(String table) {
super();
this.table = table;
}
}
//读取处理kafka数据后生成的文件,读取完毕后删除
public  void readfile1(String file) {
String refreshFolderPath=file;
File file1 = new File(refreshFolderPath);
//获得当前文件夹所有的文件
String [] fileNames = file1.list();
FileInputStream fis = null;
InputStreamReader isr = null;
BufferedReader br = null;
String line = null;
List thisFileNames=new ArrayList();
Arrays.sort(fileNames);
for (int i = 0; i < fileNames.length; i++) {
if (!fileNames[i].contains("tmp")) {
thisFileNames.add(fileNames[i]);
}
}
//遍历读取文件
for (String fileName:thisFileNames){
try {
fis = new FileInputStream(refreshFolderPath+fileName);
isr = new InputStreamReader(fis);
br = new BufferedReader(isr);
}
catch (FileNotFoundException e) {
e.printStackTrace();
}
try {
while ((line = br.readLine()) != null) {
String[] infos = line.split(" ");
if (infos.length==2) {
String time = infos[0];
String maintablename = infos[1];
timeSet.add(time);
MainTableInfo mainTableInfo =new MainTableInfo(maintablename);
if (initMap.get(time)==null) {
initMap.put(time, new HashMap());
}
initMap.get(time).put(maintablename, mainTableInfo);
}
}
}
catch (IOException e){
e.printStackTrace();
}
finally {
try{
br.close();
isr.close();
fis.close();
}
catch (IOException e){
e.printStackTrace();
}
}
}
//删除这批读取的文件
for (String fileName:thisFileNames)
{
File sonFile=new File(refreshFolderPath+fileName);
sonFile.delete();
}
}

在可靠性上主要做了两点的改进
其一,之前是通过setfile将正在忙碌的数据持久化到本地,但是并未做删除操作,只是通过“覆盖写入”这种方式保证每次存放至它中的文件是最新一批需要等待的,但是这会引起一个问题,就是如果从kafka那边不来数据了,setfile中的值会保持不变,会一直拿去刷,但是只要可以成功刷一遍就行了哈,所以显然之前的设计是不合理的,所以对setfile又执行了一次删除操作,每次刷完删除,有新数据来了,才会生成,但这又陷入了性能和可靠性相博弈的永久话题中,如果加入这个删除操作,那么在程序读取后并删除到新的等待生成这一段时间中,程序挂掉了,那么原先的可靠性保障便不适用了。所以采取的是业内通用的方法-----冗余备份,将需要等待的数据写入两个文件,两个文件中的内容均为最近批次的待等待数据,一直读取删除其中一份,另一份只少一个删除步骤,这样如果程序挂了(只要不是运行第一次就挂了),我总可以得到最近一批次的待等待数据,可能在这最近一批次中也有一部分可以剔除了,但是为了可靠,冗余的体现就是,哪怕我的cube多刷一遍,我也不能让我的数据少更新一条!!!具体代码如下:

/**
* Segment忙时等待设计,将存放等待数据的waitSet持久化到本地
*/
public void waitSegment() {
for (String waiting : waitSet) {
logger.info("需要等待的数据为:" + "  " + waiting);
Map mainTableMap=rw.initMap.get(waiting);
if (mainTableMap!=null) {
Set mainTableSet=mainTableMap.keySet();
for (String mainTable:mainTableSet) {
waitBuffer.append(waiting + " " + mainTable + "\r\n");
}
}
}
String waitString = waitBuffer.toString();
logger.info(waitString);
//  rw.writeToSetFile("/xx/setfile.txt", waitString);// 将Set集合中的内容持久化到磁盘文件
//  rw.writeToSetFile("/xx/setfile1.txt", waitString);
rw.writeToSetFile("C://setfile.txt", waitString);
rw.writeToSetFile("C://setfile1.txt", waitString);
//清空相应的内容,包括buffer值、Set值以及Map
waitBuffer.setLength(0);
waitSet.clear();
rw.timeSet.clear();
refreshSet.clear();
addSet.clear();
refreshMap.clear();
addMap.clear();
rw.initMap.clear();
}

可靠性改动的另一方面在于,如果正在操作的segment,无论refresh或者add,出现错误,job状态变为ERROR时,如果不做处理,就会一直阻塞,该segment就会搁置,后续想对这个segment进行操作也不行,必须先discarded掉。所以新增了一个定时监听程序,遍历所有cube,如果发现某个job处于ERROR状态,则先discarded掉该job,然后重新执行该job对应的操作,具体代码如下:

public void run() {
json.compileCubeJson();
rw.readConfigFile("C://one.txt");
for(String cubeName : json.cubeSet){
json.compileJobJson(rw.cubeProject.get(cubeName), cubeName);
Map UuidMap=json.jobIdMap.get("ERROR");
if (UuidMap!=null) {
Set jobIdSet=UuidMap.keySet();
for (String jobIdSet1:jobIdSet) {
try {
je.discardJob(jobIdSet1);
} catch (JSchException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
String jobName=json.jobSegmentMap.get(jobIdSet1);
time.getSegmentTime(jobName);
if(judge.isSegmentExist(idata.refreshCube(time.startTime,time.endTime,cubeName).toString()));{
idata.addSegment(time.startTime,time.endTime,cubeName);
}
logger.info(time.startTime+"-------"+jobName);
}
}
}
}
}

5、注意事项

①Kylin-1.5.3 for CDH不支持一个Cube中的多个segment同时刷,需要修改源码;
②kylin-1.5.3 for CDH没有开放出获取job id的接口,同样需要修改源码。

6、参考文献

Kylin的RESTful API使用
apache kylin的二次开发

上一篇下一篇

猜你喜欢

热点阅读