优化文件加载从20s到3s

2017-02-25 本文已影响285人董泽润

背景

现在大多业务都使用机器学习，程序启动时加载训练好的模型文件，运行期也会触发模型的 reload。在程序启动时如果加载耗时比较长，那么程序自然有段时间不可服务(模型没有准备好)，但是运行期由于是双 buffer 切换，耗时长些也无所谓。

优化前

加载 14 个模型文件，并行加载，文件最小的几k，最大有 300m，加载时间取短板最长耗时 20s

优化后

对最大的四个文件，采用并行加载，耗时最大减少到 3s，优化完成

代码串行处理逻辑

原有单个文件也是串行处理逻辑

os.Open 打开文件
buf.ReadString 按行读取数据
根据业务需求，解析各个字段
追加到模型字典

这个逻辑非常简单，符合人的直觉思维，但同时也非常低效。

并行优化1

思路很简单：模型文件没有顺序，可以一次性全读到内存中，然后按行去并行解析，最后合并到字典，非常类似 MapReduce

ioutil.ReadFile 全部读到内存中
bytes.Split 根据 '\n' 分隔符打散
开启 n 个 goroutine 并行解析每行数据
合并到模型字典

第一次优化后耗时降为 10s，初步成效，但是仍然不理想。纺计每一步耗时后发现，对于最大 300m 的文件，bytes.Split 打散耗时 4s, 模型 Map 合并耗时 5s

并行优化2

和同事探讨下如何继续优化，对于 Map 无法并行。当前模型实现方式用单一 Map，如果加锁就和串行合并行为是一致的。当初始化 Map 指定大小时，合并时间从 5s 降到 2s，避免了 rehash copy 的开销，效果很明显。

另外 bytes.Split 打散耗时超长是没有想到的，看了下源码，内部两次遍历，耗时自然和数量成正比。同事提义将打散移到并行阶段，由每个 goroutine 去完成，预估并行数量，然后按 batch 打散。有几点需要注意：

无所提前知道总数据量大小，模型 Map 初始化要预估大小，按 30 byte 一行猜测即可
每个 gorouinte 划分数据也是不均等的，但一定要以 '\n' 分隔符打散，不能打数据截断

最后共耗时 3s，一次性加载内存维 150ms，并行解析 1s，合并 Map 2s

代码示例：

当前性价比最高的优化，如果大家有更好的方式可以共同交流一下，第一个是抽象的执行函数，第二个是示例使用方示

// ParallelLoadModelFile 并行加载模型文件
// @params  data         文件二进制数据
// @params  sep          分隔符
// @params  name         识别标记
// @params  parallel     并发数目, 一般不超过20, 过大没用
// @params  parse        用户处理函数
// @params  merge        用户合并函数
// 原类类似 MapReduce, 先将文件并行处理, 最后 reduce 合并。使用请参考 loadPassengerFeatures2
// 原则：尽量将耗时操作并行化
// 注意：
// 1. map 初始化时一定要指定大小，否则 rehash copy 成本非常高 测试 800W 条记录合并消耗 2s
// 2. 数据在 parse 和 merge 函数流动要用 channel, 具体类型及解析合并由调用方决定
// 3. 需要特殊处理行不能使用这个函数, 要单独处理
//
// 流程优化:
// 读文件 |  解析每行数据并写到map
// +------------------------+
//
// load内存并打散  分片     聚合
//             +-----+
// +--------+  |-----| +------+
//             +-----+
// load   打散分片 聚合
//
//        +----+
// +----+ |----| +---+
//        +----+
//
// 1. ioutil.ReadFile一次性读入内存 2. bytes.Split 按\n打散 3. 分片计算  4. 合并merge
// 在大文件时 bytes.Split 非常耗时, 将第2步移到并行阶段, 和3一起算。合并 map 非常耗时
// Map 操作只能串行, 并发也需要加锁来互斥, 等同于串行, 暂时没想到好的合并方法
func ParallelLoadModelFile(data []byte, sep []byte, name string, parallel int, parse func([]byte), merge func()) {
    if parallel <= 0 || parallel > 30 || parse == nil || merge == nil || len(sep) == 0 {
        panic("ParallelLoadModelFile params illegal")
    }

    var (
        wait  = sync.WaitGroup{} // sync
        size  = len(data)        // file size
        batch = size / parallel  // batch size
        num   = size/batch + 1   // parallel goroutine
        start = 0
        end   = batch
    )

    for i := 0; i < num; i++ {
        wait.Add(1)
        // 获取第一个 sep 所在的 index
        idx := bytes.Index(data[end:], sep)
        if idx == -1 {
            end = len(data) - 1
        } else {
            end += idx
        }

        go parse(data[start:end])

        start = end
        if (end + batch) < len(data) {
            end += batch
        } else {
            end = len(data) - 1
        }
    }

    go func() {
        for i := 0; i < num; i++ {
            merge()
            wait.Done()
        }
    }()

    // 同步阻塞，等待所有 MapReduce
    wait.Wait()
}

//加载小时特征 并行版本
func LoadHourGEOInfo2(model_data_center *ModelDataCenter, file_name string) error {
    now := time.Now().UnixNano()
    defer func() {
        logger.Info("load[%s] time=%dms", file_name, (time.Now().UnixNano()-now)/1e6)
    }()

    content, err := ioutil.ReadFile(file_name)
    if err != nil {
        logger.Error("ioutil readfile error, file_name=%s", file_name)
        return err
    }

    // 预估map大小
    model_data_center.HourGEOInfoData = make(map[string]DynamicDiscountGEOInfo, len(content)/30)

    // model 消息
    modelChan := make(chan map[string]DynamicDiscountGEOInfo, 10)

    // map 并行处理函数
    mapParse := func(content []byte) {
        var (
            data = bytes.Split(content, SepLine)
            m    = make(map[string]DynamicDiscountGEOInfo, len(data))
        )

        defer func() {
            // 将数据扔到 chan 待合并
            // 用 defer 防止遗望
            modelChan <- m
        }()

        for _, l := range data {

            line := string(l)
            // 兼容\r\n换行的情况
            line = strings.Replace(line, "\r", "", -1)
            list := strings.Split(line, ",")

            var hour_geo_info DynamicDiscountGEOInfo
            if len(list) != 8 && len(list) != 10 {
                logger.Warn("wrong fomat file=%s line=%s cols.Size=%d", file_name, line, len(list))
                continue
            }

            lng_lat, err := strconv.Atoi(list[0])
            if err != nil {
                logger.Warn("wrong format file=%s line=%s item=%d", file_name, line, 0)
                continue
            }
            hour, err := strconv.Atoi(list[1])
            if err != nil {
                logger.Warn("wrong format file=%s line=%s item=%d", file_name, line, 1)
                continue
            }
            hour_geo_key := GetGEOKey(hour, lng_lat, "HOUR", 0)
            hour_geo_info.StartGEOInfo.CarpoolNum, err = strconv.Atoi(list[2])
            if err != nil {
                logger.Warn("wrong format file=%s line=%s item=%d", file_name, line, 2)
                continue
            }
            hour_geo_info.StartGEOInfo.SucCarpoolNum, err = strconv.Atoi(list[3])
            if err != nil {
                logger.Warn("wrong format file=%s line=%s item=%d", file_name, line, 3)
                continue
            }
            hour_geo_info.StartGEOInfo.SucCarpoolRate, err = strconv.Atoi(list[4])
            if err != nil {
                logger.Warn("wrong format file=%s line=%s item=%d", file_name, line, 4)
                continue
            }
            hour_geo_info.DestGEOInfo.CarpoolNum, err = strconv.Atoi(list[5])
            if err != nil {
                logger.Warn("wrong format file=%s line=%s item=%d", file_name, line, 5)
                continue
            }
            hour_geo_info.DestGEOInfo.SucCarpoolNum, err = strconv.Atoi(list[6])
            if err != nil {
                logger.Warn("wrong format file=%s line=%s item=%d", file_name, line, 6)
                continue
            }
            hour_geo_info.DestGEOInfo.SucCarpoolRate, err = strconv.Atoi(list[7])
            if err != nil {
                logger.Warn("wrong format file=%s line=%s item=%d", file_name, line, 7)
                continue
            }

            if len(list) == 10 {
                hour_geo_info.StartGEOInfo.InComeRate, err = strconv.ParseFloat(list[8], 64)
                if err != nil {
                    logger.Warn("wrong format file=%s line=%s item=%d", file_name, line, 8)
                    continue
                }
                hour_geo_info.DestGEOInfo.InComeRate, err = strconv.ParseFloat(list[9], 64)
                if err != nil {
                    logger.Warn("wrong format file=%s line=%s item=%d", file_name, line, 9)
                    continue
                }
            } else {
                hour_geo_info.StartGEOInfo.InComeRate = -1.0
                hour_geo_info.DestGEOInfo.InComeRate = -1.0
            }
            // 更新 map
            m[hour_geo_key] = hour_geo_info
        }
    }

    // reduce 最终合并函数
    mergeReduce := func() {
        select {
        // merge model msg
        case m := <-modelChan:
            logger.Info("parallel load[%s]||line_num=%d", file_name, len(m))
            for k := range m {
                model_data_center.HourGEOInfoData[k] = m[k]
            }
        }
    }

    ParallelLoadModelFile(content, SepLine, file_name, 3, mapParse, mergeReduce)
    return nil
}

优化文件加载从20s到3s

背景

优化前

优化后

代码串行处理逻辑

并行优化1

并行优化2

代码示例：

猜你喜欢

热点阅读