Golang基础(六)-- 大量字符串处理性能调优 String
今天在用golang做数据处理的时候出现了点问题,场景是这样的。
服务端定时去请求远端服务器拉取每日数据,数据量不是很大,在百万级左右。
拉取到的数据再经过简单数据校验和处理之后存入数据库。结果在执行这段代码的时候占用了将近3个G的内存。
在优化代码的时候发现了一个问题就是golang在处理大量string类型的时候并没有Interning,而在操作DB时又经常性的出现重复数据,导致内存没必要的浪费。
string interning(字符串驻留)的概念其实在java里会有接触,可以理解为一个常量池,在新建string的时候会查找有没有相同的unicode,有就把指针指过去。wiki原文中也写到了,在java中interning是一个默认的模式。
for example
[String.intern()]
in Java. All compile-time constant strings in Java are automatically interned using this method. --https://en.wikipedia.org/wiki/String_interning
·
git上发现了这么一个基于go的intern包,写法很简单,逻辑就可以理解为一个常量池,但是考虑到多线程map读写的坑以及性能问题就没有去用他。
https://github.com/josharian/intern/blob/master/intern.go
package intern
import "sync"
var (
pool sync.Pool = sync.Pool{
New: func() interface{} {
return make(map[string]string)
},
}
)
// String returns s, interned.
func String(s string) string {
m := pool.Get().(map[string]string)
c, ok := m[s]
if ok {
pool.Put(m)
return c
}
m[s] = s
pool.Put(m)
return s
}
// Bytes returns b converted to a string, interned.
func Bytes(b []byte) string {
m := pool.Get().(map[string]string)
c, ok := m[string(b)]
if ok {
pool.Put(m)
return c
}
s := string(b)
m[s] = s
pool.Put(m)
return s
}
这两天我研究一下这个包,把优化结果及string包的源码分析整理一下
https://godoc.org/github.com/chriso/go-intern
https://flaviocopes.com/golang-profiling/