在前面文章中,我们介绍说Bitcoin网络通过PoW共识以及选择最长链为主链来逐步达到共识,使得网络中各节点本地的区块链最终保持一致;同时,交易时节点会根据解锁脚本与锁定脚本来保证安全支付。那么,区块是如何在节点之间“传播”,又如何被验证的?它在节点上又是如何被存储的呢?这些问题是在共识与安全之后,Bitcoin网络实现上的又一核心问题。从本文开始,笔者将通过展示Btcd (Bitcoin节点的Golong实现) 的源码,来和大家一起探索这些问题。之所以选择Btcd,而不是Bitcoin Core (C++) 实现,是为了避免C++(特别是C11)的一些语法给源码阅读带来的一些障碍;Go因其语法与代码语句比较简洁,可以让大家更多地专注于Btcd的实现,而不至于陷入语法及可能存在的繁琐实现上。

在介绍Bitcoin网络中的网络协议时,不可避免地会涉及到区块的处理、存储与读取,所以我们先开始介绍区块存储相关的话题。Bticoin Core与Btcd均采用了levelDB作为存储区块的数据库,它们都是K-V型数据库。然而,levelDB不支持transaction,故Btcd在levelDB之上封装了ffldb,实现了transaction和针对Block存储的封装。ffldb中关于DB、Bucket、Transaction的概念和接口定义基本沿袭了BoltDB的定义,为了更好地了解ffldb,本文将先介绍BoltDB。同时,Bitcoin钱包的Go实现btcwallet也是用BoltDB作为其底层数据库的。

“Bolt was originally a port of LMDB so it is architecturally similar. Both use a B+tree, have ACID semantics with fully serializable transactions, and support lock-free MVCC using a single writer and multiple readers.”

“Bolt is a relatively small code base (<3KLOC) for an embedded, serializable, transactional key/value database so it can be a good starting point for people interested in how databases work.”




func main() {
    // Open the database.
    db, err := bolt.Open(“test.db”, 0666, nil)
    if err != nil {
    defer os.Remove(db.Path())

    // Start a write transaction.
    if err := db.Update(func(tx *bolt.Tx) error {
        // Create a bucket.
        b, err := tx.CreateBucket([]byte("widgets"))
        if err != nil {
            return err

        // Set the value "bar" for the key "foo".
        if err := b.Put([]byte("foo"), []byte("bar")); err != nil {
            return err
        return nil
    }); err != nil {

    // Read value back in a different read-only transaction.
    if err := db.View(func(tx *bolt.Tx) error {
        value := tx.Bucket([]byte("widgets")).Get([]byte("foo"))
        return nil
    }); err != nil {

    // Close database to release file lock.
    if err := db.Close(); err != nil {

上述代码段首先调用Open()方法打开或者创建指定文件并得到了DB对象db,然后通过db.Update()方法写数据库,利用Update方法内创建并返回的读写Tx对象创建了一个名为"widgets"的Bucket,并在这个Bucket中添加了一对K/V记录(foo, bar),随后,通过db.View()方法读数据库,利用View方法内创建并返回的只读Tx对象查找名为widgets的Bucket中的Key为"foo"的记录,最后关闭数据库。在这个典型的调用示例中,涉及到了数据库文件的打开(创建)、关闭,Bucket的创建、查找,K/V记录的读写等,那BoltDB内部的数据库文件到底是什么样子的,如何对它进行读写,为什么需要通过Transaction去访问数据库,Bucket到底是什么,它们是如何组织K/V记录的,Bucket或者K/V是如何创建,如何查找的呢?我们将通过阅读其源码逐步揭示这些疑问。



// Open creates and opens a database at the given path.
// If the file does not exist then it will be created automatically.
// Passing in nil options will cause Bolt to open the database with the default options.
func Open(path string, mode os.FileMode, options *Options) (*DB, error) {
    var db = &DB{opened: true}


    // Open data file and separate sync handler for metadata writes.
    db.path = path
    var err error
    if db.file, err = os.OpenFile(db.path, flag|os.O_CREATE, mode); err != nil {
        _ = db.close()
        return nil, err

    // Lock file so that other processes using Bolt in read-write mode cannot
    // use the database  at the same time. This would cause corruption since
    // the two processes would write meta pages and free pages separately.
    // The database file is locked exclusively (only one process can grab the lock)
    // if !options.ReadOnly.
    // The database file is locked using the shared lock (more than one process may
    // hold a lock at the same time) otherwise (options.ReadOnly is set).
    if err := flock(db, mode, !db.readOnly, options.Timeout); err != nil {
        _ = db.close()
        return nil, err

    // Default values for test hooks
    db.ops.writeAt = db.file.WriteAt

    // Initialize the database if it doesn't exist.
    if info, err := db.file.Stat(); err != nil {
        return nil, err
    } else if info.Size() == 0 {
        // Initialize new files with meta pages.
        if err := db.init(); err != nil {
            return nil, err
    } else {
        // Read the first meta page to determine the page size.
        var buf [0x1000]byte
        if _, err := db.file.ReadAt(buf[:], 0); err == nil {
            m := db.pageInBuffer(buf[:], 0).meta()
            if err := m.validate(); err != nil {
                // If we can't read the page size, we can assume it's the same
                // as the OS -- since that's how the page size was chosen in the
                // first place.
                // If the first page is invalid and this OS uses a different
                // page size than what the database was created with then we
                // are out of luck and cannot access the database.
                db.pageSize = os.Getpagesize()
            } else {
                db.pageSize = int(m.pageSize)


    // Memory map the data file.
    if err := db.mmap(options.InitialMmapSize); err != nil {
        _ = db.close()
        return nil, err

    // Read in the freelist.
    db.freelist = newFreelist()

    // Mark the database as opened and return.
    return db, nil


  1. 创建DB对象,并将其状态设为opened;
  2. 打开或创建文件对象
  3. 根据Open参数ReadOnly决定是否以进程独占的方式打开文件,如果以只读方式访问数据库文件,则不同进程可以共享读该文件;如果以读写方式访问数据库文件,则文件锁将被独占,其他进程无法同时以读写方式访问该数据库文件,这是为了防止多个进程同时修改文件;
  4. 初始化写文件函数;
  5. 读数据库文件,如果文件大小为零,则对db进行初始化;如果大小不为零,则试图读取前4K个字节来确定当前数据库的pageSize。随后我们分析db的初始化时,会看到db的文件格式,可以进一步理解这里的逻辑;
  6. 通过mmap对打开的数据库文件进行内存映射,并初始化db对象中的meta指针;
  7. 读数据库文件中的freelist页,并初始化db对象中的freelist列表。freelist列表中记录着数据库文件中的空闲页。



// init creates a new database file and initializes its meta pages.
func (db *DB) init() error {
    // Set the page size to the OS page size.
    db.pageSize = os.Getpagesize()

    // Create two meta pages on a buffer.
    buf := make([]byte, db.pageSize*4)
    for i := 0; i < 2; i++ {
        p := db.pageInBuffer(buf[:], pgid(i))
        p.id = pgid(i)
        p.flags = metaPageFlag

        // Initialize the meta page.
        m := p.meta()
        m.magic = magic
        m.version = version
        m.pageSize = uint32(db.pageSize)
        m.freelist = 2
        m.root = bucket{root: 3}
        m.pgid = 4
        m.txid = txid(i)
        m.checksum = m.sum64()

    // Write an empty freelist at page 3.
    p := db.pageInBuffer(buf[:], pgid(2))
    p.id = pgid(2)
    p.flags = freelistPageFlag
    p.count = 0

    // Write an empty leaf page at page 4.
    p = db.pageInBuffer(buf[:], pgid(3))
    p.id = pgid(3)
    p.flags = leafPageFlag
    p.count = 0

    // Write the buffer to our data file.
    if _, err := db.ops.writeAt(buf, 0); err != nil {
        return err
    if err := fdatasync(db); err != nil {
        return err

    return nil


  1. 先分配了4个page大小的buffer;
  2. 将第0页和第1页初始化meta页,并指定root bucket的page id为3,存freelist记录的page id为2,当前数据库总页数为4,同时txid分别为0和1。我们将在随后对meta的介绍中说明各个字段的意义;
  3. 将第2页初始化为freelist页,即freelist的记录将会存在第2页;
  4. 将第3页初始化为一个空页,它可以用来写入K/V记录,请注意它必须是B+ Tree中的叶子节点;
  5. 最后,调用写文件函数将buffer中的数据写入文件,同时通过fdatasync()调用将内核中磁盘页缓冲立即写入磁盘。



// mmap opens the underlying memory-mapped file and initializes the meta references.
// minsz is the minimum size that the new mmap can be.
func (db *DB) mmap(minsz int) error {
    defer db.mmaplock.Unlock()

    info, err := db.file.Stat()
    if err != nil {
        return fmt.Errorf("mmap stat error: %s", err)
    } else if int(info.Size()) < db.pageSize*2 {
        return fmt.Errorf("file size too small")

    // Ensure the size is at least the minimum size.
    var size = int(info.Size())
    if size < minsz {
        size = minsz
    size, err = db.mmapSize(size)
    if err != nil {
        return err

    // Dereference all mmap references before unmapping.
    if db.rwtx != nil {

    // Unmap existing data before continuing.
    if err := db.munmap(); err != nil {
        return err

    // Memory-map the data file as a byte slice.
    if err := mmap(db, size); err != nil {
        return err

    // Save references to the meta pages.
    db.meta0 = db.page(0).meta()
    db.meta1 = db.page(1).meta()

    // Validate the meta pages. We only return an error if both meta pages fail
    // validation, since meta0 failing validation means that it wasn't saved
    // properly -- but we can recover using meta1. And vice-versa.
    err0 := db.meta0.validate()
    err1 := db.meta1.validate()
    if err0 != nil && err1 != nil {
        return err0

    return nil


  1. 获取db对象的mmaplock,这里大家可以先忽略它,我们后面再专门介绍DB对象中的锁;
  2. 通过db.mmapSize()确定mmap映射文件的长度,因为mmap系统调用时要指定映射文件的起始偏移和长度,即确定映射文件的范围;
  3. 通过munmap()将老的内存映射unmap;
  4. 通过mmap将文件映射到内存,完成后可以通过db.data来读文件内容了;
  5. 读数据库文件的第0页和第1页来初始化db.meta0和db.meta1,前面init()方法中我们了解到db的第0面和第1页确实写入的是meta;
  6. 对meta数据进行校验。



// mmap memory maps a DB's data file.
// Based on: https://github.com/edsrzf/mmap-go
func mmap(db *DB, sz int) error {
    if !db.readOnly {
        // Truncate the database to the size of the mmap.
        if err := db.file.Truncate(int64(sz)); err != nil {
            return fmt.Errorf("truncate: %s", err)

    // Open a file mapping handle.
    sizelo := uint32(sz >> 32)
    sizehi := uint32(sz) & 0xffffffff
    h, errno := syscall.CreateFileMapping(syscall.Handle(db.file.Fd()), nil, syscall.PAGE_READONLY, sizelo, sizehi, nil)

    // Create the memory map.
    addr, errno := syscall.MapViewOfFile(h, syscall.FILE_MAP_READ, 0, 0, uintptr(sz))


    // Convert to a byte array.
    db.data = ((*[maxMapSize]byte)(unsafe.Pointer(addr)))
    db.datasz = sz

    return nil



// mmap memory maps a DB's data file.
func mmap(db *DB, sz int) error {
    // Map the data file to memory.
    b, err := syscall.Mmap(int(db.file.Fd()), 0, sz, syscall.PROT_READ, syscall.MAP_SHARED|db.MmapFlags)

    // Save the original byte slice and convert to a byte array pointer.
    db.dataref = b
    db.data = (*[maxMapSize]byte)(unsafe.Pointer(&b[0]))
    db.datasz = sz
    return nil



这是一个模糊的样子,每一页内部的数据布局究竟是什么样的呢? 我们在db.init()中接触过meta及page的初始化过程,我们可以先从page的实现入手,来看看一个page的格式,然后再来分析meta页包含哪些数据。

// boltdb/bolt/page.go

const (
    branchPageFlag   = 0x01
    leafPageFlag     = 0x02
    metaPageFlag     = 0x04
    freelistPageFlag = 0x10


type pgid uint64

type page struct {
    id       pgid
    flags    uint16
    count    uint16
    overflow uint32
    ptr      uintptr



elements部分的格式根据不同的page类型而不同,我们先看看metaPage的格式,freeListPage的格式比较简单,读者可以自行分析,branchPageElement和leafPageElement与B+ Tree关系,我们将在后文详细介绍。


type meta struct {
    magic    uint32
    version  uint32
    pageSize uint32
    flags    uint32
    root     bucket
    freelist pgid
    pgid     pgid
    txid     txid
    checksum uint64




// write writes the meta onto a page.
func (m *meta) write(p *page) {

    // Page id is either going to be 0 or 1 which we can determine by the transaction ID.
    p.id = pgid(m.txid % 2)
    p.flags |= metaPageFlag

    // Calculate the checksum.
    m.checksum = m.sum64()



  1. 指定写入的页号为m.txid % 2,即第0或者第1页,这与我们之前看到的第0页或者第1页初始化为meta页是相符的。更重要的是,写入第0页还是第1页是由当前meta中的transction id决定的,若当前meta中的transaction id为偶数则写入第0页,若当前meta页的 transaction id为奇数则写入第1页。前面介绍说meta中的txid实际上可以看作是数据库的修改版本号,每次写时会增加1,也就是说每次写数据库后会交替更新meta页。如当前txid为10,它对应的meta存在第0页,当对数据库进行一次读写时,txid增加为11,写完后需要更新meta页,这时会将新的meta写入第1页,而不是覆盖原来的第0页,下次读写数据库时将会选择txid更大的meta页来提取meta信息。我们后面介绍读写数据库时会进一步介绍,这里先提一个问题供大家思考: boltdb为什么要维护两页meta(让我们称之为双meta)呢?
  2. 将页面flags设定为metaPageFlag,指明为一个meta页面;
  3. 将meta信息拷贝到页面p中缓存的相应位置,我们来看看这个位置是如何确定的:

// meta returns a pointer to the metadata section of the page.
func (p *page) meta() *meta {
    return (*meta)(unsafe.Pointer(&p.ptr))


到此, 我们就了解了boltdb数据库文件的创建过程及其文件格式。boltdb是以页为单位存储的,并包含起始的两个meta页,一个(或者多个)页来存空闲页的页号及剩下的分支页(branchPage)和叶子页(leafPage)。在创建一个boltdb文件时,通过fwrite和fdatasync系统调用向磁盘写入32K或者16K的初始文件;在打开一个botldb文件时,用mmap系统调用创建只读内存映射,用来读取文件中各页数据。


