浅谈ByteBuffer与ByteBuf
I/O
作为开发者,I/O是一定会遇到的。以常见的文件操作为例,原生的java代码如下:
// 基本字节流一次读写一个字节数组
public static void method2(String srcString, String destString)
throws IOException {
FileInputStream fis = new FileInputStream(srcString);
FileOutputStream fos = new FileOutputStream(destString);
byte[] bys = new byte[1024];
int len = 0;
while ((len = fis.read(bys)) != -1) {
fos.write(bys, 0, len);
}
fos.close();
fis.close();
}
用FileInputStream能完成基本的功能,但是会有一个问题就是,性能上还有优化的空间。
问题出在哪里?FileInputStream.read和FileOutputStream.write这两个方法,每次执行都会进行I/O操作,由于I/O操作是比较好资源的,频繁的操作必然导致性能上的问题。
为什么使用Buffer
上面我们讲到FileInputStream.read和FileOutputStream.write会频繁地进行I/O操作。为了解决这个阻塞的问题,引入了Buffer这个概念。
Buffer做了什么事情呢?有了Buffer以后,每次的读取,java会读取更多的数据到缓冲区里,下次再调用read方法时,如果缓冲区里的数据够了,就直接返回数据,不用再执行I/O操作。写入也是如此,通过这种方式,化零为整,减低了I/O操作的频率,提升效率。
buffer 的主要目的进行流量整形,把突发的大数量较小规模的 I/O 整理成平稳的小数量较大规模的 I/O,以减少响应次数(比如从网上下电影,你不能下一点点数据就写一下硬盘,而是积攒一定量的数据以后一整块一起写,不然硬盘都要被你玩坏了)。
// 高效字节流一次读写一个字节数组:
public static void method4(String srcString, String destString)
throws IOException {
BufferedInputStream bis = new BufferedInputStream(new FileInputStream(
srcString));
//为什么不传递一个具体的文件或者文件路径,而是传递一个OutputStream对象?
//因为字节缓冲区流仅仅提供缓冲区,为高效而设计的。真正的读写操作还是基本的流对象实现。
//构造方法可以指定缓冲区的大小,但是我们一般不用,默认缓冲区大小就够了
BufferedOutputStream bos = new BufferedOutputStream(
new FileOutputStream(destString));
byte[] bys = new byte[1024];
int len = 0;
while ((len = bis.read(bys)) != -1) {
bos.write(bys, 0, len);
}
bos.close();
bis.close();
}
ByteBuffer
上面介绍了BufferedOutputStream,在网络I/O方面,用的最多的就是ByteBuffer了。ByteBuffer的使用方式如下:
ByteBuffer byteBuffer = ByteBuffer.allocate(88);
String value = "netty";
byteBuffer.put(value.getBytes());
byteBuffer.flip();
byte[] valueArray = new byte[byteBuffer.remaining()];
byteBuffer.get(valueArray);
String decodeVaule = new String(valueArray);
但是JDK自带的ByteBuffer并不足够完美,它有以下缺陷:
- ByteBuffer长度固定,一旦分配完成,它的容量不能动态扩展和收缩,当需要编码的POJO对象大于ByteBuffer的容量时,会发生索引越界异常;
- ByteBuffer只有一个标识位控的指针position,读写的时候需要手工调用flip()和rewind()等,使用者必须小心谨慎地处理这些API,否则很容易导致程序处理失败;
- ByteBuffer的API功能有限,一些高级和实用的特性它不支持,需要使用者自己编程实现。
ByteBuf
大名鼎鼎的通信框架netty为了解决ByteBuffer的缺陷,重写了一个新的数据接口ByteBuf。
与ByteBuffer相比,ByteBuf提供了两个指针,分别记录读和写的操作位置。
初始分配的ByteBuf:
初始分配的ByteBuf
写入N个字节之后的ByteBuf:
写入N个字节之后的ByteBuf
读取M(<N)个字节之后的ByteBuf:
读取M(<N)个字节之后的ByteBuf
调用discardReadBytes操作之后的ByteBuf:
调用discardReadBytes操作之后的ByteBuf
调用clear操作之后的ByteBuf:
调用clear操作之后的ByteBuf
字节缓冲区
netty为了进一步优化提升性能,支持了堆外缓冲区。
属性 | Heap buffer | Direct Buffer |
---|---|---|
位置 | 堆内 | 堆外 |
内存分配速度 | 快 | 慢 |
内粗能回收速度 | 快 | 慢 |
Socket的I/O读写 | 需要额外的内存复制 | 不需要额外的内存复制 |
netty官方有一句描述了使用直接缓冲区的风险。
allocating many short-lived direct NIO buffers often causes an OutOfMemoryError.
为了更高效地使用堆外缓冲区,netty通过内存池和引用计数很好地绕开了Direct Buffer的劣势,发扬了它的优势。
关于zero copy
Netty的零拷贝体现在三个方面:
- Direct Buffers
- Composite Buffers
- FileChannel.transferTo
参考资料
Cache 和 Buffer 都是缓存,主要区别是什么?
IO、NIO、Netty
Using as a generic library
Netty中的零拷贝