GBase 8a 加载大量小文件时,通过NOSPLIT参数较少执行计划耗时

GBase 8a 数据库集群,在记载的执行计划阶段,要先获得每个加载文件的大小,然后接近容量平均的方式,分发个多个加载服务进行处理。如果文件很多,也很小,其耗时也将很多,甚至接近真正加载的耗时。通过NOSPLIT参数吗,可以去掉这个检测,直接按文件数量划分工作量。

参考

小文件一般指10M或100M以内的, 大量一般只几百以上的。

优点

减少了查询文件大小的耗时,提升了整体性能。

缺点

如果和大文件混用,则有可能各个加载服务工作量分布出现严重倾斜,比如几个大文件在最后,都分给最后一个加载服务了,最终反倒增加了时间。

该参数属于LOAD命令的参数之一,详细的语法请参考

GBase 8a 集群加载数据LOAD的方法