GBase 8a V8版本通过python UDF获得操作系统磁盘可用空间的方法

GBase 8a 可以通过UDF扩展来访问操作系统级的资源,比如数据库所在目录剩余的空间。在V9版本里,提供了一个系统元数据表,而在V8里并没有自带这个功能。 本文介绍在支持python 的8.6.2.43版本里,通过UDF获得磁盘可用空间的一种方法。

参考

GBase 8a V95通过SQL获得集群服务状态
GBase 8a一个CUDF样例

查询磁盘可用空间的python UDF代码

熟悉python的可以看到函数体本身就是一段标准的python程序。入口参数是磁盘目录,返回是可用空间(字节)

use gclusterdb;
drop function if exists get_os_diskinfo_free_bytes;
create function get_os_diskinfo_free_bytes(mountPath varchar(200))
returns varchar
$$

def get_os_diskinfo_free_bytes(mountPath):
    try:
        import os
        stat=os.statvfs(mountPath)
        return stat.f_bsize * stat.f_bavail
    except:
        return None

return get_os_diskinfo_free_bytes(mountPath)

$$ language plpythonu;

如何返回每个计算节点的可用空间

为了确保每个计算节点都能返回一行数据,需要构造一个表,让每隔分片都且只有1行数据。

init.sh

# 初始化建表脚本
gccli -uroot  gclusterdb -vvv <<EOF
drop table if exists gclusterdb.alarm_one_row_per_node;
drop table if exists gclusterdb.data_node_info_tmp1;
drop table if exists gclusterdb.data_node_info_tmp2;
create table gclusterdb.alarm_one_row_per_node(node_ip varchar(20),distr_key int) distributed by('distr_key');
create table gclusterdb.data_node_info_tmp1(node_ip varchar(20),distr_key int) replicated;
create table gclusterdb.data_node_info_tmp2(node_ip varchar(20),distr_key int) distributed by('distr_key');
EOF

# 初始化数据
gcadmin |grep node|grep -v IpAddress|awk '{print $4}'|while read ip_add
do
    gccli -uroot  gclusterdb -vvv <<EOF
    insert into data_node_info_tmp1(node_ip) values('$ip_add');
EOF
done
for((i=1;i<=20;i++))
do
	gccli -uroot  gclusterdb -vvv <<EOF
    insert into data_node_info_tmp1 select * from data_node_info_tmp1;
EOF
done


gccli -uroot  gclusterdb -vvv <<EOF
    update data_node_info_tmp1 set distr_key=rowid;
	insert into data_node_info_tmp2(node_ip,distr_key) select * from data_node_info_tmp1;
	delete from data_node_info_tmp2 where rowid<>0;
EOF


gccli -uroot  gclusterdb -N  <<EOF |while read distr_key nodeid
select a.distr_key,b.nodeid+1 from data_node_info_tmp2 a inner join gclusterdb.nodedatamap b on crc32(distr_key)%65536=b.hashkey where b.data_distribution_id in(select max(data_distribution_id) from gclusterdb.nodedatamap);
EOF
do
host_ip=`gcadmin showdistribution |awk '{if($4=="'$nodeid'") print $2}'|head -1`
gccli -uroot  gclusterdb -vvv <<EOF
	update data_node_info_tmp2 set node_ip='$host_ip' where distr_key=$distr_key;
EOF
done

gccli -uroot  gclusterdb -vvv <<EOF
	insert into alarm_one_row_per_node(node_ip,distr_key) select * from data_node_info_tmp2;
    drop table data_node_info_tmp1;
    drop table data_node_info_tmp2;
EOF

查询生成的表

gbase> select * from gclusterdb.alarm_one_row_per_node;
+------------+-----------+
| node_ip    | distr_key |
+------------+-----------+
| 10.0.2.201 |         0 |
| 10.0.2.202 |         2 |
+------------+-----------+
2 rows in set (Elapsed: 00:00:00.00)

使用样例

如下以/opt为样例,查询保存/opt所在磁盘分区的可用磁盘空间,单位是字节

gbase> select node_ip,gclusterdb.get_os_diskinfo_free_bytes('/opt') from gclusterdb.alarm_one_row_per_node;
+------------+-----------------------------------------------+
| node_ip    | gclusterdb.get_os_diskinfo_free_bytes('/opt') |
+------------+-----------------------------------------------+
| 10.0.2.201 | 49581637632                                   |
| 10.0.2.202 | 49786064896                                   |
+------------+-----------------------------------------------+
2 rows in set (Elapsed: 00:00:00.22)

说明

python运行时占用的内存较高,请至少留下1G-2G的可用内存。另外不建议在高性能、频繁访问场景用python, 还是用C实现udf更好。

GBase 8a一个CUDF样例