建设工程信息网官网新网站,保安做网站,建站教学,电子ic网站建设clickhouse-client INSERT CSV/TSV时跳过错误行 在使用clickhouse-client向ck中导入csv文件时#xff0c;当csv中有个别行数据格式错误时#xff0c;整个文件就插入失败了#xff0c;经常会导致丢数据。 经过一番搜索#xff0c;发现ck提供了两个参数可以跳过错误行#x…clickhouse-client INSERT CSV/TSV时跳过错误行 在使用clickhouse-client向ck中导入csv文件时当csv中有个别行数据格式错误时整个文件就插入失败了经常会导致丢数据。 经过一番搜索发现ck提供了两个参数可以跳过错误行其他的行正常入库可以满足要求。
参数说明
input_format_allow_errors_num 设置从文本格式CSV、TSV等读取时可接受的最大错误数。
默认值为0。
如果在读取行时发生错误但错误数仍然小于input_format_allow_errors_num时则ck将忽略该行并转到下一行。
input_format_allow_errors_ratio 设置从文本格式CSV、TSV等读取时允许的最大错误百分比。错误百分比设置为介于0和1之间的浮点数。
默认值为0。
如果在读取行时发生错误但错误比率小于input_format_allow_errors_ratio则ck将忽略该行并转到下一行。
两个参数可以单独设置当超过阈值时才抛出错误。
也可以同时设置当两个阈值都超过时再抛出错误。
参数设置方式
在配置文件中设置
在配置文件中添加以下行即可是作用于整个ck的不建议这么配置。
input_format_allow_errors_num10000/input_format_allow_errors_num
input_format_allow_errors_ratio0.1/input_format_allow_errors_ratio在插入数据的时候配置
在插入时指定如下配置配置是针对本次插入的建议使用这种配置。
--input_format_allow_errors_num1
--input_format_allow_errors_ratio0.1使用案例
指定允许错误条数为10000错误比率为0.1
cat a.csv | clickhouse-client --host 127.0.0.1 --port 9000 --database default \
--user default --queryINSERT INTO tb_a FORMAT CSVWithNames \
--format_csv_delimiter| --input_format_allow_errors_num10000 \
--input_format_allow_errors_ratio0.1