文本文件數據編碼
csv 逗號分割值
tsv 制表符tab分割值
hive默認是文本文件格式,默認的字段分隔符是^A,行分隔符是\n,可以指定
row format delimited
fileds terminated by ','
lines terminated by '\n'
stored as textfile
可以簡單地視為csv格式
二進制格式
stored as avro...seqencefile...parquet...orc
面向行的文件:avro seqencefile (可分割 可壓縮)
面向列的文件:rcfile parquet orc
特點
hive是讀時模式,不對數據控制
如果讀取到的字段個數少,則使用null值填充,另如果類型不匹配時也會返回null。