歡迎您光臨本站 註冊首頁

淺談Java讀取Csv實踐

←手機掃碼閱讀     火星人 @ 2014-03-09 , reply:0
Csv文件,逗號分隔的常用數據文件格式,默認可以用Office軟體打開.
維基百科對CSV的詳細描述:
http://zh.wikipedia.org/wiki/CSV
看項目中以前的處理方式是直接用用java IO類庫讀取Csv文件,實際處理中發現Csv文件本身包含了對各種特殊字元的處理信息.最常見的比如:
1. 對包含特殊字元的字元串數據首尾加雙引號
2. 對數據中的單個雙引號前加單個雙引號
其它...
所以用Java IO讀到的字元串全是經過處理后的字元串,在某些場景下是不符合預期需求的.比如我需要的是不做任何處理的原始內容.
項目中另一種常見的文件格式Excel用了POI來處理,但是POI不支持Csv格式,於是找到了javacsv.
代碼很簡單:
Java代碼
public List importCsv(String file) {
List list = new ArrayList();
CsvReader reader = null;
try {
//初始化CsvReader並指定列分隔符和字元編碼
reader = new CsvReader(file, ',', Charset.forName("GBK"));
while (reader.readRecord()) {
//讀取每行數據以數組形式返回
String[] str = reader.getValues();
if (str != null && str.length > 0) {
if (str[0] != null && !"".equals(str[0].trim())) {
list.add(str);
}
}
}
} catch (FileNotFoundException e) {
log.error("Error reading csv file.",e);
} catch (IOException e) {
log.error("",e);
}
finally{
if(reader != null)
//關閉CsvReader
reader.close();
}
return list;
}
以上代碼有幾個要點:
1 初始化CsvReader時指定分隔符和字元編碼,如果不指定,默認分別為逗號和ISO-8859-1,我用了GBK,具體使用時要看當時的字元編碼而定.
2 讀取每行數據,返回字元串數組,數組內的順序即文件數據列的順序
3 記得關閉CsvReader
是不是很簡單,返回的數組格式也正好是我想要的,拿到是原始的數據,沒有經過特殊字元處理.
有些童鞋質疑特殊字元未經處理,插到資料庫會出錯,其實大可不必我們手工處理,一些基礎組件比如JDBC的preparedstatement已經包含了對特殊字元的處理,我們只要以綁定參數的形式來傳送這些包含特殊字元的數據就可以.常用的持久化框架底層也封裝了JDBC,自然也對特殊字元做了處理.
附javacvs2.0.zip鏈接:http://shaka.iteye.com/blog/983282


[火星人 ] 淺談Java讀取Csv實踐已經有1103次圍觀

http://coctec.com/docs/java/show-post-60047.html