1 什么是Apache POI
2 Apache POI的組件
3 安裝Apache POI
4 使用POI操作Word文檔
1 什么是Apache POI
全稱Apache POI,使用Java編寫的免費開源的跨平臺的Java API。 是創建和維護操作各種符合 Office Open XML(OOXML)標準和微軟的 OLE 2 復合文檔格式(OLE2)的 Java API。用它可以使用 Java 讀取和創建, 修改 MS Excel 文件. 而且, 還可以使用 Java 讀取和創建 MS Word 和 MSPowerPoint 文件。Apache POI 提供 Java 操作 Excel 解決方案(適用于 Excel97-2008)。
2 Apache POI的組件
Apache POI包含用于MS-Office的所有OLE2復合文檔的類和方法。 此API的組件列表如下:
- POIFS:此組件是所有其他POI元素的基本因素。 它用于顯式讀取不同的文件。
- HSSF:用于讀取和寫入.xls格式的MS-Excel文件。
- XSSF(XML SpreadSheet格式):用于MS-Excel的.xlsx文件格式。
- HPSF:用于提取MS-Office文件的屬性集。
- HWPF:用于讀取和寫入MS-Word的.doc擴展文件。
- XWPF(XML字處理器格式):用于讀取和寫入MS-Word的擴展文件 .docx 。
- HSLF:用于閱讀,創建和編輯PowerPoint演示文稿。
- HDGF(Horrible DiaGram格式):它包含MS-Visio二進制文件的類和方法。
- HPBF(Horrible PuBlisher格式):用于讀取和寫入MS-Publisher文件。
3 安裝Apache POI
使用Maven依賴的方式,主要是下面三個依賴。
操作docx文檔需要的jar包有6個:dom4j.jar,poi-ooxml-3.10-FINA.jar,poi-ooxml-schemas-3.10-FINA.jar,xmlbean-2.3.0.jar,commons-lang.jar以及ooxml-schemas-1.1.jar
操作doc文檔需要的jar包有poi-3.10-FINAL.jar,poi-scratchpad-3.10-FINA.jar其中操作doc文檔對模板的依賴很大,功能相對操作docx的接口很弱。
<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi</artifactId>
<version>3.17</version>
</dependency>
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-ooxml</artifactId>
<version>3.17</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.poi/ooxml-schemas -->
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>ooxml-schemas</artifactId>
<version>1.1</version>
</dependency>
4 使用POI操作Word文檔
主要是使用POI操作Word文檔,主要是寫入文檔操作的講解:將網頁中的數據導出,自動生成指定格式的Word文檔。
4.1 效果展示
(1)在網站中選擇需要導出的新聞,生成Word
(2)生成的Word展示
從上面可以看出,導出的文檔含有:
- 有指定格式的標題、時間、編著者等信息;
- 會自動生成目錄;
- 有內容詳情頁;
4.2 功能實現介紹
4.2.1 前提知識:
(1)官方API文檔地址
官方文檔中主要包括Java操作Office文檔的常用類,里面封裝了常用的:讀、寫、設置格式等方法。
例如:操作Word07之后的版本主要是使用XWPFDocument這個對象。
(2)另外,當現有的功能不能滿足要求,你需要對現有功能進行重寫時。有一個很重要的東西就是ooxml。簡單的說,這個就是微軟公布的一套使用XML操作Word的開放的標準。詳情見下面網址:
http://www.datypic.com/sc/ooxml/s-wml.xsd.html
4.2.2 功能實現說明
(1)功能的整體UML圖如下:
(2)生成單文檔
基本的格式設置、寫入數據等生成單文檔的功能都不難,耐心的對照這官方API去看,基本就可以實現。
下面貼一個生成單文檔的例子:
效果:
代碼如下:基本的注釋都有,自己跑一下就懂了
public void write2Docx()throws Exception{
XWPFDocument document= new XWPFDocument();
//Write the Document in file system
FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_table.docx"));
//添加標題
XWPFParagraph titleParagraph = document.createParagraph();
//設置段落居中
titleParagraph.setAlignment(ParagraphAlignment.CENTER);
XWPFRun titleParagraphRun = titleParagraph.createRun();
titleParagraphRun.setText("Java PoI");
titleParagraphRun.setColor("000000");
titleParagraphRun.setFontSize(20);
//段落
XWPFParagraph firstParagraph = document.createParagraph();
XWPFRun run = firstParagraph.createRun();
run.setText("Java POI 生成word文件。");
run.setColor("696969");
run.setFontSize(16);
//設置段落背景顏色
CTShd cTShd = run.getCTR().addNewRPr().addNewShd();
cTShd.setVal(STShd.CLEAR);
cTShd.setFill("97FFFF");
//換行
XWPFParagraph paragraph1 = document.createParagraph();
XWPFRun paragraphRun1 = paragraph1.createRun();
paragraphRun1.setText("\r");
//基本信息表格
XWPFTable infoTable = document.createTable();
//去表格邊框
infoTable.getCTTbl().getTblPr().unsetTblBorders();
//列寬自動分割
CTTblWidth infoTableWidth = infoTable.getCTTbl().addNewTblPr().addNewTblW();
infoTableWidth.setType(STTblWidth.DXA);
infoTableWidth.setW(BigInteger.valueOf(9072));
//表格第一行
XWPFTableRow infoTableRowOne = infoTable.getRow(0);
infoTableRowOne.getCell(0).setText("職位");
infoTableRowOne.addNewTableCell().setText(": Java 開發工程師");
//表格第二行
XWPFTableRow infoTableRowTwo = infoTable.createRow();
infoTableRowTwo.getCell(0).setText("姓名");
infoTableRowTwo.getCell(1).setText(": seawater");
//表格第三行
XWPFTableRow infoTableRowThree = infoTable.createRow();
infoTableRowThree.getCell(0).setText("生日");
infoTableRowThree.getCell(1).setText(": xxx-xx-xx");
//表格第四行
XWPFTableRow infoTableRowFour = infoTable.createRow();
infoTableRowFour.getCell(0).setText("性別");
infoTableRowFour.getCell(1).setText(": 男");
//表格第五行
XWPFTableRow infoTableRowFive = infoTable.createRow();
infoTableRowFive.getCell(0).setText("現居地");
infoTableRowFive.getCell(1).setText(": xx");
CTSectPr sectPr = document.getDocument().getBody().addNewSectPr();
XWPFHeaderFooterPolicy policy = new XWPFHeaderFooterPolicy(document, sectPr);
//添加頁眉
CTP ctpHeader = CTP.Factory.newInstance();
CTR ctrHeader = ctpHeader.addNewR();
CTText ctHeader = ctrHeader.addNewT();
String headerText = "ctpHeader";
ctHeader.setStringValue(headerText);
XWPFParagraph headerParagraph = new XWPFParagraph(ctpHeader, document);
//設置為右對齊
headerParagraph.setAlignment(ParagraphAlignment.RIGHT);
XWPFParagraph[] parsHeader = new XWPFParagraph[1];
parsHeader[0] = headerParagraph;
policy.createHeader(XWPFHeaderFooterPolicy.DEFAULT, parsHeader);
//添加頁腳
CTP ctpFooter = CTP.Factory.newInstance();
CTR ctrFooter = ctpFooter.addNewR();
CTText ctFooter = ctrFooter.addNewT();
String footerText = "ctpFooter";
ctFooter.setStringValue(footerText);
XWPFParagraph footerParagraph = new XWPFParagraph(ctpFooter, document);
headerParagraph.setAlignment(ParagraphAlignment.CENTER);
XWPFParagraph[] parsFooter = new XWPFParagraph[1];
parsFooter[0] = footerParagraph;
policy.createFooter(XWPFHeaderFooterPolicy.DEFAULT, parsFooter);
document.write(out);
out.close();
}
(3) 重點說一說,目錄的生成
在API中是提供自動生成目錄方法的。
但這個方法很難在實際應用,舉例說明:
生成代碼如下:
public void writeTOC() throws IOException {
XWPFDocument document= new XWPFDocument();
//Write the Document in file system
FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_toc.docx"));
//添加標題
XWPFParagraph titleParagraph = document.createParagraph();
//設置段落居中
titleParagraph.setAlignment(ParagraphAlignment.CENTER);
XWPFRun titleParagraphRun = titleParagraph.createRun();
titleParagraphRun.setText("Java PoI");
titleParagraphRun.setColor("000000");
titleParagraphRun.setFontSize(20);
//段落
XWPFParagraph firstParagraph = document.createParagraph();
firstParagraph.setStyle("Heading1");
XWPFRun run = firstParagraph.createRun();
run.setText("段落1。");
run.setColor("696969");
run.setFontSize(18);
//段落
XWPFParagraph firstParagraph1 = document.createParagraph();
firstParagraph.setStyle("Heading1");
XWPFRun run1 = firstParagraph1.createRun();
run1.setText("段落2");
run1.setColor("696969");
run1.setFontSize(16);
document.createTOC();
document.write(out);
out.close();
}
可以看出,目錄存在如下問題:
- 沒有中文的目錄兩個字,是英文的Table of Contents。
- 目錄生成的位置不合適,因為createTOC源碼方法實際上是讀取文檔中被
Heading1
修飾的部分,所以若該語句放在前面,則無法生成目錄。
導致問題的源碼如下:
- 沒有中文目錄二字。
- 讀取文檔中被
Heading1
修飾的部分,作為目錄。
所以,需要自定義目錄類。下面是我自定義的生成目錄的類,下面代碼的效果僅僅是生成了目錄兩個字:
public CustomTOC(CTSdtBlock block) {
this.block = block;
CTSdtPr sdtPr = block.addNewSdtPr();
CTDecimalNumber id = sdtPr.addNewId();
id.setVal(new BigInteger("4844945"));
sdtPr.addNewDocPartObj().addNewDocPartGallery().setVal("Table of contents");
CTSdtEndPr sdtEndPr = block.addNewSdtEndPr();
CTRPr rPr = sdtEndPr.addNewRPr();
CTFonts fonts = rPr.addNewRFonts();
fonts.setAsciiTheme(STTheme.MINOR_H_ANSI);
fonts.setEastAsiaTheme(STTheme.MINOR_H_ANSI);
fonts.setHAnsiTheme(STTheme.MINOR_H_ANSI);
fonts.setCstheme(STTheme.MINOR_BIDI);
rPr.addNewB().setVal(STOnOff.OFF);
rPr.addNewBCs().setVal(STOnOff.OFF);
rPr.addNewColor().setVal("auto");
rPr.addNewSz().setVal(new BigInteger("24"));
rPr.addNewSzCs().setVal(new BigInteger("24"));
CTSdtContentBlock content = block.addNewSdtContent();
CTP p = content.addNewP();
p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
p.addNewPPr().addNewPStyle().setVal("TOCHeading");
p.addNewR().addNewT().setStringValue("目 錄");//源碼中為"Table of contents"
//設置段落對齊方式,即將“目錄”二字居中
CTPPr pr = p.getPPr();
CTJc jc = pr.isSetJc() ? pr.getJc() : pr.addNewJc();
STJc.Enum en = STJc.Enum.forInt(ParagraphAlignment.CENTER.getValue());
jc.setVal(en);
//"目錄"二字的字體
CTRPr pRpr = p.getRArray(0).addNewRPr();
fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts();
fonts.setAscii("Times New Roman");
fonts.setEastAsia("華文中宋");
fonts.setHAnsi("華文中宋");
//"目錄"二字加粗
CTOnOff bold = pRpr.isSetB() ? pRpr.getB() : pRpr.addNewB();
bold.setVal(STOnOff.TRUE);
// 設置“目錄”二字字體大小為24號
CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz();
sz.setVal(new BigInteger("36"));
}
如此,第一個問題解決,中文的目錄二字已經有了。而這段代碼就已經涉及到我上面說的第二個重點:ooxml,即使用xml語言來操作文檔。如果不去了解這個,上面的代碼有很多是看不懂的。這個就需要自己去閱讀那個網站上xml的說明了。
上面語句對應的xml如下:
第二個問題(目錄的位置和樣式都不合適)的解決就需要更需要涉及ooxml了
首先直接上效果和代碼
添加不帶頁數的大字欄目
public void addRowOnlyTitle(int level, String title) {
CTSdtContentBlock contentBlock = this.block.getSdtContent();
CTP p = contentBlock.addNewP();
p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
CTPPr pPr = p.addNewPPr();
pPr.addNewPStyle().setVal("TOC" + level);
CTTabs tabs = pPr.addNewTabs();//Set of Custom Tab Stops自定義制表符集合
CTTabStop tab = tabs.addNewTab();//Custom Tab Stop自定義制表符
tab.setVal(STTabJc.RIGHT);
tab.setLeader(STTabTlc.DOT);
tab.setPos(new BigInteger("9190"));//默認為8290,因為調整過頁邊距,所有需要調整,手動設置找出最佳值
pPr.addNewRPr().addNewNoProof();//不檢查語法
CTR run = p.addNewR();
run.addNewRPr().addNewNoProof();
run.addNewT().setStringValue(title);
//設置行間距
CTSpacing pSpacing = pPr.getSpacing() != null ? pPr.getSpacing(): pPr.addNewSpacing();
pSpacing.setLineRule(STLineSpacingRule.AUTO);//行間距類型:多倍
pSpacing.setLine(new BigInteger("360"));//此處1.5倍行間距
pSpacing.setBeforeLines(new BigInteger("20"));//段前0.2
pSpacing.setAfterLines(new BigInteger("10"));//段后0.1
//設置字體
CTRPr pRpr = run.getRPr();
CTFonts fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts();
fonts.setAscii("Times New Roman");
fonts.setEastAsia("黑體");
fonts.setHAnsi("黑體");
// 設置字體大小
CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz();
sz.setVal(new BigInteger("24"));
CTHpsMeasure szCs = pRpr.isSetSzCs() ? pRpr.getSzCs() : pRpr.addNewSzCs();
szCs.setVal(new BigInteger("24"));
}
帶頁數的詳細小字欄目
public void addRow(int level, String title, int page, String bookmarkRef) {
CTSdtContentBlock contentBlock = this.block.getSdtContent();
CTP p = contentBlock.addNewP();
p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
CTPPr pPr = p.addNewPPr();
pPr.addNewPStyle().setVal("TOC" + level);
CTTabs tabs = pPr.addNewTabs();//Set of Custom Tab Stops自定義制表符集合
CTTabStop tab = tabs.addNewTab();//Custom Tab Stop自定義制表符
tab.setVal(STTabJc.RIGHT);
tab.setLeader(STTabTlc.DOT);
tab.setPos(new BigInteger("9100"));//默認為8290,因為調整過頁邊距,所有需要調整,手動設置找出最佳值
pPr.addNewRPr().addNewNoProof();//不檢查語法
CTR run = p.addNewR();
run.addNewRPr().addNewNoProof();
run.addNewT().setStringValue(title);//添加標題文字
//設置標題字體
CTRPr pRpr = run.getRPr();
CTFonts fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts();
fonts.setAscii("Times New Roman");
fonts.setEastAsia("楷體");
fonts.setHAnsi("楷體");
// 設置標題字體大小
CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz();
sz.setVal(new BigInteger("21"));
CTHpsMeasure szCs = pRpr.isSetSzCs() ? pRpr.getSzCs() : pRpr.addNewSzCs();
szCs.setVal(new BigInteger("21"));
//添加制表符
run = p.addNewR();
run.addNewRPr().addNewNoProof();
run.addNewTab();
//添加頁碼左括號
p.addNewR().addNewT().setStringValue("(");
//STFldCharType.BEGIN標識與結尾處STFldCharType.END相對應
run = p.addNewR();
run.addNewRPr().addNewNoProof();
run.addNewFldChar().setFldCharType(STFldCharType.BEGIN);//Field Character Type
// pageref run
run = p.addNewR();
run.addNewRPr().addNewNoProof();
CTText text = run.addNewInstrText();//Field Code 添加域代碼文本控件
text.setSpace(SpaceAttribute.Space.PRESERVE);
// bookmark reference
//源碼的域名為" PAGEREF _Toc","\h"含義為在目錄內建立目錄項與頁碼的超鏈接
text.setStringValue(" PAGEREF "+bookmarkRef + " \\h ");
p.addNewR().addNewRPr().addNewNoProof();
run = p.addNewR();
run.addNewRPr().addNewNoProof();
run.addNewFldChar().setFldCharType(STFldCharType.SEPARATE);
// page number run
run = p.addNewR();
run.addNewRPr().addNewNoProof();
run.addNewT().setStringValue(Integer.toString(page));
run = p.addNewR();
run.addNewRPr().addNewNoProof();
//STFldCharType.END標識與上面STFldCharType.BEGIN相對應
run.addNewFldChar().setFldCharType(STFldCharType.END);
//添加頁碼右括號
p.addNewR().addNewT().setStringValue(")");
//設置行間距
CTSpacing pSpacing = pPr.getSpacing() != null ? pPr.getSpacing(): pPr.addNewSpacing();
pSpacing.setLineRule(STLineSpacingRule.AUTO);//行間距類型:多倍
pSpacing.setLine(new BigInteger("360"));//此處1.5倍行間距
}
下面代碼就能解決目錄位置的問題
/**
* 寫多個文檔
*/
public void writeWordBanch() throws Exception {
XWPFDocument doc = new XWPFDocument();
FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_OilWord_TOC.docx"));
FileRedWordDynamic wordFile = new FileRedWordDynamic(doc);
wordFile.writeFileHead();
wordFile.createCustomTOC();
List<News> newsData = DataSource.getInstance().getDataByJDBC();
wordFile.writeAllNews(newsData);
wordFile.addItem2TOC();
doc.write(out);
out.close();
}
可以看出源碼在創建完目錄索引后,立即判斷根據Heading1插入目錄
在我重寫的方法中將其分為createCustomTOC()
和addItem2TOC()
分開,先在頂部占位,然后等文檔的標題和內容等信息全部寫完之后,在寫目錄剩下的部分,如下:
public void createCustomTOC() {
CTSdtBlock block = doc.getDocument().getBody().addNewSdt();
doc.createTOC();
this.toc = new CustomTOC(block);
wordSetting.setCustomHeadingStyle(doc, "Heading1", 1);
wordSetting.setCustomHeadingStyle(doc, "Heading2", 2);
}
public void addItem2TOC() {
List<XWPFParagraph> paragraphs = doc.getParagraphs();
for (XWPFParagraph par : paragraphs) {
String parStyle = par.getStyle();
if (parStyle != null && parStyle.startsWith("Heading")) {
List<CTBookmark> bookmarkList=par.getCTP().getBookmarkStartList();
try {
int level = Integer.parseInt(parStyle.substring("Heading".length()));
if(level==1){
//添加欄目
toc.addRowOnlyTitle(level, par.getText());
}else{
//添加標題
toc.addRow(level, par.getText(), 1, bookmarkList.get(0).getName());
}
} catch (NumberFormatException e) {
e.printStackTrace();
}
}
}
}
如此,第二個問題也就解決了。
(4)這里面也有個難點
就是如何將內容部分和目錄部分建立聯系呢?
就是通過下面代碼
text.setStringValue(" PAGEREF "+bookmarkRef + " \\h ");
為什么是這樣的格式,這個在Word中有說明的
OK,這一步如果走通了,就好多了。最后就是將需要添加為目錄的部分傳入對應的設置即可
public void addItem2TOC() {
List<XWPFParagraph> paragraphs = doc.getParagraphs();
for (XWPFParagraph par : paragraphs) {
String parStyle = par.getStyle();
if (parStyle != null && parStyle.startsWith("Heading")) {
List<CTBookmark> bookmarkList=par.getCTP().getBookmarkStartList();
try {
int level = Integer.parseInt(parStyle.substring("Heading".length()));
if(level==1){
//添加欄目
toc.addRowOnlyTitle(level, par.getText());
}else{
//添加標題
toc.addRow(level, par.getText(), 1, bookmarkList.get(0).getName());
}
} catch (NumberFormatException e) {
e.printStackTrace();
}
}
}
}
通過上面的代碼,就可以生成目錄了。
(5)最后還有個問題
但是現在,還是存在一個問題。如下圖:現在生成的文檔,頁數全部是1,必須要手動更新域才可以生成新的正確的頁碼,所以算不得是完全自動更新。
需要在上面的addRow
方法的第二個參數中傳入當前頁碼,但是現在就是不知道應該如何準確的獲取Word的當前頁數,這個問題可卡了我很久都沒解決,我也找一一些方法,但存在以下問題:
- 插入的頁碼不準,有誤;
- 通過Word轉PDF生成頁碼較準,但這樣Word目錄不好操作,代碼的完整性會被破壞;
朋友們如果有好方法請分享一下,謝謝。
END
一些參考的鏈接
https://blog.csdn.net/zhouseawater/article/details/54289495
https://blog.csdn.net/yanyanhuihuijianjian/article/details/79084571
https://blog.csdn.net/tiandixuanwuliang/article/details/71298406
https://blog.csdn.net/dh1027/article/details/78095940
http://53873039oycg.iteye.com/blog/2185999?utm_source=tuicool
UML類圖(繼承、實現、依賴、關聯、聚合、組合):
http://blog.csdn.net/sfdev/article/details/3906243
Myeclipse下實現UML類圖:
http://www.myeclipsecn.com/learningcenter/uml-modeling/myeclipse-uml-1/
UML時序圖:
http://blog.csdn.net/road2010/article/details/7265413