poiword转html例子及jar包资源-CSDN下载

共7个文件

jar：5个

java：1个

gz：1个

poi

word

html

代码

3星 · 超过75%的资源需积分: 50 201 浏览量 2017-11-01 16:19:43 上传评论收藏 36.69MB ZIP 举报

Apache POI 是一个开源项目，专门用于处理Microsoft Office格式的文件，如Word（.doc、.docx）、Excel（.xls、.xlsx）和PowerPoint（.ppt、.pptx）。在Java环境中，Apache POI 提供了API，使得开发者能够读取、创建和修改这些文件。本篇将详细讲解如何使用Apache POI将Word文档转换为HTML格式，并介绍相关的代码示例和所需jar包。为了进行Word到HTML的转换，你需要在项目中引入Apache POI的相关jar包。这通常包括`poi-ooxml-full.jar`，它包含了处理Office Open XML（.docx）文件所需的类，以及`poi-ooxml-schemas.jar`，包含XML模式定义。你可以在Apache POI的官方网站下载最新版本的库文件，或者通过Maven或Gradle等构建工具将其添加到依赖中。以下是使用Apache POI将Word文档转换为HTML的基本步骤： 1. **导入必要的库**：在Java源文件顶部，需要导入以下Apache POI相关的类： ```java import org.apache.poi.xwpf.usermodel.*; import java.io.*; ``` 2. **读取Word文档**：使用`XWPFDocument`类打开Word文档： ```java FileInputStream fis = new FileInputStream("path_to_your_word_file.docx"); XWPFDocument document = new XWPFDocument(fis); ``` 3. **遍历文档内容**： `XWPFDocument`对象包含了一个`List<XWPFParagraph>`和`List<XWPFTable>`，分别表示文档中的段落和表格。你可以遍历这些集合，提取文本和样式信息： ```java for (XWPFParagraph paragraph : document.getParagraphs()) { String text = paragraph.getText(); // 处理段落样式... } for (XWPFTable table : document.getTables()) { // 处理表格... } ``` 4. **转换为HTML**：将Word文档的内容转化为HTML字符串，可以自定义CSS来保留原始文档的样式。这里只是一个简单的示例，实际应用可能需要更复杂的逻辑来处理更丰富的样式信息： ```java StringBuilder htmlBuilder = new StringBuilder(); htmlBuilder.append("<html><body>"); for (XWPFParagraph paragraph : document.getParagraphs()) { htmlBuilder.append("<p>").append(paragraph.getText()).append("</p>"); } for (XWPFTable table : document.getTables()) { htmlBuilder.append("<table>"); for (XWPFTableRow row : table.getRows()) { htmlBuilder.append("<tr>"); for (XWPFTableCell cell : row.getTableCells()) { htmlBuilder.append("<td>").append(cell.getText()).append("</td>"); } htmlBuilder.append("</tr>"); } htmlBuilder.append("</table>"); } htmlBuilder.append("</body></html>"); ``` 5. **写入HTML文件**：将生成的HTML字符串写入到文件中： ```java FileOutputStream fos = new FileOutputStream("output.html"); fos.write(htmlBuilder.toString().getBytes()); fos.close(); ``` 6. **关闭资源**：不要忘记关闭打开的输入/输出流： ```java fis.close(); ``` 以上就是使用Apache POI将Word文档转换为HTML的基本流程。在实际应用中，你可能还需要处理更多细节，比如段落样式、字体、颜色、图片等。Apache POI提供了丰富的API来访问和操作这些元素，使得转换过程更加灵活和精确。对于更复杂的需求，可以参考Apache POI的官方文档和社区提供的示例代码。

资源推荐

资源详情

资源评论

收起资源包目录

wordToHtml.zip （7个子文件）

wordToHtml

org.apache.poi.xwpf.converter.xhtml-1.0.4.jar 49KB

wordToHtml.java 6KB

org.apache.poi.xwpf.converter.core-1.0.4.jar 211KB

ooxml-schemas-1.1.jar 14.15MB

commons-io-2.4.jar 181KB

poi-bin-3.11-20141221.tar.gz 16.72MB

ooxml-schemas-1.0.jar 13.36MB

package test; import java.io.BufferedWriter; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStreamWriter; import java.util.List; import javax.xml.parsers.DocumentBuilderFactory; import javax.xml.parsers.ParserConfigurationException; import javax.xml.transform.OutputKeys; import javax.xml.transform.Transformer; import javax.xml.transform.TransformerException; import javax.xml.transform.TransformerFactory; import javax.xml.transform.dom.DOMSource; import javax.xml.transform.stream.StreamResult; import org.apache.commons.io.output.ByteArrayOutputStream; import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.converter.PicturesManager; import org.apache.poi.hwpf.converter.WordToHtmlConverter; import org.apache.poi.hwpf.usermodel.Picture; import org.apache.poi.hwpf.usermodel.PictureType; import org.apache.poi.xwpf.converter.core.FileImageExtractor; import org.apache.poi.xwpf.converter.core.IURIResolver; import org.apache.poi.xwpf.converter.xhtml.XHTMLConverter; import org.apache.poi.xwpf.converter.xhtml.XHTMLOptions; import org.apache.poi.xwpf.usermodel.XWPFDocument; import org.w3c.dom.Document; public class ReportDocUtil { public static void main(String[] args) { try { ReportDocUtil.wordToHtml("d:\\1.docx", "d:\\h\\", "1.html"); ReportDocUtil.wordToHtml("d:\\2.doc", "d:\\h\\", "2.html"); } catch (TransformerException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (ParserConfigurationException e) { // TODO Auto-generated catch block e.printStackTrace(); } } public static void wordToHtml(String wordPath, String htmlPath, String newFilename) throws TransformerException, IOException, ParserConfigurationException { convert2Html(wordPath, htmlPath, newFilename); } public static void writeFile(String content, String path) { FileOutputStream fos = null; BufferedWriter bw = null; try { File file = new File(path); if (!file.exists()) { } fos = new FileOutputStream(file); bw = new BufferedWriter(new OutputStreamWriter(fos)); bw.write(content); } catch (FileNotFoundException fnfe) { fnfe.printStackTrace(); } catch (IOException ioe) { ioe.printStackTrace(); } finally { try { if (bw != null) bw.close(); if (fos != null) fos.close(); } catch (IOException ie) { } } } /** * 将word转换成html 支持 .doc and .docx * @param fileName word文件名 * @param outPutFilePath html存储路径 * @param newFileName html名 * @throws TransformerException * @throws IOException * @throws ParserConfigurationException */ public static void convert2Html(String fileName, String outPutFilePath, String newFileName) throws TransformerException, IOException, ParserConfigurationException { String substring = fileName.substring(fileName.lastIndexOf(".") + 1); ByteArrayOutputStream out = new ByteArrayOutputStream(); /** * word2007和word2003的构建方式不同，前者的构建方式是xml，后者的构建方式是dom树。 * 文件的后缀也不同，前者后缀为.docx，后者后缀为.doc 相应的，apache.poi提供了不同的实现类。 */ if ("docx".equals(substring)) { // writeFile(new // String("<html><head> <meta http-equiv=\"content-type\" content=\"text/html\" charset=\"utf-8\"/></head>对不起，.docx格式的word文档，暂时不能生成预览</html>".getBytes("utf-8")), // outPutFilePath+newFileName); // step 1 : load DOCX into XWPFDocument InputStream inputStream = new FileInputStream(new File(fileName)); XWPFDocument document = new XWPFDocument(inputStream); // step 2 : prepare XHTML options final String imageUrl = ""; XHTMLOptions options = XHTMLOptions.create(); options.setExtractor(new FileImageExtractor(new File(outPutFilePath + imageUrl))); options.setIgnoreStylesIfUnused(false); options.setFragment(true); options.URIResolver(new IURIResolver() { // @Override 重写的方法，加上这个报错，你看看是啥问题 public String resolve(String uri) { return imageUrl + uri; } }); // step 3 : convert XWPFDocument to XHTML XHTMLConverter.getInstance().convert(document, out, options); } else { HWPFDocument wordDocument = new HWPFDocument(new FileInputStream(fileName));// WordToHtmlUtils.loadDoc(new // FileInputStream(inputFile)); WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument()); wordToHtmlConverter.setPicturesManager(new PicturesManager() { public String savePicture(byte[] content, PictureType pictureType, String suggestedName, float widthInches, float heightInches) { return suggestedName; } }); wordToHtmlConverter.processDocument(wordDocument); // save pictures List<Picture> pics = wordDocument.getPicturesTable().getAllPictures(); if (pics != null) { for (int i = 0; i < pics.size(); i++) { Picture pic = (Picture) pics.get(i); System.out.println(); try { pic.writeImageContent(new FileOutputStream(outPutFilePath + pic.suggestFullFileName())); } catch (FileNotFoundException e) { e.printStackTrace(); } } } Document htmlDocument = wordToHtmlConverter.getDocument(); DOMSource domSource = new DOMSource(htmlDocument); StreamResult streamResult = new StreamResult(out); TransformerFactory tf = TransformerFactory.newInstance(); // 这个应该是转换成xml的 Transformer serializer = tf.newTransformer(); serializer.setOutputProperty(OutputKeys.ENCODING, "utf-8"); serializer.setOutputProperty(OutputKeys.INDENT, "yes"); serializer.setOutputProperty(OutputKeys.METHOD, "html"); serializer.transform(domSource, streamResult); } out.close(); writeFile(new String(out.toByteArray()), outPutFilePath + newFileName); } }

评论收藏

内容反馈