-
linux平台使用JAVA提取各种文件(office, pdf, eml, rtf, html, wps)内容文本下载
资源介绍
按照压缩包中的使用示例编译即可
支持文件类型:
A: pdf文件
B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm"
C: wps文档 ".wps"
D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm"
E: wps表格 ".et"
F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm"
G: wps演示 ".dps"
H: 开放文档格式 ".ofd", 注:“电子发票版式文件”
I: 富文本类型 ".rtf"
J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml"
K: 邮件格式文件 ".eml", 注:默认提取前5个附件
L: 部分思维导图格式文件 ".emmx", "xmind", "gmind"
M:UTF8编码, Unicode编码, Ansi编码的文本文件
O: 压缩文件 ".zip"