Releases: DuanYan007/markitdown
v0.0.4
发布说明
markitdown4j 0.0.4 为当前版本的正式整理发布。
本版本完成了项目向 CLI + Java Library 形态的收敛,移除了 MCP 相关内容,统一了 OCR 实现方向,并对文档、测试与发布验证流程进行了系统整理。
主要变更
- 收敛项目形态为
CLI + Java Library - 移除 MCP 相关代码与历史设计内容
- 移除
tess4j依赖,统一本地 OCR 为tesseract-cli - 优化 CLI、配置与运行时集成路径
- 完善测试覆盖与发布验证脚本
- 重构并统一当前版本中英文文档
OCR
当前版本支持以下 OCR 引擎:
tesseract-clihttppaddleocr
发布验证
本版本发布前已通过以下验证:
mvn testmvn verify
附件
markitdown4j-0.0.4.jar
多平台制品、统一 OCR Provider、PaddleOCR 接入
markitdown4j v0.0.3
本版本重点完成了平台化制品构建、OCR 能力解耦、远程 OCR 接入,以及仓库文档整理,适合公开分发和用户直接上手使用。
版本亮点
- 提供多种发布制品:
litefullwin32win64linux64mac
- OCR 已重构为可插拔 Provider 架构
- 已支持以下 OCR 后端:
tess4jtesseract-clipaddleocrhttp
- 非 Windows 平台不再额外携带 Windows OCR native 资源
- 支持统一配置方式接入远程 OCR
- 仓库文档已整理,新增中英文双语 README
下载哪个包
win64- 适用于 64 位 Windows
- 内置 Windows OCR native 资源
win32- 适用于 32 位 Windows
- 内置 Windows OCR native 资源
linux64- 适用于 Linux
- 推荐配合外部或远程 OCR 使用
mac- 适用于 macOS
- 推荐配合外部或远程 OCR 使用
lite- 最小体积
- 不内置
tess4j - 适合远程 OCR、CI、轻量场景
full- 完整包
- 包含完整 OCR 资源
OCR 支持说明
当前支持以下 OCR 引擎:
tess4j- 更适合 Windows 下的内嵌 OCR 使用方式
tesseract-cli- 更适合 Linux / macOS 本地安装 Tesseract 的场景
paddleocr- 远程 OCR Provider
- 适合结构化识别、Markdown 导向输出场景
http- 适合接自定义远程 OCR 服务
本版本解决了什么问题
- 支持通过 Maven Profile 构建不同平台制品
- 解决了非 Windows 平台因为
tess4j带来额外大体积 DLL / native 资源的问题 - 统一了 OCR 配置入口,用户只需要填写配置即可切换 OCR 后端
- 接入并验证了远程
PaddleOCRProvider - 清理并重构了仓库文档,提升首次使用体验
文档入口
- 中文说明:
README.md - English README:
README.en.md - Java CLI 中文文档:
java/README.md - Java CLI English 文档:
java/README.en.md - 命令参考:
java/COMMAND_REFERENCE.md - OCR 扩展路线图:
OCR_PROVIDER_ROADMAP.md
已知说明
- Linux / macOS 默认更推荐使用外部或远程 OCR
paddleocr已完成真实远程服务联调- 后续会继续扩展更多远程 OCR / VLM Provider,以满足不同用户需求
test-files
markitdown4j.jar - 主程序文件(推荐下载)
test-files.zip - 测试文件包(可选,包含103个测试文件)
- 用于验证转换功能的各类测试文档
- 涵盖所有支持格式的测试场景
- 包含加密PDF、大文件、多语言等边界测试
🚀 快速开始
1. 下载 markitdown4j.jar
2. 下载并解压 test-files.zip(可选)
3. 基础使用
java -jar markitdown4j.jar document.pdf -o output.md
4. 使用测试文件验证
java -jar markitdown4j.jar test/plain-text.pdf -o output.md
java -jar markitdown4j.jar test/basic.docx -o output.md
java -jar markitdown4j.jar test/encrypted.pdf --pdf-password test123 -o output.md
5. 查看帮助
java -jar markitdown4j.jar --help
📋 支持格式
- PDF: .pdf - 文本提取 + 加密支持
- Word: .docx, .doc - 表格、图片、样式
- Excel: .xlsx, .xls - 公式、多工作表
- PowerPoint: .pptx, .ppt - 幻灯片提取
- HTML: .html, .htm - 网页解析
- 图片: .png, .jpg, .gif, .bmp - OCR识别
- 音频: .mp3, .wav - 元数据提取
- 文本: .txt, .csv, .json, .xml
- 压缩包: .zip - 批量处理
详细测试文件清单:https://github.com/DuanYan007/markitdown/blob/main/java/TEST_FILES.md
markitdown4j
📦 markitdown4j v0.0.2 - 文档转换工具
✨ 版本亮点
✅ 100% 测试通过率 - 103个测试用例全部验证通过
📁 9+ 格式支持 - PDF、Word、Excel、PowerPoint、HTML、图片、音频等 ⚡ 高性能 - 支持并行处理、大文件优化
🔒 加密PDF支持 - 支持密码保护的PDF文件转换
🖼️ 图片提取 - 自动提取文档中的嵌入图片
🌏 多语言OCR - 支持中英文等多种语言文字识别
🚀 快速开始
下载 markitdown4j.jar 后直接使用
java -jar markitdown4j.jar document.pdf -o output.md
查看帮助
java -jar markitdown4j.jar --help
📋 支持格式
- PDF: .pdf - 文本提取 + 加密支持
- Word: .docx, .doc - 表格、图片、样式
- Excel: .xlsx, .xls - 公式、多工作表
- PowerPoint: .pptx, .ppt - 幻灯片提取
- HTML: .html, .htm - 网页解析
- 图片: .png, .jpg, .gif, .bmp - OCR识别
- 音频: .mp3, .wav - 元数据提取
- 文本: .txt, .csv, .json, .xml
- 压缩包: .zip - 批量处理
📚 完整文档
- 安装配置: https://github.com/DuanYan007/markitdown/blob/main/java/INSTALLATION.md
- 命令参考: https://github.com/DuanYan007/markitdown/blob/main/java/COMMAND_REFERENCE.md
- 使用指南: https://github.com/DuanYan007/markitdown/blob/main/java/README.md
🎯 系统要求
- Java: JDK 17+
- 操作系统: Windows / Linux / macOS
- 可选: Tesseract OCR (用于图片文字识别)
markitdown-java
修复编译优化而缺失的库