Skip to content

Releases: DuanYan007/markitdown

v0.0.4

16 May 09:17

Choose a tag to compare

发布说明

markitdown4j 0.0.4 为当前版本的正式整理发布。

本版本完成了项目向 CLI + Java Library 形态的收敛,移除了 MCP 相关内容,统一了 OCR 实现方向,并对文档、测试与发布验证流程进行了系统整理。

主要变更

  • 收敛项目形态为 CLI + Java Library
  • 移除 MCP 相关代码与历史设计内容
  • 移除 tess4j 依赖,统一本地 OCR 为 tesseract-cli
  • 优化 CLI、配置与运行时集成路径
  • 完善测试覆盖与发布验证脚本
  • 重构并统一当前版本中英文文档

OCR

当前版本支持以下 OCR 引擎:

  • tesseract-cli
  • http
  • paddleocr

发布验证

本版本发布前已通过以下验证:

  • mvn test
  • mvn verify

附件

  • markitdown4j-0.0.4.jar

多平台制品、统一 OCR Provider、PaddleOCR 接入

03 May 13:39

Choose a tag to compare

markitdown4j v0.0.3

本版本重点完成了平台化制品构建、OCR 能力解耦、远程 OCR 接入,以及仓库文档整理,适合公开分发和用户直接上手使用。

版本亮点

  • 提供多种发布制品:
    • lite
    • full
    • win32
    • win64
    • linux64
    • mac
  • OCR 已重构为可插拔 Provider 架构
  • 已支持以下 OCR 后端:
    • tess4j
    • tesseract-cli
    • paddleocr
    • http
  • 非 Windows 平台不再额外携带 Windows OCR native 资源
  • 支持统一配置方式接入远程 OCR
  • 仓库文档已整理,新增中英文双语 README

下载哪个包

  • win64
    • 适用于 64 位 Windows
    • 内置 Windows OCR native 资源
  • win32
    • 适用于 32 位 Windows
    • 内置 Windows OCR native 资源
  • linux64
    • 适用于 Linux
    • 推荐配合外部或远程 OCR 使用
  • mac
    • 适用于 macOS
    • 推荐配合外部或远程 OCR 使用
  • lite
    • 最小体积
    • 不内置 tess4j
    • 适合远程 OCR、CI、轻量场景
  • full
    • 完整包
    • 包含完整 OCR 资源

OCR 支持说明

当前支持以下 OCR 引擎:

  • tess4j
    • 更适合 Windows 下的内嵌 OCR 使用方式
  • tesseract-cli
    • 更适合 Linux / macOS 本地安装 Tesseract 的场景
  • paddleocr
    • 远程 OCR Provider
    • 适合结构化识别、Markdown 导向输出场景
  • http
    • 适合接自定义远程 OCR 服务

本版本解决了什么问题

  • 支持通过 Maven Profile 构建不同平台制品
  • 解决了非 Windows 平台因为 tess4j 带来额外大体积 DLL / native 资源的问题
  • 统一了 OCR 配置入口,用户只需要填写配置即可切换 OCR 后端
  • 接入并验证了远程 PaddleOCR Provider
  • 清理并重构了仓库文档,提升首次使用体验

文档入口

  • 中文说明:README.md
  • English README:README.en.md
  • Java CLI 中文文档:java/README.md
  • Java CLI English 文档:java/README.en.md
  • 命令参考:java/COMMAND_REFERENCE.md
  • OCR 扩展路线图:OCR_PROVIDER_ROADMAP.md

已知说明

  • Linux / macOS 默认更推荐使用外部或远程 OCR
  • paddleocr 已完成真实远程服务联调
  • 后续会继续扩展更多远程 OCR / VLM Provider,以满足不同用户需求

test-files

23 Mar 03:39

Choose a tag to compare

markitdown4j.jar - 主程序文件(推荐下载)

test-files.zip - 测试文件包(可选,包含103个测试文件)

  • 用于验证转换功能的各类测试文档
  • 涵盖所有支持格式的测试场景
  • 包含加密PDF、大文件、多语言等边界测试

🚀 快速开始

1. 下载 markitdown4j.jar

2. 下载并解压 test-files.zip(可选)

3. 基础使用

java -jar markitdown4j.jar document.pdf -o output.md

4. 使用测试文件验证

java -jar markitdown4j.jar test/plain-text.pdf -o output.md
java -jar markitdown4j.jar test/basic.docx -o output.md
java -jar markitdown4j.jar test/encrypted.pdf --pdf-password test123 -o output.md

5. 查看帮助

java -jar markitdown4j.jar --help

📋 支持格式

  • PDF: .pdf - 文本提取 + 加密支持
  • Word: .docx, .doc - 表格、图片、样式
  • Excel: .xlsx, .xls - 公式、多工作表
  • PowerPoint: .pptx, .ppt - 幻灯片提取
  • HTML: .html, .htm - 网页解析
  • 图片: .png, .jpg, .gif, .bmp - OCR识别
  • 音频: .mp3, .wav - 元数据提取
  • 文本: .txt, .csv, .json, .xml
  • 压缩包: .zip - 批量处理

详细测试文件清单:https://github.com/DuanYan007/markitdown/blob/main/java/TEST_FILES.md

markitdown4j

23 Mar 03:31

Choose a tag to compare


📦 markitdown4j v0.0.2 - 文档转换工具
✨ 版本亮点
✅ 100% 测试通过率 - 103个测试用例全部验证通过
📁 9+ 格式支持 - PDF、Word、Excel、PowerPoint、HTML、图片、音频等 ⚡ 高性能 - 支持并行处理、大文件优化
🔒 加密PDF支持 - 支持密码保护的PDF文件转换
🖼️ 图片提取 - 自动提取文档中的嵌入图片
🌏 多语言OCR - 支持中英文等多种语言文字识别

🚀 快速开始

下载 markitdown4j.jar 后直接使用

java -jar markitdown4j.jar document.pdf -o output.md

查看帮助

java -jar markitdown4j.jar --help

📋 支持格式

  • PDF: .pdf - 文本提取 + 加密支持
  • Word: .docx, .doc - 表格、图片、样式
  • Excel: .xlsx, .xls - 公式、多工作表
  • PowerPoint: .pptx, .ppt - 幻灯片提取
  • HTML: .html, .htm - 网页解析
  • 图片: .png, .jpg, .gif, .bmp - OCR识别
  • 音频: .mp3, .wav - 元数据提取
  • 文本: .txt, .csv, .json, .xml
  • 压缩包: .zip - 批量处理

📚 完整文档

🎯 系统要求

  • Java: JDK 17+
  • 操作系统: Windows / Linux / macOS
  • 可选: Tesseract OCR (用于图片文字识别)

markitdown-java

03 Nov 02:43

Choose a tag to compare

修复编译优化而缺失的库