Skip to content

AIPMAndy/lesstoken

Repository files navigation

🪶 LessToken

省 Token,省钱,让 AI Agent 飞起来

将网页转换为干净、优化的 Markdown,减少 60-80% 的 Token 使用,为你的 LLM API 调用省钱。

License: MIT npm version Node.js

English | 简体中文


🆚 为什么选 LessToken?

与其他工具的对比:

能力 curl.md Jina Reader r.jina.ai LessToken
本地运行 隐私保护
Token 统计 实时显示
成本估算 多模型支持
CLI 工具
批量处理 🔜 开发中
免费使用 ⚠️ 限额 ⚠️ 限额 完全免费
离线使用 无需联网

核心差异

  • 🔒 完全本地化 - 数据不离开你的机器
  • 💰 成本透明 - 实时显示节省的 Token 和费用
  • 🎯 为 AI 优化 - 专门为 LLM 输入设计的清洗算法

✨ 核心功能

  • 🌐 URL 转 Markdown:将任何网页转换为干净、LLM 优化的 Markdown
  • 📊 Token 统计:精确显示节省了多少 Token
  • 💰 成本估算:计算在不同模型下节省的费用
  • 🚀 快速简单:一条命令,立即生效
  • 🎯 智能提取:自动移除广告、导航栏和杂乱内容
  • 🔒 隐私优先:完全本地运行,数据不上传

🚀 快速开始

安装

npm install -g lesstoken

基础用法

# 转换 URL 为 Markdown
lesstoken https://example.com

# 保存到文件
lesstoken https://example.com -o output.md

# 统计文件的 Token 数
lesstoken count myfile.md

📖 使用示例

示例 1:转换网页

$ lesstoken https://example.com

✔ 优化完成!

📊 Token 对比:
──────────────────────────────────────────────────
原始 HTML:    152 tokens
优化后 MD:     36 tokens
节省:         116 tokens (76.3%)
节省费用:     $0.0035
──────────────────────────────────────────────────

📝 Markdown 输出:
──────────────────────────────────────────────────
Example Domain

# Example Domain

This domain is for use in documentation examples...
──────────────────────────────────────────────────

示例 2:保存到文件

lesstoken https://news.ycombinator.com -o hn.md

示例 3:统计 Token

$ lesstoken count README.md

📊 Token 统计:
──────────────────────────────────────────────────
Tokens:      1,234
模型:        gpt-4
预估成本:    $0.0370
──────────────────────────────────────────────────

示例 4:使用不同模型统计

lesstoken https://example.com --model gpt-3.5-turbo

🎯 使用场景

1. AI Agent 网页抓取

# 之前:10,000 tokens 的 HTML
# 之后:2,000 tokens 的干净 Markdown
# 节省:80% tokens,每次请求省 $0.24

2. 文档处理

# 将文档转为 Markdown 用于 RAG 系统
lesstoken https://docs.example.com/api -o api-docs.md

3. 内容分析

# 提取文章内容,去除广告和导航
lesstoken https://blog.example.com/post -o article.md

🛠️ CLI 选项

用法: lesstoken [options] <url>

参数:
  url                    要优化的 URL

选项:
  -V, --version          输出版本号
  -o, --output <file>    输出文件 (默认: stdout)
  -m, --model <model>    Token 统计使用的模型 (默认: "gpt-4")
  --no-compare           跳过 Token 对比
  -h, --help             显示帮助信息

命令:
  count [options] <file> 统计文件的 Token 数

💡 工作原理

  1. 抓取:下载网页 HTML
  2. 提取:识别主要内容,移除广告和导航
  3. 转换:将 HTML 转换为干净的 Markdown
  4. 优化:移除多余的空白和空元素
  5. 统计:计算节省的 Token 和成本

📊 Token 节省效果

真实案例:

网站类型 原始 优化后 节省 百分比
新闻文章 8,500 1,200 7,300 86%
技术文档 12,000 3,500 8,500 71%
博客文章 6,000 1,800 4,200 70%
产品页面 15,000 2,500 12,500 83%

平均节省:77.5%


🔧 支持的模型

Token 统计和成本估算支持:

  • GPT-4 ($0.03/1K input tokens)
  • GPT-4 Turbo ($0.01/1K input tokens)
  • GPT-3.5 Turbo ($0.0005/1K input tokens)
  • Claude 3 Opus ($0.015/1K input tokens)
  • Claude 3 Sonnet ($0.003/1K input tokens)

🚧 开发路线图

  • 批量处理多个 URL
  • 自定义提取规则
  • 浏览器扩展
  • API 服务器模式
  • 文件分析(用于磁盘清理)
  • Agent 插件(Claude、Cursor、Codex)
  • 自托管选项

🤝 贡献

欢迎贡献!请查看 CONTRIBUTING.md


📝 许可证

MIT License - 详见 LICENSE


🔗 链接


🙏 致谢

站在巨人的肩膀上:


用 ❤️ 为 AI 社区打造

如果这个项目对你有帮助,请给个 ⭐ Star!

About

Save tokens, save money, supercharge your AI agents. A toolkit for optimizing content for AI consumption.

Topics

Resources

License

Contributing

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors