将“图”视为一种知识编码方式,为多模态AI的识图与画图提供统一的形式化理论框架。
图不是数据的“画像”,而是数据及其内在关系经由视觉语法的“编码”。
散点图、思维导图、流程图、时序图……不同类型的图表本质上是不同的编码协议。它们各自用一套独特的视觉语法(位置、长度、颜色、拓扑连接等)来压缩和传达信息。
相应地:
- AI识图 = 解码(从视觉编码中还原数据和关系)
- AI画图 = 编码(将数据和关系编译为视觉结构)
一个真正通用的多模态AI,本质上就是一个能自适应切换编解码协议的“视觉通译”。
d = f ( a , R(a, q) ) + ε
| 符号 | 含义 |
|---|---|
a |
原始数据或内容(数值、文字、概念……) |
q |
分析意图 / 待回答的问题(决定了哪些关系被强调) |
R(a, q) |
关系提取器:在意图 q 的驱动下,从 a 中抽取出需要传达的结构关系(如时间先后、层级隶属、相关性……) |
f |
编码函数 / 视觉语法:将数据 a 和关系 R 映射为视觉通道(坐标轴位置、长度、颜色、形状、连接线……)。选择 f 就是选择图表类型。 |
ε |
信息损失项:视觉通道的承载能力有限(人眼最多分辨约5-8种颜色类别),编码必然有损。 |
d |
输出的图。 |
直觉:画图就是为特定问题 q,选定一种视觉语法 f,把数据和关系编译成图。好的编码会尽力让 ε 的认知影响降到最低。
P ( a' , R' | d , c ) = g ( d , c )
| 符号 | 含义 |
|---|---|
d |
输入的图像。 |
c |
读者上下文(知识背景、任务需求、感知特性……) |
g |
解码函数 / 视觉理解器:识别 d 所使用的视觉语法,并逆向解析。 |
a' |
还原出的近似数据。 |
R' |
还原出的近似关系集合。 |
P(...) |
解码的输出是概率分布,而非单一确定值——因为编码函数 f 往往是多对一映射,从图逆推数据在数学上不可能唯一确定。 |
直觉:识图就是在特定上下文中,对图进行逆向协议解析,并诚实地量化不确定性。一个好的解码器知道什么时候该说“我无法从图上精确判断”。
编码 f
a, R(a,q) ────→ d
│
│ 解码 g
↓
P(a', R' | d, c)
AI的多模态终极能力 = 同时掌握 f 和 g 这一对元函数,在“数据逻辑”与“视觉语法”之间自由正向编译与反向解析。
- ❌ 传统:看图说话,输出笼统的文字描述
- ✅ 本框架:结构化载荷提取——输出数据表、JSON、Markdown大纲
- ❌ 传统:端到端模式匹配
- ✅ 本框架:协议解析——先判别图表类型,再按对应语法解码
- ❌ 传统:一味追求“读对”
- ✅ 本框架:不确定性量化——诚实表达哪些信息无法从图中精确还原
- ❌ 传统:黑盒生成答案
- ✅ 本框架:可校验解码——用解码出的数据反绘图表,与原图比对验证
- ❌ 传统:生成“好看”的像素图
- ✅ 本框架:知识编码——将数据与关系严格编译为视觉符号
- ❌ 传统:凭审美决定图表形式
- ✅ 本框架:协议选择——根据数据特性和表达意图,决定最优编码方式
- ❌ 传统:以图的观感评价
- ✅ 本框架:编译正确性——用解码器逆向验证,确保
g(d) ≈ (a, R) - ❌ 传统:直接生成像素
- ✅ 本框架:代码/矢量生成为优——使用绘图代码精确控制每一个视觉通道
- 学习元编解码能力
F和G:不硬编码每种图表类型,而是掌握底层视觉语法元素的原子语义,并动态组合它们。 - 面对从未见过的复合编码图(如地图叠加时间轴),依然能尝试解析。
- 感知意图
q,理解同一数据在不同问题下需要截然不同的可视化方式。
-
解码本质上是欠定逆问题
不同的a可能生成视觉上无法区分的d。完美的逆向还原在数学上不可能——这为AI解图出错提供了深层的理论解释,也指明了不确定性量化的必要性。 -
图是“问题驱动”的编码,而非客观镜像
q(意图)决定了R提取哪些关系。同一张财务报表,会计和市场总监需要的图完全不同。好的可视化不是把全部数据塞进去,而是只展示与当前问题相关的关系。 -
信息损失
ε是不可避免的结构性约束
视觉通道有带宽上限。用饼图展示趋势、用折线图展示占比,都会造成不可逆的信息丢失。图表类型的选择,本质上是一次有损压缩的优化决策。 -
识图和画图是同一通信协议的两端
现有研究大多将二者分开处理。本框架首次用统一的数学语言将它们描述为编解码的共轭对。
| 领域 | 关系 |
|---|---|
| 数据可视化理论(Bertin, Mackinlay) | 视觉变量与数据属性的映射规则 → 被纳入为 f 的具体实现 |
| 图表问答(ChartQA, PlotQA, DePlot) | 训练模型逼近 g 的具体实践;本框架提供了理论统一性 |
| 多模态大模型(GPT-4V, Gemini等) | 预训练让模型涌现 F 和 G 的元能力;本框架给出了这种涌现的形式化目标 |
| 信息论 / 率失真理论 | ε 直接对应于视觉通道的编码失真,可被定量分析 |
- 关系提取器
R(a, q)的实现:如何从任意数据中,针对任意自然语言问题q,自动提取出待传达的关系?这本身是一个开放问题。 - 信息损失
ε的定量度量:如何客观量化不同视觉通道、不同图表类型在不同数据规模下的信息保真度? - 复合编码的动态组合:如何让模型创造性地组合基础视觉语法,发明新的图表类型?
- 实验验证:能否用现有ChartQA等基准上的错误模式,验证“欠定解码”和“信息损失”的理论预测?
这个框架并非一篇已完成的论文,而是一个供讨论、批评和迭代的理论雏形。
它源自一次关于“AI如何学会解图技巧”的深度对话,在人类与 AI 的协作思辨中逐步沉淀而成。
欢迎一切形式的反馈:
- 你是否同意“图是知识编码”这个元假设?
- 公式是否需要调整或扩展?
- 有哪些已有文献与此框架相关或冲突?
- 你是否有合适的实验来验证或驳斥它?
请通过 Issue 或 PR 参与讨论,一起让这个框架更严谨、更实用。
如果这个框架对你有所启发,欢迎引用或链接本仓库。
@misc{chart-knowledge-encoding,
author = {Human-AI Collaborative Insight},
title = {图即知识编码:AI视觉智能统一框架},
year = {2026},
url = {[本仓库地址]}
}
“世界上的知识不仅有文字这一种编码,图是另一种高密度、高直觉性的编码。AI的野心,是成为掌握百种视觉语言的通译。”