2026-03-18 , 13419 , 896 , 90
预测市场 Polymarket 做市商: Polymarket 做市圣经-5: 实验
第六章:实验 - 这套框架到底好不好使?
前五章,我们建立了一套完整的框架。
这一章,我们要回答一个最关键的问题:它真的比现有方法好吗?
怎么判断?
论文用了两个核心指标 [1]:
均方误差:把每个时间点的”预测值 - 实际值”取平方再取平均。平方的作用是严厉惩罚大偏差——偏差 0.10 的惩罚是偏差 0.01 的 100 倍。回答的问题:模型会不会偶尔犯大错?
平均绝对误差:把偏差取绝对值再取平均。更直观:平均每次偏差多少?
一个好模型应该两个都低——既不会偶尔犯大错,也不会持续犯小错。
还有一个关键:模型在每个时间点只能使用那个时间点之前的数据,不能偷看未来。
四个对手


为了证明上文框架的有效性,原论文的模型和四个现有做市方法进行了正面对比。
随机游走:假设波动率永远不变。不管辩论之夜还是平静期,波动率都一样。就像一个天气预报员每天都说”明天 25°C”——春天偶尔对,冬天和夏天错得离谱。最简单的基准线。
恒定波动率扩散:和随机游走类似,但波动率是用数据拟合出来的”最优常数”。就像那个预报员改成了”每天都报全年平均温度”——平均误差小了,但极端天气还是抓不住。
Wright-Fisher / Jacobi 模型:直接在概率空间(0 到 1 之间)建模,不做 logit 变换。听起来更”自然”——概率本来就在 0 到 1 之间,为什么要变换?但这是一个陷阱。当概率接近 0 或 1 时,概率空间里的小误差映射到 logit 空间后会被指数级放大。
GARCH:传统金融里最常用的波动率模型。核心思想是”大波动之后跟着大波动”。在股票市场非常好用。但在预测市场有两个致命问题:不区分日常波动和新闻跳跃,也没有鞅约束。
结果:全面碾压
我们建立的做市模型在均方误差和平均绝对两个指标上都是最优的 [1]。
在 logit 空间的均方误差上,本文使用的模型比最好的对手(恒定波动率扩散)低了一个数量级以上。比 Wright-Fisher 和 GARCH 低了 15 到 17 个数量级。
不是”稍微好一点”。是”完全不在一个级别”。
模型对比
为什么差距这么大?
鞅约束消除了系统性偏差。 其他模型没有这个约束,可能隐含”概率应该往上走”或”往下走”的假设。论文模型的鞅约束确保天平是平的。
分离跳跃和扩散。 平静期的波动率不会被新闻跳跃”污染”。GARCH 做不到这一点——它看到大波动就以为后面还会有大波动,但实际上跳跃之后可能立刻恢复平静。


UfqiLong
GARCH vs RN-JD
日程感知。 模型知道”下周有辩论”或”下个月是投票日”。在这些已知的新闻窗口前后,自动提高跳跃强度预测。其他模型完全忽略了这些公开信息。
最关键的发现:在概率空间建模是死路
实验中最震撼的发现:直接在概率空间建模的方法会灾难性地失败。
Wright-Fisher 和 GARCH 在映射到 logit 空间后,均方误差膨胀了 15 到 19 个数量级。
如果你是做市商,你用这些模型来定价差,你的价差在极端概率附近会完全错误。不是偏差 10%——是偏差 10 的 17 次方。你会在几秒钟内被套利者吃掉。
概率空间建模是死路
这个发现锁定了一个结论:预测市场的量化建模,必须在 logit 空间进行。 如果你现在正在用任何直接在概率空间建模的方法(包括简单的移动平均、线性回归等),先做 logit 变换再做分析。一行代码(x = log(p/(1-p))),但它能避免灾难性的误差。
(未完待续, To be contd.)
🔗 连载目录
🤖 智能推荐





