AI 辅助评标已经在部分场景中跑通,但很多团队心里没底:机器给出的分数到底能不能信?如果评分不稳定、漏掉关键点,谁来兜底?
质量问题不是 AI 本身的问题,而是缺少系统性的质量管控机制。本文从三个层面——数据质量、模型校准、人工审核——给出可操作的方法。
一、数据质量:AI 评分的基石
AI 评分依赖两个输入:招标文件里的评分办法,以及投标人的技术方案。两边的数据质量,直接决定了评分靠不靠谱。
1.1 评分办法的结构化
招标文件的评分条款经常写得模糊,比如“方案合理、可行得 5 分”。这种描述对 AI 是模糊的。需要将评分办法结构化:
- 分解成可量化的子项:例如“技术路线”拆成“技术路线描述清晰度”“关键指标匹配度”“创新性”等;
- 每项定义评分标准:什么情况得满分、什么情况扣分,最好有示例。
这一步通常需要人工参与,但可以借助招标文件解析工具(如青天大模型)先提取条款,再由专家校准。
1.2 技术方案的质量
如果投标文件本身质量差(格式混乱、内容缺失),AI 很难准确评分。建议在评分前做一轮预处理:
- 检查文件完整性:是否所有章节都在?
- 提取关键信息:将文本结构化,便于后续比对。
- 标记异常段落:比如明显模板化、答非所问的内容。
数据质量决定了 AI 评分的上限。原始数据干净,AI 才能稳定发挥。
二、模型校准:让评分更可信
即使数据干净,模型输出的分数也需要校准。我们常用的方法有:
2.1 建立基准
用一批历史评标数据(人工评分 + 投标文件)来训练或校准模型。具体做法:
- 收集至少 50–100 份已评分的技术方案;
- 让 AI 对这些方案重新评分;
- 比对 AI 分数与人工分数的差异;
- 调整模型参数或提示词,使偏差最小化。
2.2 多维评分
不要只给一个总分。对技术方案的不同维度(如技术路线、实施计划、团队配置)分别打分,并给出分项得分。这样即使总分有偏差,分项也能暴露问题。
| 维度 | AI 评分 | 人工参考分 | 偏差 |
|---|---|---|---|
| 技术路线 | 4.2 | 4.0 | +0.2 |
| 实施计划 | 3.8 | 4.0 | -0.2 |
| 团队配置 | 4.5 | 4.5 | 0 |
2.3 置信度标注
每次评分附带一个置信度。如果 AI 对某些条款判断不确定(比如文本模糊、缺乏依据),就标低置信度,提醒人工重点关注。
三、人工审核:保留关键决策权
AI 评分的定位是“辅助”,不是“替代”。人工审核是质量控制的核心环节。
3.1 分层审核策略
不是所有方案都需要人工逐条复核。可以按风险等级分层:
- 低风险方案(AI 评分高且置信度高):只做抽检,5% 比例;
- 中风险方案(评分中等或置信度中等):逐项复核偏差较大的维度;
- 高风险方案(评分低或置信度低):全量人工复核。
3.2 审核清单
给审核人员提供标准化清单,避免凭感觉判断:
- AI 评分与人工直觉是否一致?
- AI 是否遗漏了关键条款?
- 是否存在 AI 难以理解的行业术语或隐含要求?
- 评分依据是否可追溯?
3.3 反馈闭环
每次人工审核后,将发现的错误或改进点反馈回模型。比如:
- 修正评分规则的结构化描述;
- 补充典型错误案例到知识库;
- 调整提示词的约束条件。
这个循环越久,AI 评分质量就会越高。
四、持续监控与迭代
质量管控不是一次性的。落地后需要建立监控指标:
- 偏差率:AI 与人工评分的平均偏差;
- 异常率:AI 评分明显偏离预期的方案占比;
- 退回率:人工审核退回重新评分的比例。
建议每周复盘一次,将问题归类,持续优化。
小结
AI 评标的质量控制,本质上是一套“数据 + 模型 + 人工”的协同机制。数据质量是基础,模型校准是手段,人工审核是保障。三者缺一不可。我们基于青天大模型的企业级 AI Agent,在投标场景中内置了这套质量管控流程。想了解如何落地?欢迎联系我们。