千问迎来“国考”

4小时前来源：华尔街见闻原文链接评论0条

对1290万高考考生而言，高考落幕，另一场更复杂的“考试”随之开始。

填报志愿需要处理分数、位次、选科、院校、专业、城市、就业和家庭条件，每个变量都可能改变最终结果，同一组成绩也能导向截然不同的人生路径。

这道题没有标准答案，容错空间又极为有限。

6月10日，千问为此上线高考志愿填报Agent，为全国考生免费提供志愿填报咨询。

春节以来，千问一直围绕“AI办事”扩展能力，从点奶茶、购物，到打车、订机票，大模型开始连接真实世界的服务与履约，此类任务通常拥有明确终点，失败后也大多可以退款、取消或重新选择。

高考志愿改变了任务的性质。

千问事业部总裁吴嘉在接受华尔街见闻采访时表示，高考延续了千问“AI办事”的方向，也是千问第一次利用Agent在真实世界解决相对复杂的问题。

“千问高考以Agent形态服务用户，相比通用的聊天机器人，Agent具备自我思考，识别问题边界、记忆和用户主动对齐能力，从而给用户提供专业，个性化的服务。”吴嘉说。

由此，千问高考志愿填报Agent成为一场千万级、低容错的真实世界压力测试。它要检验AI能否认识边界、理解需求、调用工具并持续修正，最终交付一套可靠的决策方案。

千问迎来“国考” - 1

从ChatBot到Agent，先要知道自己的边界

吴嘉解释了高考志愿的特殊性。

不同于消费场景有一定容错率，如果是高考志愿的学校与专业出现错误，影响会延续数年；生活履约主要检验执行，高考志愿还要处理复杂取舍。

学校层级、专业兴趣、城市偏好和就业前景经常相互牵制，考生本人也未必清楚真实需求。一时对热门专业产生兴趣，和未来愿意长期从事相关工作，是两件差异很大的事情。

传统ChatBot接到问题后，通常沿着检索、生成、回复的路径运行，即使条件不足，它也可能快速给出一份看似完整但实际充满幻觉的答案。

Agent需要另一套工作方式。

按照吴嘉的描述，千问高考首先要认识自己的能力边界。

某省最新分数线尚未公布时，系统应当告诉用户继续等待，它不能从旧数据中拼出一个结果，只为满足即时回答的期待。

第二项能力是持续对齐。

用户没有提供准确分数，Agent会继续询问；院校优先还是专业优先没有说清楚，它也会要求用户补充。兴趣、地域、家庭条件发生变化后，相关信息会进入记忆模块，志愿日历与志愿报告随之更新。

第三项能力是独立判断。

吴嘉举例称，一名考生取得700分，却坚持选择一所明显低于其分数区间的学校，千问不会简单顺从，系统会提示分数可能被浪费，并给出其他选择。面对边界模糊的需求，它也会提供多套方案，让用户看清不同选择对应的收益与代价。

它需要判断何时追问、何时劝阻、何时暂缓回答。

值得一提的是，千问并没有单独训练一套与通用模型割裂的高考模型。吴嘉称，后台运行的是统一的千问模型和Agent架构，高考场景通过专业训练、知识库与工具进行能力增强。

同一个模型可以点奶茶，也可以填志愿。任务复杂度不同，模型的思考深度、工具组合与决策流程随之改变。

为了应对高考场景，千问构建了覆盖约40万种组合空间的“AI考生”体系。其主体来自夸克过去8年积累的真实复杂需求，覆盖不同省份、分数段和偏好组合，并通过适度合成补充极端情形。

在执行过程中，模型可以调用搜索、就业信息、志愿匹配等39个Skills与专业工具。知识库覆盖全国近3000所高校和2000多个专业，200多项验证规则用于拦截高风险数据错误。

整套流程用于降低幻觉风险。

吴嘉强调，千问会对重要数据提供来源溯查，对关键数字作显著提示，并在报告中呈现推荐理由与风险。准确性来自数据边界、工具核验和过程控制，也来自系统在信息不足时愿意停下来。

从ChatBot到Agent，变化发生在对话框背后，系统开始对输入是否充分、思考是否完整、行动是否正确和结果是否可靠共同负责。

这次千问高考Agent的发布，让市场观察到了大模型能力的下一道分水岭，即正在从回答有标准答案的问题，走向处理没有标准答案的决策。

千问迎来“国考” - 2

把专家经验训成成公共能力

高考志愿服务长期存在一个看似矛盾的现象。

院校名单、招生政策和录取分数越来越公开，家庭之间的决策差距依然明显，信息能够被搜索，不代表每个家庭都知道怎样使用。

真正昂贵的部分，是分数和位次如何换算，学校、专业与城市如何取舍，就业与深造路径怎样评估，以及一个18岁的年轻人如何辨认自己尚未完全成形的兴趣。

市场上的深度志愿服务收费往往超过5000元，家庭之间的差距也更多来自能否获得这些经验。高考的信息差，已经逐步转化为判断力和家庭认知资源的差距。

千问尝试将一名专业规划师的工作方法拆成可规模化运行的Agent流程：建立考生档案，识别偏好，将自然语言转化为决策约束，调用权威数据，生成多套方案，解释其中的取舍，再根据反馈持续修改。

产品还要解决一层新的差距：有人善于向AI提问，也有人不知道该问什么。

吴嘉承认，会问与不会问的用户，在chatbot上可能相差很大。千问Agent采用主动追问来补全背景信息，志愿日历则把复杂决策拆成一系列具体任务，用户即使没有成熟的问题，也能沿着时间节点逐步完成成绩定位、自我探索和院校专业了解。

去年，千问相关志愿报告领取量接近1300万份。今年的产品进一步覆盖志愿日历、志愿报告和志愿问答，并允许用户边阅读、边反馈、边修改。

大规模服务背后的壁垒，还来自公开数据之外的长期积累。

吴嘉提到，训练Agent所需的很多知识很难直接找到，它们存在于专家经验、真实用户的选择和组织内部知识库中，夸克连续8年积累高考服务经验，再与志愿规划师、学者和数据合作伙伴共同建立专业能力，形成了千问进入高考场景的基础。

40万种“AI考生”的意义也在这里。它们承载着不同地区、不同分数段和不同家庭需求中的复杂组合。模型在历史节点上接受压测，专家再判断方案是否合理。

真实世界中的经验，由此转化为模型可以学习和检验的训练样本。

互联网降低了信息获取成本，AI正在尝试降低专业判断的获取成本。

这项社会价值仍有清晰边界，吴嘉多次强调，考生需要认真理解学校和专业，最终决定也要由考生与家长完成。AI可以扩大专业服务的覆盖面，可以帮助用户看见遗漏的选项，却无法替一个人承担人生选择。

千问高考要规模化供给一份志愿表，也要供给原本分散在规划师、数据库和家庭资源中的判断方法。

千问迎来“国考” - 3

Agent的新指标，是“交付完美度”

移动互联网长期用MAU、DAU、打开频率和用户时长衡量产品价值，Agent开始替用户执行任务后，传统指标正在遇到新的解释难题。

一个真正高效的Agent，可能让用户更少停留在应用中，它所承接的任务却更长、更复杂，也更接近最终结果。

外界常用“任务份额”概括这场变化，吴嘉给出了一个更具体的指标：交付完美度。

他表示，千问目前没有考察复杂任务占比，也不会把复杂任务越多直接等同于服务越好。不同职业、行业和用户拥有不同的任务结构，千问更关注面向一个具体职业的各种任务，产品能够达到怎样的交付完美度。

任务会按照难度分层，复杂任务是重点优化对象，评价过程同时覆盖输入、思考、行动与结果。

用户提供的信息是否充分，模型思考是否完整，工具调用是否正确，最终方案是否满足需求，用户在整个填报周期是否满意，都属于完整评估体系的一部分。

这套方法与移动互联网熟悉的点击反馈存在明显区别。一个回答获得点赞，未必代表决策质量足够高；用户没有点赞，也无法直接说明结果失败。

Agent需要观察整个服务链路，再把真实实践抽象成新的训练样本。

吴嘉判断，ChatBot很难随着使用自然变得更聪明，Agent可以通过一次次真实任务持续进化。

高考场景沉淀的通用框架可以概括为：思考，行动，观察结果，再决定下一步行动。这套框架能够迁移到求职、医疗、办公等专业场景。

迁移仍是一项庞大工程。

每个行业都需要独有的知识、工具、决策函数和完整评估体系。不同行业的优化目标还可能相互冲突，一项能力被重点强化，另一项能力可能随之受损。统一模型既要进入更多专业场景，也要维持整体能力的平衡。

通用Agent需要调用大量Skills，也要管理彼此冲突的专业目标。

高考一年只有一次，服务免费，数据维护和模型推理成本都不低，按照传统互联网的流量逻辑，它很难被视为典型的高频场景。对于Agent，高考能够检验统一模型承接高风险任务的能力，也能建立用户对专业服务的信任。

吴嘉将千问高考的产品特点概括为“专业、省心、个性化”，他没有刻意强调AI，因为AI始终是完成任务的工具。

Agent时代的新竞争将更多落到交付质量：每一类任务完成得有多好，复杂任务的可靠性有多高。

高考则是千问必须答好的一道题。

千问迎来“国考” - 4

结语

模型榜单测试知识、推理和编程能力，高考志愿测试的是另一套能力。

它要求系统知道信息是否充分，知道自己的能力边界，知道什么时候追问，什么时候提示风险，也知道什么时候把决定交还给用户。

生成报告只是千问这场考试最基础的一项评分，输入、思考、行动和结果的完整质量，用户能否理解选择的收益与代价，同样构成评分标准。

衡量AI助手的真正尺度，既要看人们敢把多重要的事情交给它，也要看它是否知道自己的角色在哪里结束。

人可以把重要的事交给AI，但最后一笔仍应由人自己落下。

关键词： AI 千问高考填志愿

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络[email protected]。