最好看的新闻,最实用的信息
06月11日 16.0°C-18.2°C
澳元 : 人民币=4.73
纽卡素
今日澳洲app下载
登录 注册

千问迎来“国考”

4小时前 来源: 华尔街见闻 原文链接 评论0条

对1290万高考考生而言,高考落幕,另一场更复杂的“考试”随之开始。

填报志愿需要处理分数、位次、选科、院校、专业、城市、就业和家庭条件,每个变量都可能改变最终结果,同一组成绩也能导向截然不同的人生路径。

这道题没有标准答案,容错空间又极为有限。

6月10日,千问为此上线高考志愿填报Agent,为全国考生免费提供志愿填报咨询。

春节以来,千问一直围绕“AI办事”扩展能力,从点奶茶、购物,到打车、订机票,大模型开始连接真实世界的服务与履约,此类任务通常拥有明确终点,失败后也大多可以退款、取消或重新选择。

高考志愿改变了任务的性质。

千问事业部总裁吴嘉在接受华尔街见闻采访时表示,高考延续了千问“AI办事”的方向,也是千问第一次利用Agent在真实世界解决相对复杂的问题。

“千问高考以Agent形态服务用户,相比通用的聊天机器人,Agent具备自我思考,识别问题边界、记忆和用户主动对齐能力,从而给用户提供专业,个性化的服务。”吴嘉说。

由此,千问高考志愿填报Agent成为一场千万级、低容错的真实世界压力测试。它要检验AI能否认识边界、理解需求、调用工具并持续修正,最终交付一套可靠的决策方案。

千问迎来“国考” - 1

从ChatBot到Agent,先要知道自己的边界

吴嘉解释了高考志愿的特殊性。

不同于消费场景有一定容错率,如果是高考志愿的学校与专业出现错误,影响会延续数年;生活履约主要检验执行,高考志愿还要处理复杂取舍。

学校层级、专业兴趣、城市偏好和就业前景经常相互牵制,考生本人也未必清楚真实需求。一时对热门专业产生兴趣,和未来愿意长期从事相关工作,是两件差异很大的事情。

传统ChatBot接到问题后,通常沿着检索、生成、回复的路径运行,即使条件不足,它也可能快速给出一份看似完整但实际充满幻觉的答案。

Agent需要另一套工作方式。

按照吴嘉的描述,千问高考首先要认识自己的能力边界。

某省最新分数线尚未公布时,系统应当告诉用户继续等待,它不能从旧数据中拼出一个结果,只为满足即时回答的期待。

第二项能力是持续对齐。

用户没有提供准确分数,Agent会继续询问;院校优先还是专业优先没有说清楚,它也会要求用户补充。兴趣、地域、家庭条件发生变化后,相关信息会进入记忆模块,志愿日历与志愿报告随之更新。

第三项能力是独立判断。

吴嘉举例称,一名考生取得700分,却坚持选择一所明显低于其分数区间的学校,千问不会简单顺从,系统会提示分数可能被浪费,并给出其他选择。面对边界模糊的需求,它也会提供多套方案,让用户看清不同选择对应的收益与代价。

它需要判断何时追问、何时劝阻、何时暂缓回答。

值得一提的是,千问并没有单独训练一套与通用模型割裂的高考模型。吴嘉称,后台运行的是统一的千问模型和Agent架构,高考场景通过专业训练、知识库与工具进行能力增强。

同一个模型可以点奶茶,也可以填志愿。任务复杂度不同,模型的思考深度、工具组合与决策流程随之改变。

为了应对高考场景,千问构建了覆盖约40万种组合空间的“AI考生”体系。其主体来自夸克过去8年积累的真实复杂需求,覆盖不同省份、分数段和偏好组合,并通过适度合成补充极端情形。

在执行过程中,模型可以调用搜索、就业信息、志愿匹配等39个Skills与专业工具。知识库覆盖全国近3000所高校和2000多个专业,200多项验证规则用于拦截高风险数据错误。

整套流程用于降低幻觉风险。

吴嘉强调,千问会对重要数据提供来源溯查,对关键数字作显著提示,并在报告中呈现推荐理由与风险。准确性来自数据边界、工具核验和过程控制,也来自系统在信息不足时愿意停下来。

从ChatBot到Agent,变化发生在对话框背后,系统开始对输入是否充分、思考是否完整、行动是否正确和结果是否可靠共同负责。

这次千问高考Agent的发布,让市场观察到了大模型能力的下一道分水岭,即正在从回答有标准答案的问题,走向处理没有标准答案的决策。

千问迎来“国考” - 2

把专家经验训成成公共能力

高考志愿服务长期存在一个看似矛盾的现象。

院校名单、招生政策和录取分数越来越公开,家庭之间的决策差距依然明显,信息能够被搜索,不代表每个家庭都知道怎样使用。

真正昂贵的部分,是分数和位次如何换算,学校、专业与城市如何取舍,就业与深造路径怎样评估,以及一个18岁的年轻人如何辨认自己尚未完全成形的兴趣。

市场上的深度志愿服务收费往往超过5000元,家庭之间的差距也更多来自能否获得这些经验。高考的信息差,已经逐步转化为判断力和家庭认知资源的差距。

千问尝试将一名专业规划师的工作方法拆成可规模化运行的Agent流程:建立考生档案,识别偏好,将自然语言转化为决策约束,调用权威数据,生成多套方案,解释其中的取舍,再根据反馈持续修改。

产品还要解决一层新的差距:有人善于向AI提问,也有人不知道该问什么。

吴嘉承认,会问与不会问的用户,在chatbot上可能相差很大。千问Agent采用主动追问来补全背景信息,志愿日历则把复杂决策拆成一系列具体任务,用户即使没有成熟的问题,也能沿着时间节点逐步完成成绩定位、自我探索和院校专业了解。

去年,千问相关志愿报告领取量接近1300万份。今年的产品进一步覆盖志愿日历、志愿报告和志愿问答,并允许用户边阅读、边反馈、边修改。

大规模服务背后的壁垒,还来自公开数据之外的长期积累。

吴嘉提到,训练Agent所需的很多知识很难直接找到,它们存在于专家经验、真实用户的选择和组织内部知识库中,夸克连续8年积累高考服务经验,再与志愿规划师、学者和数据合作伙伴共同建立专业能力,形成了千问进入高考场景的基础。

40万种“AI考生”的意义也在这里。它们承载着不同地区、不同分数段和不同家庭需求中的复杂组合。模型在历史节点上接受压测,专家再判断方案是否合理。

真实世界中的经验,由此转化为模型可以学习和检验的训练样本。

互联网降低了信息获取成本,AI正在尝试降低专业判断的获取成本。

这项社会价值仍有清晰边界,吴嘉多次强调,考生需要认真理解学校和专业,最终决定也要由考生与家长完成。AI可以扩大专业服务的覆盖面,可以帮助用户看见遗漏的选项,却无法替一个人承担人生选择。

千问高考要规模化供给一份志愿表,也要供给原本分散在规划师、数据库和家庭资源中的判断方法。

千问迎来“国考” - 3

Agent的新指标,是“交付完美度”

移动互联网长期用MAU、DAU、打开频率和用户时长衡量产品价值,Agent开始替用户执行任务后,传统指标正在遇到新的解释难题。

一个真正高效的Agent,可能让用户更少停留在应用中,它所承接的任务却更长、更复杂,也更接近最终结果。

外界常用“任务份额”概括这场变化,吴嘉给出了一个更具体的指标:交付完美度。

他表示,千问目前没有考察复杂任务占比,也不会把复杂任务越多直接等同于服务越好。不同职业、行业和用户拥有不同的任务结构,千问更关注面向一个具体职业的各种任务,产品能够达到怎样的交付完美度。

任务会按照难度分层,复杂任务是重点优化对象,评价过程同时覆盖输入、思考、行动与结果。

用户提供的信息是否充分,模型思考是否完整,工具调用是否正确,最终方案是否满足需求,用户在整个填报周期是否满意,都属于完整评估体系的一部分。

这套方法与移动互联网熟悉的点击反馈存在明显区别。一个回答获得点赞,未必代表决策质量足够高;用户没有点赞,也无法直接说明结果失败。

Agent需要观察整个服务链路,再把真实实践抽象成新的训练样本。

吴嘉判断,ChatBot很难随着使用自然变得更聪明,Agent可以通过一次次真实任务持续进化。

高考场景沉淀的通用框架可以概括为:思考,行动,观察结果,再决定下一步行动。这套框架能够迁移到求职、医疗、办公等专业场景。

迁移仍是一项庞大工程。

每个行业都需要独有的知识、工具、决策函数和完整评估体系。不同行业的优化目标还可能相互冲突,一项能力被重点强化,另一项能力可能随之受损。统一模型既要进入更多专业场景,也要维持整体能力的平衡。

通用Agent需要调用大量Skills,也要管理彼此冲突的专业目标。

高考一年只有一次,服务免费,数据维护和模型推理成本都不低,按照传统互联网的流量逻辑,它很难被视为典型的高频场景。对于Agent,高考能够检验统一模型承接高风险任务的能力,也能建立用户对专业服务的信任。

吴嘉将千问高考的产品特点概括为“专业、省心、个性化”,他没有刻意强调AI,因为AI始终是完成任务的工具。

Agent时代的新竞争将更多落到交付质量:每一类任务完成得有多好,复杂任务的可靠性有多高。

高考则是千问必须答好的一道题。

千问迎来“国考” - 4

结语

模型榜单测试知识、推理和编程能力,高考志愿测试的是另一套能力。

它要求系统知道信息是否充分,知道自己的能力边界,知道什么时候追问,什么时候提示风险,也知道什么时候把决定交还给用户。

生成报告只是千问这场考试最基础的一项评分,输入、思考、行动和结果的完整质量,用户能否理解选择的收益与代价,同样构成评分标准。

衡量AI助手的真正尺度,既要看人们敢把多重要的事情交给它,也要看它是否知道自己的角色在哪里结束。

人可以把重要的事交给AI,但最后一笔仍应由人自己落下。

今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(0)
暂无评论


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

电话: (02) 8999 8797

联系邮箱: [email protected] 商业合作: [email protected]网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:[email protected]

友情链接: 华人找房 到家 今日支付Umall今日优选