KPL下注app下载官方版清程极智翟季冬: token也有“质料问题”

来源：未知作者：admin 发布时间：2026-06-09 00:11 浏览：160

在智能体活跃，token（词元）浮滥量呈指数级加多的2026年，token经济以及算力的受醉心经过恒河沙数。以“龙虾”OpenClaw为代表的智能体需要浮滥算力，用户必须从token供应商处获取API key（密钥），智力让这些智能体浅薄启动。

不外，许多东说念主不知说念的是，即等于吞并款模子，凭证供应商的不同，其token的“质料”也会存在各别。近日，‌清华大学策画机系长聘教师‌、博士生导师，‌清程极智首席科学家翟季冬接受了新京报贝壳财经记者的采访，揭开了token经济中这一“避让的边缘”。

此外，手脚曾教导清华团队十五次得回国际大学生超算竞赛冠军的换取古道，翟季冬和团队成员也对刻下国产算力芯片怎样与大模子进行适配，以及二者之间“推理引擎”层的作用，对新京报贝壳财经记者进行了科普。

‌清华大学策画机系长聘教师‌、博士生导师，‌清程极智首席科学家翟季冬恢复记者发问。罗亦丹/摄

吞并模子，低廉token有可能更“花钱”

“token是本年最火的词，但token底层触及许多时间。”翟季冬开门见平地说，在他看来，token产业不错分为三层：底层是在芯片上部署大模子，坐褥token的坐褥层；中间层是手脚token供应商转运分发token的畅通层；最表层则是个东说念主和企业用户成功调用API消费token的使用层。

滚球app中国官方网站

这三层结构听上去跟电力系统有些相似，但翟季冬强调，两者的熟谙度系数不在一个量级，“当咱们用电时，毋庸惦记发出来的电有‘区分’，但token不同，通常的模子、通常的价钱，token质料却可能杂乱不都。”

他告诉记者，内容上，token供应商的贪图有许多，除了下里巴人的价钱、荆棘文长度外，还有首字延伸、模糊量，以及无为用户较难贯穿的精度、 KV Cache（键值缓存）掷中等。

而这些“避让的细节”可能决定模子的后果和token浮滥的大小。

在模子后果方面，翟季冬例如称，比如模子发布时可能接纳了BF16精度，但有些供应商会把它量化成INT8致使INT4来部署，平正是算力浮滥减半，不错承载更多用户，代价是模子智商被“剪辑”了，不再是原汁原味的后果。

据了解，FP16、INT8等专科术语指的是大模子推理的精度，数字（4/8/16/32/64）代表位数，一般来说，位数越高，策画精度越高、戒指越准，但速率越慢、浮滥算力越大；位数越低，速率越快、越省算力，但会轻细赔本模子后果。

而在token浮滥量方面，翟季冬给记者算了一笔账：通常的模子，一家供应商报价每百万token3元，另一家报价1元，看似低廉的那家，内容总资本可能反而更高。“它有两行报价，一排是token掷中，可能是一毛钱，token不掷中是一块钱。然而它的token坐褥作念得很差，你的这些肯求都不掷中，临了反而花钱。”

清程极智聚创举始东说念主师天麾解说称，KPL下注app下载官方版这里的中枢时间是KV Cache（键值缓存）措置——在多轮对话场景中，缓存掷中不错节俭90%的资本，但不同供应商的缓存措置水平差距强大，其中报价低的工作商也许缓存并不高，本该节俭的那些缓存没能节俭，导致总资本很高。但工作商在卖token时，一般不会成功证实缓存掷中率是些许，致使有些工作商成功不给缓存掷中的优惠价钱。

针对这一乱象，清程极智推出了AI Ping一站式大模子工作评测与API智能路由平台，目下，平台已接入30余家主流工作商、600余个大模子工作，障翳文本、图片、视频等全场景；通过7×24小时多地域散布式监测，及时输出延伸、模糊、可靠性、价钱等中枢贪图。

不同供应商提供的DeepSeek-V4-Pro模子的token延伸情况对比图。数据源头：aiping.cn

6月8日，新京报贝壳财经记者登录AI Ping平台，就地检察了DeepSeek-V4-Pro模子不同token供应商的延伸情况，发现其纪录了价钱、延伸、模糊等贪图。如关于延伸这一贪图，一些工作商的弧线波动极大，而最为知晓的则是DeepSeek官方提供的token。

“中国的电力系统在全寰球是第一的，咱们但愿通过多样辛劳，大要把我国token工作的质料和性能也作念到全寰球第一。”翟季冬说。

芯片发展趋势：营救的精度类型越来越多

token质料的各别，追本穷源要落到芯片和推理引擎上。一个容易被忽略的事实是：在国产算力和国产模子之间，并不是成功对接的干系，中间还隔着一层至关穷困的“推理引擎”。这层软件继往开来，决定了芯片的算力能不可被高效开释，也决定了最终身产出来的token质料够不够好。

翟季冬用精度问题向贝壳财经记者解说了推理引擎的价值——“许多东说念主认为芯片正在向精度越来越高发展，但事实上，芯片正在向营救的精度类型越来越多发展，例如，传统CPU可能只营救三、四种精度类型，而目下的AI芯片能营救十几种，从FP64、FP32、FP16到FP8、FP4，还有INT8、INT4等整数精度，每一种都有不同的性能和后果量度。”

“模子不是说一定要选最高的精度才好，因为精度更高的同期，也更慢，每个模子会选一个恰到平正的精度。”清程极智聚创举始东说念主唐适之补充说念，“目下来讲，主流模子的遴选经常奴隶英伟达走——比如FP8就是英伟达推出Hopper系列显卡时新增的精度，DeepSeek认为FP8最合适我方的模子，就选了这个要领。”

但问题随之而来：国产芯片的精度营救并不系数跟英伟达对都。“对DeepSeek来讲，国产卡有的精渡过高有的精渡过低，使用起来岂论怎样都是有赔本的。”

这恰是推理引擎的用武之地。翟季冬告诉记者，外洋主流推理引擎如vLLM、SGlang对英伟达、AMD的生态营救更好，但对国产芯片的优化干涉有限。针对大模子部署资本高、国产算力适配不及的痛点，清程极智推出了自主研发的国产推理引擎赤兔，其对国产模子、国产芯片的营救在很厚情况下比vLLM、SGlang要更好。

这种上风不仅仅体目下精度适配层面。唐适之先容，不同国产芯片的硬件秉性各别很大，比如有些卡的张量策画智商和标量策画智商之间的量度跟英伟达不一样，有些卡的卡间互联面容也不同，推理引擎需要针对这些秉性作念定制化想象。“咱们要确实地凭证国产卡上头的秉性来选咱们的完结决策，而不是说看英伟达上头有这个精度就选这个精度。”

“咱们将合手续深耕AI基础门径限度，坚合手中枢时间自主可控，抑止迭代赤兔推理引擎对国产芯片的适配智商，完善AI Ping评测与路由工作，联动国产算力、国产模子、行业诈欺等产业链伙伴，打造高效、普惠、安全的国产AI基础门径体系，反馈国度‘东说念主工智能+’举止，以时间革命鼓动中国AI产业高质料发展。”翟季冬说。

新京报贝壳财经首席记者罗亦丹编订陈莉校对柳宝庆KPL下注app下载官方版

KPL下注app下载官方版 清程极智翟季冬: token也有“质料问题”

KPL下注app下载官方版清程极智翟季冬: token也有“质料问题”