Token - WWW.VNIRY.CN - WWW.VNIRY.CN

Claude Token 榜：迪士尼「榜一大哥」9 天 46 万次，Meta 月烧 60 万亿

www.ithome.com · 2026-05-04 23:59:53+08:00 · tech

Claude 现在到底有多火呢？从律师到奶奶，半个地球都在偷偷用 Claude，全民用 Claude 打工，也是全民给 Claude 打工。迪士尼最近就做了一件「很不迪士尼」的事。它在内网上线了一块看板，名字直白得不像那个出品白雪公主的公司 —— 「AI Adoption Dashboard」。看板上滚动着三个数字：每个员工调用 AI 的频率、请求次数、 token 消耗量。 Claude 是主要追踪对象。实时 Token 消耗排行榜，谁烧得多谁靠前。最炸眼的那行数据是这样的 —— 一名员工，9 个工作日，调用 Claude 约 46 万次。平均下来，每天 51,000 次。每 1.7 秒一次。 BusinessInsider 把这个数字捅出来的时候，硅谷第一反应不是吓到，是冒出一个新词 —— tokenmaxxing 。意思是：把 token 用量拉满，谁烧得多谁就是 AI 时代的「榜一大哥」。更黑色幽默的是上下文。就在几周前，迪士尼新任 CEO Josh D'Amaro 刚刚批了一轮 1000 人的裁员，砍的主要是营销和品牌部门，连 Marvel 整个公关团队都被端了。一边裁掉 1000 个真人，一边给 AI 排行榜加配额。有员工给 Bridge Chronicle 留言说：「他们现在在庆祝，看能持续多久。」整个硅谷都在争当 Claude 榜一大哥但你要是以为这只是迪士尼一家在卷，那就太低估硅谷了。把镜头拉到湾区，整个硅谷都在 tokenmaxxing 。 Meta 的故事更离谱。 2026 年 4 月初，一名 Meta 员工自己写了一个内部小工具，起了个戏谑的名字叫「 Claudeonomics 」—— 专门统计全公司 8 万 5 千名员工的 Claudetoken 消耗量。数据出来那天，整个公司炸了。 30 天内，Meta 全员烧掉了 60 万亿 token —— 按 Claude 公开 API 价折算，约 90 亿美元。榜首单人 30 天烧了 2810 亿 token，约值 140 万美元。最骚的彩蛋是扎克伯格本人没进 Top250 。 MetaCTO 也没进。整个公司喊「AI 优先」喊得最响的两个人，自己的 token 消耗连普通工程师的零头都赶不上。新闻爆出 48 小时后，Claudeonomics 被内部砍掉，理由是「数据外泄」。但这个词，已经从 Meta 内网，蔓延到了整个硅谷。 Uber 那边更野，2026 年全年 AI 预算 34 亿美元， 4 个月烧光。大头砸在 Claude Code 上。老黄给整个 tokenmaxxing 教派站了台。他在一次活动上说 —— 「如果一个年薪 50 万美元的工程师，没在 AI 工具上烧掉 25 万美元的 token，我会深感不安。」这句话很快成为 2026 春天的硅谷新教义。 Anthropic 那边数字更夸张。 2026 年 4 月，年化收入冲到 300 亿美元，首次超过 OpenAI 的 250 亿。 Fortune 10（财富榜前 10）里有 8 家是 Claude 的客户。年付 100 万美元以上的企业客户，从两个月前的 500 家，直接翻倍到 1000+ 家。一切都指向同一个结论 —— 程序员们正在以从未有过的强度，把 Claude 烧成生产力。并不只有程序员在使用 Claude 但是！你要是把目光只停留在程序员身上，那就只看到了冰山的一角。真相是 —— 写代码的人，只是 Claude 用户的一小部分。 Anthropic 自己发了一份叫《Anthropic Economic Index》的报告，统计真实 Claude 用户都在用它干什么。第一份报告显示：软件工程是最大单一用途，但教育、写作、商业策略、客服、行政这些非程序员用途加起来 —— 已经稳稳超过了一半。后续几次更新，软件工程占比还在缓慢下滑。不是因为程序员变少了，是因为后面的人挤了进来。谁挤进来了？让我们一个一个看。律师凌晨两点，纽约一栋律所大楼。并购律师 Sarah 对着 300 页的合同条款发呆 —— 客户六小时后要看初稿。她打开 Claude，把整份文件喂进去，让它把中英文条款对照、风险标注、关键条款摘要全部跑一遍。两小时后，初稿成型。她终于睡了三小时。这是她加入 A&O Shearman 之后，第一个能睡满三小时的并购夜。 A&O Shearman—— 由 Allen&Overy 与 Shearman&Sterling 合并而来的全球顶级律所 —— 已经把 Claude 部署给了数千名律师，作为标准工作流的一部分。其他第一梯队律所紧随其后。 Harvey、Lex 这些 Legal Tech 平台，底层调用的也是 Anthropic。「合同审阅效率从 30 小时压到 3 小时」—— 这种话过去三年里你一定听过太多次。但 2026 年的现实是：律所合伙人不再讨论要不要用 AI，他们在讨论哪个新人不会用 Claude，是不是就别要了。教育 Anthropic 推出了 Claude for Education，与多所美国常春藤院校建立合作。但更有意思的故事是 —— 大学教授们自己也开始用 Claude 备课。某位常青藤教授的真实工作流：每周日晚上，把下周三节课的教学大纲扔给 Claude Claude 帮他生成五版「不同切入角度」的讲义他挑两版，再人工修订总耗时从过去的 8 小时压到 1.5 小时学生用 Claude 写论文，老师用 Claude 改作业。这就形成了一个微妙的闭环 ——AI 写的论文，可能被另一个 AI 评分，然后这两个 AI 都跑在同一个 ClaudeAPI 上。 Anthropic Economic Index 数据里，「教育与教学」是 Claude.ai 上仅次于编程的第二大用途。好莱坞与创意 2023 年那场轰动一时的好莱坞编剧大罢工，写进合同的那一条 ——「AI 不能署名为编剧」—— 并没有挡住 AI 进入剧本创作。它只是改变了游戏规则。 2026 年的真实工作流是这样：编剧把人物档案、世界观设定、前 30 集剧情压缩成一段 prompt，扔给 Claude。让它「尝试 5 种第 31 集的开场」。然后挑一个最有意思的，再人工改写、署名为人类作品。 Claude 不是在替代编剧。Claude 是编剧手底下那个不睡觉、不耍脾气、不要工资的「幽灵助理」。记者也在用。独立作家也在用。Substack 上一些拥有数十万订阅的写作者，公开承认 Claude 是他们的第二位编辑 —— 草稿先扔给 Claude 挑刺，再自己改。有一种新的写作伦理正在形成 —— 人类负责想清楚要写什么，AI 负责把它写得更顺畅。据说是好莱坞首位 AI 女演员金融 Bridgewater 那个数百亿规模的对冲基金，公开使用 Claude 做投研辅助。每周三早晨，一个量化分析师的桌面是这样的 —— 打开 Claude，把过去一周的 50 份财报电话会议纪要、20 份券商研报、10 份美联储官员讲话扔进去。让它输出一份「市场情绪 + 关键变量 + 隐藏风险」的综合简报。人类分析师拿着这份简报，加上自己的判断，再向上汇报。「Claude 不会替我做决策，它替我读完了我读不完的东西。」—— 这句话最近被各种投行交易员、宏观研究员、并购顾问用各种语言重复。高盛、摩根士丹利的内部 AI 平台，几乎都在「多模型并发」中调用 Claude。普通人的 Vibe Coding 最让人意外的群体是这一群 —— 完全不会写代码的人。硅谷给他们起了个新名字叫 vibecoder 。举一个真实例子 —— 一位住在加州小镇的全职妈妈，想给社区里的家长们做一个「二手玩具交换」小程序。她不会写代码，连「函数」是什么都说不清。她在 Replit+Claude 上花了两个周末，用最朴素的中文描述需求：我要一个页面，左边是要送出的玩具，右边是想要的玩具，匹配上就发邮件提醒。 Claude 直接吐代码。她按 deploy。一个月后，社区里 300 多个家庭在用这个 app。类似的故事在 v0、Lovable、Bolt 这些平台上每天都在发生。 Anthropic 内部数据显示 —— Claude Code 的「非传统开发者」用户增长，已经超过了传统开发者。奶奶都开始造产品了。这是 2026 年最反常识的一幕。 OK，回到迪士尼那块排行榜。把所有数据看完之后，你应该看到一种奇怪的对照 —— 烧 token 最猛的那群人，恰恰不是 Claude 最重要的用户群。烧得最猛的是程序员。但用得最广的，是律师、政府、教师、编剧、分析师，和那些不会写代码的妈妈们。排行榜统计的是 input。商业世界真正想要的是 outcome。「Enterprises don't buy AI. They buy outcomes.」这是 Machine Brief 的一句话，也是 2026 年所有 AI 攀比文化最锋利的反面镜子。把镜头再拉远一点。 Claude 已经不再是一个聊天机器人。它也不只是程序员的瑞士军刀。它是这个时代正在成形的「实习生军团」。不要工资。不要医保。不要假期。它唯一的成本是 token。它不会替代任何一个具体岗位，但它在每一个岗位旁边都坐了一个分身。律师身边坐着，公务员身边坐着，教授身边坐着，编剧身边坐着，分析师身边坐着，全职妈妈身边也坐着。如果有一本叫《Claude 的全球户口本》的本子，2026 年翻开它，你会看到 —— 程序员、律师、教师、编剧、记者、分析师、咖啡店老板、社区活动组织者、二手玩具交换的妈妈们…… 一直翻下去，没有尽头。但这本户口本上，正在登记的是 —— 一个时代正在被悄悄重新塑造的工种地图。参考资料： https://www.businessinsider.com/disney-ai-adoption-dashboard-tokens-tokenmaxxing-claude-cursor-josh-damaro-2026-4 本文来自微信公众号：新智元（ID：AI_era），作者：新智元

小米 MiMo-V2.5 系列开源＆ Orbit 百万亿 Token 计划启动

www.ithome.com · 2026-04-28 07:07:44+08:00 · tech

IT之家 4 月 28 日消息，小米技术官方今日凌晨宣布，小米 MiMo-V2.5 系列开源＆ Orbit 百万亿 Token 计划启动。 MiMo-V2.5 系列模型已于 4 月 23 日开启公测，系列包含两款模型，均支持 100 万上下文窗口： MiMo-V2.5-Pro，面向复杂的任务场景，深度适配 Agent 与 Coding 应用，在 GDPVal-AA 和 ClawEval 榜单上位列全球开源模型第一 MiMo-V2.5，原生全模态模型，支持文本、图像、视频和音频理解，具备强大的 Agent 能力小米技术表示，模型的真正价值不在于榜单排名，而在于能否高效帮助开发者解决实际问题。在 Claw-Eval 榜单上，MiMo-V2.5 位列任务完成率与 Token 效率的最优前沿。经过公测阶段的打磨与验证，该系列在智能水平与稳定性上得到进一步提升，已达到可以开放的标准。MiMo-V2.5 系列的模型的权重（包含 Base 模型）已全量开放，采用宽松的 MIT 协议，允许自由商用、二次训练与微调，无需额外授权。另外，小米还正式推出 —— MiMo Orbit 计划。计划分为 2 部分，分别是面向 AI builder 的『百万亿 Token 创造者激励计划』，以及面向 Agent 框架团队的『Agent 生态共建计划』。 IT之家从小米技术获悉， Xiaomi MiMo 将面向全球用户进行免费 Token 发放，在 30 天内发放总计 100 万亿（100T） Token 权益，赠完即止。本次活动采取申请制，申请通过的用户最高将获得 Max 档位的 Token Plan，包含 16 亿 Credits ，价值 659 元。活动时间北京时间 2026 年 4 月 28 日 00:00 至 5 月 28 日 00:00 参与方式你可以通过下列链接或二维码填写申请，我们会认真评估每一份申请材料，并根据你的使用场景与需求匹配相应权益。申请通过者将收到我们的后续邮件。申请网址 100t.xiaomimimo.com Xiaomi MiMo 还面向全球 Agent 框架团队提供专项支持，小米将为 agent 框架提供 MiMo token 限免支持，让用户免费接入并体验 MiMo 系列模型。MiMo-V2.5-Pro 已于开源首日完成多个芯片厂商的接入适配，以下是部分厂商列表：阿里平头哥平头哥真武 810E 依托全栈自研 AI 软件栈，实现深度适配。亚马逊云科技亚马逊云科技基于自研 Trainium2 芯片与 Neuron SDK + vLLM 推理框架，完成 MiMo-V2.5-Pro 深度适配，实现模型开源即全球可用的首日适配。下一代 3nm 制程 Trainium3 将进一步释放模型 Agentic 性能潜能。 AMD AMD 依托 ROCm 开源软件栈，为 MiMo-V2.5-Pro 提供 Day-0 适配及全面优化支持，助力开发者和企业用户高效完成模型部署与上线。百度昆仑芯昆仑芯依托自研架构，通过底层算子优化与软硬件协同加速，有效保障了模型在平台上的稳定、高效运行，为上层应用构建了坚实的算力基础。燧原科技燧原科技依托自研驭算 TopsRider 软件栈进行深度优化，MiMo-V2.5-Pro 已在燧原 L600 上完成了全量适配，实现高吞吐、低延迟的稳定运行，并在复杂任务与长序列场景下保持优异表现。沐曦沐曦曦云 C 系列依托全栈自研的 MXMACA 软件栈，实现 Triton 语法到沐曦 GPU 指令集的端到端原生支持，性能更优。天数智芯天数智芯可实现模型 Day 0 级深度适配，依托全栈自研软硬件，打造高质量算力，适配高效且易迁移，能精准释放模型性能、保障稳定运行。此外，MiMo-V2.5 系列模型也同步完成了 SGLang 和 vLLM 的主流推理框架的 Day0 适配。

英伟达已适配 DeepSeek-V4 AI 模型，GB200 NVL72 开箱性能超 150 tokens / sec / user

www.ithome.com · 2026-04-25 15:36:02+08:00 · tech

IT之家 4 月 25 日消息，英伟达今天（4 月 25 日）发布博文，宣布其 NVIDIA Blackwell 平台已适配 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两款模型，开发者可通过 NVIDIA NIM 微服务下载部署，或利用 SGLang 与 vLLM 框架进行定制化推理。英伟达在博文指出，DeepSeek-V4-Pro 拥有 1.6T 总参数量与 49B 激活参数，定位高级推理任务；DeepSeek-V4-Flash 版本则为 284B 总参数量与 13B 激活参数，主打高速高效场景。两款模型均支持 100 万 Token 上下文窗口与最高 38.4 万 Token 输出长度，覆盖长文本编码、文档分析等核心应用，并采用 MIT 开源协议。实测数据显示， DeepSeek-V4-Pro 在 NVIDIA GB200 NVL72 上开箱即用性能超 150 tokens / sec / user ，借助 vLLM 的 Day 0 配方，开发者可在 Blackwell B300 上快速部署。随着 Dynamo、NVFP4 及 CUDA 内核的深度优化，预期性能将进一步提升。部署生态方面，开发者可通过 NVIDIA NIM 微服务下载部署，或利用 SGLang 与 vLLM 框架进行定制化推理。SGLang 提供低延迟、均衡及最大吞吐量三种配方；vLLM 则支持多节点扩展至 100 个以上 GPU，具备工具调用与推测解码能力。 IT之家附上参考 Build with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints

华为云首发适配 DeepSeek-V4，提供免部署、一键调用 API 的 Tokens 服务

www.ithome.com · 2026-04-24 16:02:32+08:00 · tech

IT之家 4 月 24 日消息，备受关注的 DeepSeek-V4 预览版今日正式上线并同步开源。随后，华为云官方宣布为 DeepSeek-V4 提供首发适配，华为云 MaaS 模型即服务平台已为开发者提供免部署、一键调用 DeepSeek-V4-Flash API 的 Tokens 服务。在适配过程中，华为云针对 V4 模型的特性，首发适配了模型分层注意力压缩机制，实现了 V4 注意力机制下 KVCache 的高效分配管理，提供了 TopK、SWA、CFA 等 10 余种昇腾高性能融合算子，搭配框架异步调度、MTP 多步投机等框架优化，支持原生 100 万 Token 长上下文的高性能推理。 DeepSeek 方面已经确认，受限于高端算力，目前 Pro 版本的服务吞吐较为有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格还将大幅下调。IT之家此前报道，昇腾超节点全系列产品也已全面支持 DeepSeek-V4 系列模型。本次发布的 V4 系列包含两个 MoE 架构版本：旗舰版 DeepSeek-V4-Pro 总参数 1.6 万亿、激活参数 490 亿，经济型 DeepSeek-V4-Flash 总参数 2840 亿、激活参数 130 亿，两者均原生支持 100 万 Token 的超长上下文。在技术架构层面，DeepSeek-V4 并未单纯依靠增加硬件投入，而是设计了全新的混合注意力机制，包含压缩稀疏注意力（CSA）与重压缩注意力（HCA）两大组件，在 Token 维度对 KV 缓存进行压缩并结合 DSA 稀疏注意力技术，大幅降低了长上下文场景下的计算和显存需求。据官方技术报告，在 100 万 Token 上下文设置下，V4-Pro 的单 Token 推理 FLOPs 仅为前代 V3.2 的 27%，KV 缓存占用降至 10%；V4-Flash 更为极致，两项指标分别压低至 10% 和 7%。此外，V4 还引入了流形约束超连接（mHC）替代传统残差连接，使用 Muon 优化器提升训练收敛速度，整个模型在超过 32 万亿 Token 上完成了预训练。性能方面，DeepSeek 官方表示 V4-Pro 在 Agent 能力、世界知识和推理性能上均实现了国内与开源领域的领先。在知识与推理类基准测试中，V4-Pro-Max 模式（最大推理强度模式）在 Apex Shortlist（90.2%）和 Codeforces（Rating 3206）两项硬核推理与编程任务中拔得头筹。智能体能力方面，DeepSeek 在 Terminal Bench 2.0（67.9%）和 Toolathlon（51.8%）两项工具调用与复杂指令执行测试中表现突出。官方给出的定位是：V4-Pro 的使用体验优于 Anthropic Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但与 Opus 4.6 思考模式仍存在一定差距。同时官方明确表示，V4 的能力水平仍落后 GPT-5.4 和 Gemini-3.1-Pro，发展轨迹大约滞后前沿闭源模型 3 至 6 个月。V4-Flash 则定位为经济型模型，推理能力接近 Pro 版，世界知识储备稍逊一筹，在简单 Agent 任务上与 Pro 版旗鼓相当，但在高难度任务上仍有差距。相关阅读：《华为：昇腾超节点系列产品全面支持 DeepSeek V4 》《寒武纪 Day 0 适配 DeepSeek-V4，发布当日即稳定运行》《迈入百万上下文普惠时代：DeepSeek-V4 模型预览版正式上线并同步开源》

OpenAI 最智能 AI 模型：GPT-5.5 登场，Token 成本降至 1/35、每兆瓦输出提升 50 倍

www.ithome.com · 2026-04-24 07:35:00+08:00 · tech

IT之家 4 月 24 日消息，OpenAI 公司今天（4 月 24 日）宣布推出 GPT-5.5 模型，是其迄今最智能、最直观的 AI 模型，在 Agentic Coding、计算机使用及科研领域表现卓越，相比较 GPT-5.4，在完成相同任务的情况下减少词元（Token）消耗。 OpenAI 总裁格雷格 · 布罗克曼（Greg Brockman）强调，GPT-5.5 的核心突破，在于能够以更少的指导完成更多任务，最大的亮点在于在处理模糊问题时，展现出更强的自主性，能快速理解用户意图，自主规划并执行多步骤复杂任务，在代码编写调试、在线研究、数据分析及跨工具操作等场景表现出色。 GPT-5.5 的核心优势在于 Agent（智能体）能力，用户无需精细管理每一步，只需下达模糊的多部分任务，模型即可自主规划、调用工具、检查结果并持续推进直至完成。性能方面，GPT-5.5 进一步平衡智能与速度。尽管模型更大、能力更强，但在实际服务中，其每个 Token 的延迟与 GPT-5.4 持平，且完成相同任务所需的 Token 显著减少：在 Artificial Analysis 的 Coding Index 中，它以竞争模型一半的成本提供了 SOTA（最先进）的智能水平。在 Terminal-Bench 2.0 测试中，GPT-5.5 取得了 82.7% 的准确率；在评估 GitHub 问题解决的 SWE-Bench Pro 中达到 58.6%；在 Expert-SWE 等长周期任务中均超越前代模型。早期测试者反馈，该模型在理解系统架构、定位故障及预测审查需求方面能力显著增强。科研与知识工作领域迎来质变。GPT-5.5 在 GeneBench 基因数据分析及 BixBench 生物信息学基准测试中取得领先成绩，甚至协助发现了关于 Ramsey Numbers（拉姆齐数）的新证明。在企业应用中，OpenAI 内部超 85% 的员工每周使用 Codex，财务团队利用其审核了超 7 万页税务文件，效率提升显著。NVIDIA 等合作伙伴证实，该模型将调试时间从数天缩短至数小时。 GPT-5.5 目前已向 Plus、Pro 等用户开放，API 版本即将上线，输入定价为每百万 Token 售价 5 美元（IT之家注：现汇率约合 34.2 元人民币），Pro 版本输入定价为每百万 Token 30 美元。山姆 · 奥尔特曼称在 GPT-5.5 模型上，OpenAI 和英伟达高度合作，推广 Codex 到英伟达全公司，并晒出了和黄仁勋的交流邮件：英伟达在新闻稿中指出，OpenAI 发布的 GPT-5.5 模型是其最新前沿成果，目前已在 NVIDIA GB200 NVL72 机架级系统上运行，为智能体编程应用 Codex 提供核心动力。 NVIDIA 内部已有超过 10000 名员工率先使用该技术，涵盖工程、产品、法务、市场等多个部门，员工反馈称其效果令人震撼。英伟达工程师通过 Codex 应用使用 GPT-5.5 已数周，基于 GB200 NVL72 系统，该模型实现了极具竞争力的经济效益：相比前代系统，百万 Token 成本降低至 35 分之一，每兆瓦 Token 输出量提升 50 倍。在实际应用中，原本耗时数天的调试周期缩短至数小时，复杂多文件代码库的实验周期从数周压缩至一夜之间。团队甚至能通过自然语言提示实现端到端功能交付。 IT之家附上参考地址 Introducing GPT‑5.5 OpenAI’s New GPT-5.5 Powers Codex on NVIDIA Infrastructure — and NVIDIA Is Already Putting It to Work

全国首个，汕头完成“Token 出海”全链路闭环验证

www.ithome.com · 2026-04-23 07:45:19+08:00 · tech

IT之家 4 月 23 日消息，汕头华侨试验区 4 月 22 日发文称，近日，汕头成功完成“Token 出海”全链路闭环验证。作为国内首个城市级实践，这标志着中国 Token 出海进入实质性落地验证阶段。文章称，Token（IT之家注：词元）是大模型处理信息的最小计算单元，正在取代传统“裸算力”，成为衡量智算能力的核心计量指标与数字经济新的价值载体。近期市场热议的“Token 出海”更多停留在“模型出海”层面 —— 中国企业的大模型在海外部署，而底层算力和数据中心也部署在境外，国内的电力与算力并未真正以 Token 形式对外输出。真正意义上的 Token 出海，核心在于将国内电力、算力通过大模型转化为可交易的数字服务出口。要打通这一全链路闭环，业界普遍面临两大痛点：其一是跨境时延瓶颈。AI 大模型实时推理对时延要求极为苛刻，跨国传输动辄增加数十毫秒延迟；其二是数据跨境流动障碍。Token 出海涉及跨境数据传输，而数据跨境流动向来是监管重点。面对这一行业共性难题，汕头依托海底光缆登陆站与“来数加工”试点政策双重优势，率先打通了兼具合规与低时延的出海通道。汕头已完整跑通“离岸数据中心 → 生产 Token → 海外调用 → 数据合规传输”的全链路闭环。海外用户顺利调用“汕头产”Token 服务，中国 AI 技术与算电资源首次以高附加值的数字服务形式出口。绿电底座，成本领先。汕头坐拥 60GW 海上风电资源，低成本绿电将综合电价控制在极低水平；其完全符合国际 ESG 标准的清洁属性，更为进入欧盟等碳排放严格管控市场提供了“绿色准入证”。海缆通道，硬件直连。汕头国际海缆登陆站拥有多条国际海缆，承载全国 52％的国际出口带宽。汕头至新加坡网络时延低至约 32.7 毫秒，是国内对接东南亚最快的直连节点，可精准满足实时推理对超低时延的刚性需求。制度护城河，合规前门。国家批复的“来数加工”政策试点，为企业数据与算力出海提供了合法合规的“正门”，从根本上化解了跨境监管的合规红线。华侨纽带，生态天成。汕头是百年侨乡，全球潮汕籍华侨超 1500 万人。这张覆盖东南亚的人文网络，为 Token 出海拓展商业版图、联通政商资源提供了“技术＋资本＋市场”三位一体的天然桥梁。在基础设施层面，汕头将稳步推进大规模智算基础设施建设，探索“海上风电直连数据中心”模式，分步打造海底数据中心集群，借助海水自然冷却与绿电直供，将综合用电成本压至极致。在政策创新层面，国家有关部门明确支持汕头华侨试验区开展数据跨境流动合作，建设国际数据交互枢纽。汕头正依托这一制度突破，为算力与数据出海构筑更完备的制度通道。

DeepSeek API 更新百万 Token 上下文，看齐 App 及网页版

www.ithome.com · 2026-04-22 16:48:24+08:00 · tech

IT之家 4 月 22 日消息，今日有大量用户反馈称，DeepSeek 官方 API 已经更新到了与客户端及网页版相同的 1M tokens 上下文版本（似乎是此前曝光的 DeepSeek V4 Lite），比之前的 128k 上下文更长。与此同时，最新 DeepSeek 的知识库已经更新到 2025 年 5 月，非联网状态下可准确输出 2025 年 4 月的新闻。另外，该模型仍不支持视觉输入，仅支持文本和处理语音，依然为非多模态模型。 DeepSeek 创始人梁文锋此前透露，DeepSeek 新一代旗舰大模型 DeepSeek V4 将于 4 月下旬正式发布。综合IT之家此前报道，DeepSeek 近期被网友发现出现多项能力提升，还于 4 月 8 日上线了一个专家模式，擅长复杂问题。相关阅读：《梁文锋：DeepSeek V4 将于 4 月下旬正式发布》《 DeepSeek 上线专家模式》《 DeepSeek 专家模式已支持上传文件》《 DeepSeek 连续三天出现服务异常，网页 / API 现已恢复》《 DeepSeek V4 Lite 原生多模态 AI 曝光：百万 tokens 上下文，非思考生图秒杀前代》《 DeepSeek 灰度测试百万 Token 上下文，知识库更新至 2025 年 5 月》

北京移动面向个人用户推出“算力 Token 套餐”：按词元计费，最低 5.99 元起

www.ithome.com · 2026-04-22 16:11:05+08:00 · tech

IT之家 4 月 22 日消息，据新华社今日报道，中国移动北京公司昨日面向个人用户推出了“算力 Token 套餐”，采用词元（Token）计费模式，用户可按需付费使用人工智能算力。这一举措旨在将算力从实验室场景延伸至普通消费者的日常生活。对于已经拥有云电脑的用户，北京移动提供了最低 5.99 元的算力次包，以及低至 24.99 元、包含 1000 万词元的算力月包。对于尚未使用云电脑的用户，北京移动则推出了内置智能体工具 OpenClaw（IT之家注：俗称“龙虾”）的云电脑融合套餐，用户无需自行部署复杂的运行环境，开机即可使用，并且该套餐支持主流的通用大语言模型。目前中国移动已在北京、湖北、河南等地陆续推出此类算力套餐，试图解决用户在调用人工智能服务时面临的本地部署复杂、算力成本偏高以及数据安全存忧等实际问题。此前，广东移动 4 月 3 日在省级运营商中率先宣布，面向个人市场推出算力 Token 套餐，广东移动用户 4 月 30 日前可 0 元尝鲜；江苏移动 4 月 13 日也推出了“龙虾 AI Token 套餐”，限时优惠价 5 元起。相关阅读：《国家超算互联网单用户免费词元（Token）额度升至 3000 万》

黄仁勋：英伟达生产昂贵 AI 硬件，但也生产全球成本最低 Token

www.ithome.com · 2026-04-22 10:26:16+08:00 · tech

IT之家 4 月 22 日消息，英伟达官方账号 @NVIDIAAI 今天（4 月 22 日）在 X 平台发布推文，分享了一段 Cadence Live 2026 活动演讲视频，英伟达首席执行官黄仁勋强调全栈策略是 AI 领导地位的核心，并提出“生产全球成本最低 Token”的观点。黄仁勋表示英伟达虽然生产昂贵的 AI 硬件，但同时也在生产全球成本最低的词元（Token）。 Token 作为 AI 处理语言的基本单元，其生成速度与成本直接决定了 AI 系统的效率与价值。黄仁勋强调，单纯依赖硬件的暴力计算并非高效路径，必须依靠软件栈的深度引导才能最大化硬件潜能。IT之家附上视频如下：黄仁勋表示，未来的计算世界将是全栈式的，企业必须深入理解顶层的软件栈、中间的系统架构以及底层的应用场景。英伟达耗时多年打磨的 CUDA 生态系统，正是连接硬件算力与软件应用的核心桥梁，让其硬件在 Token 生成效率上建立了竞争壁垒。针对硬件价格高昂的质疑，黄仁勋给出了独特的成本逻辑。虽然 Blackwell 或即将推出的 Rubin 平台造价高达数百万美元，但这些系统能产生前所未有的 Token 数量。通过将巨额硬件成本分摊至海量的产出中，英伟达实现了最低的单位 Token 成本。同时，系统在能效比上也达到了最低的 Token / 瓦特，进一步降低了运营支出。黄仁勋提出，衡量 AI 系统价值的核心指标不应仅是最大吞吐量，而应是 " 单位 Token 成本 "。这一新指标综合考量系统的购置成本、运行功耗与产出效率，为客户提供了更精准的投资回报分析依据。

蚂蚁集团百灵大模型 Ling-2.6-flash 发布，匿名上线一周日均 tokens 调用达 100B 级

www.ithome.com · 2026-04-22 10:00:57+08:00 · tech

IT之家 4 月 22 日消息，蚂蚁集团旗下的百灵大模型今日宣布，推出一款总参数量 104B 、激活参数 7.4B 的 Instruct 模型 Ling-2.6-flash 。一周前，代号为 Elephant Alpha 的匿名模型登陆 OpenRouter。上线以来，其调用量持续增长，连续多日位列 Trending 榜首，日均 tokens 调用量达 100B 级别。百灵大模型今日宣布 Elephant Alpha 正是百灵模型 Ling-2.6-flash 的匿名测试版本。官方表示，面对持续攀升的 Token 压力，Ling-2.6-flash 选择了一条不同的技术路径：不是单纯依赖更长输出换取更高分数，而是围绕推理效率、Token 效率与 Agent 场景表现进行系统性优化，在保持竞争力智能水平的同时，尽可能做到更快、更省和更适合真实业务场景。 Ling-2.6-flash 的核心能力体现在三个方面：混合线性架构，释放推理效率：通过引入混合线性架构，模型从底层优化计算效率，在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s ，Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍 Token 效率优化，提升智效比：在训练过程中对 Token 效率进行了针对性校准，力求以更精简的输出完成既定目标。在 Artificial Analysis 的完整评测中，Ling-2.6-flash 仅消耗 15M tokens ，约为 Nemotron-3-Super 等模型的 1/10 面向 Agent 场景进行定向增强：针对当前需求最旺盛的 Agent 应用，在工具调用、多步规划与任务执行能力上持续打磨，使模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等评测中，即使面对激活参数更大的模型，依然能够取得相近甚至 SOTA 级别的表现 ▲ Ling-2.6-flash 在 Agent 相关基准上达到同尺寸 SOTA 水平为方便更多开发者快速体验 Ling-2.6-flash，百灵大模型将在 OpenRouter 与官方平台同步提供一周免费 API 调用。免费期结束后，将按使用量计费：输入 0.1 美元 / 百万 tokens，输出 0.3 美元 / 百万 tokens，缓存命中 0.02 美元 / 百万 tokens（按 20% 计费）。 Ling-2.6-flash 官方 API 服务也已正式开放，官方免费期结束后，平台仍将提供每日 50 万 tokens 免费额度；超出部分按量计费：输入 0.6 元 / 百万 tokens，输出 1.8 元 / 百万 tokens。 IT之家注意到，官方表示，模型的 BF16、FP8、INT4 等版本也将于近期正式开源。

谷歌云AI使用量达到每分钟160亿Tokens

36kr.com · None · tech

谷歌表示，通过客户直接使用API，现在每分钟处理超过160亿Tokens，高于上季度的100亿个。（财联社）

蚂蚁百灵Ling-2.6-flash正式发布，定价每百万token 0.1美元

36kr.com · None · tech

4月22日，蚂蚁百灵正式推出Ling-2.6-flash——一款总参数量104B、激活参数7.4B的Instruct模型。该模型在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等Agent相关基准上达到同尺寸SOTA水平。 API定价方面，Ling-2.6-flash输入每百万tokens定价0.1美元，输出 0.3 美元。目前，Ling-2.6-flash的API已正式向用户开放，并提供为期一周的限时免费试用。Ling-2.6-flash上线以来，日均tokens调用量达100B级别，周增长超5000%。

商汤科技拟配售约32亿港元，即将推出“Token Plan”AI词元计划

36kr.com · None · tech

36氪获悉，商汤科技公告，于4月16日（香港联交所交易时段后），公司配售17亿股新B类股份，每股配售价1.91港元，预计配售总额约32.47亿港元，配售所得款项净额约32.3亿港元。此次配售获不少于六家机构认购。此轮配售所得款项将主要用于支持公司核心业务发展，包括扩大本人工智能基础设施SenseCore商汤大装置的规模，特别是基于国产芯片的国产化AI超算集群扩容，同时升级国产化AI云的技术栈，为即将推出的AI词元计划（Token Plan）提供基础设施等。

智元旗下觅蜂发布一站式物理 AI 数据服务平台｜最前线

36kr.com · None · tech

2026年，大语言模型和视频生成大模型都在疯狂烧token，而具身机器人行业却正在经历“无token可烧”的局面。大模型能像人一样读书，而具身智能要去真实的世界里摸爬滚打才能获取数据——数据的匮乏成为了卡住全行业的瓶颈。 4月16日，智元机器人旗下觅蜂科技发布一站式物理 AI 数据服务平台，希望能让数据像水电一样即取即用。 “GPT5用了100万亿tokens的训练语料。1token约等于0.75个英语单词，如果一个正常人一分钟能说150个词，这个语料级就等于一个人要说100亿个小时才能说完。”觅蜂科技董事长兼 CEO 姚卯青说，“但具身智能不一样。今天，全世界的高质量数据汇聚在一起，可能也只有50万小时的规模。” 数据资源匮乏且扩容缓慢，是因为具身智能所需要的训练数据，比大预言模型需要的训练语料要难获得的多。在三维的开放世界，行业各家公司已经尝试了通过真机遥操或仿真数据等等各种方式去积累数据，但仍然难以摆脱高成本和增速慢的问题。现在，最前沿的采集方式是“无本体采集”。无本体采集（Object-free/Body-less Data Collection）是指在具身智能训练中，直接利用人类操作（手戴传感器夹爪）或轻量化设备记录动作，而非依赖昂贵的实体机器人本体进行遥控操作。它通过人手抓取、移动等方式记录高质量、多模态的动作数据，具有成本低、采集效率高、场景泛化性强等优势。发布会上，觅蜂推出了 MEgo 系列无本体数据采集硬件及 MEgo Engine 数据治理引擎。MEgo 系列包含采集夹爪、头戴式采集设备等，设备具备超 300° 全景感知与亚毫秒级数据同步能力，支持在工厂、商超、家庭等全场景随时随地轻量化采集。这款名为 MEgo Gripper 的夹爪全通道支持1080P 60fps，轨迹重建的精度可以达到一毫米，确保拿起一张纸的力度都可以被还原，“让客户拿到数据就能直接落地”，以及亚毫秒级无线时间同步。这个设备只有480g的重量，支持电池快换快拆，摆脱了电线，方便人“走到哪采到哪”。 MEgo Gripper 另一款头戴式采集设备MEgo View融合了头部超过300度的视野，以及两个附着在手腕上的局部相机，既可以兼顾超广域的环境，也可以做到腕部和手部操作细节的捕捉。它搭载7个高清摄像头，车规级九轴IMU（惯性测量单元），可以输出RGB图片、IMU，还有位姿、音频在内的全感官数据。 MEgo View 与夹爪设备一样，头戴式采集设备同样采用无线设计，支持电池快换，并能实现亚毫秒级无线时间同步。轻量化的硬件，带来了数据采集门槛的降低。在发布会后的采访环节，姚卯青告诉包括36氪在内的媒体，他认为未来理想的采集者工作模式可能会类似于“美团骑手”——“大家可以兼职来做，但同时也要经过驿站的培训才能上岗。” 在软件上，MEgo系列解决方案背后有一套MEgo Engine 数据治理引擎，用来处理所有MEgo设备采集到的数据，包括数据的预处理、提取、评估等等，而且可以评估在机器人上的表现，实现一站式数据的多种标注。姚卯青表示，觅蜂已经实现了真机遥操、无本体采集、仿真数据全范式覆盖，旨在“让高质量数据像水电一样即取即用。”该公司计划在 2026 年实现千万小时级数据产能，2030 年达成百亿小时级数据产能。作为智元机器人旗下企业，觅蜂的定位却是面向其他机器人公司的To B数据服务平台。在活动后的采访环节，有媒体向姚卯青提问：“说服说服智元的竞争对手去买你们的数据？” 姚卯青回复说，“觅蜂作为一家独立的数据服务平台，所有的用户数据交易都有严格协议。数据的交易模式分为‘使用权’和‘所有权’两种，过去大部分用户都是选择了购买使用权而不是所有权，对于极个别选择购买所有权��客户，我们会进行严格的资产转移，在本地销毁数据。” “智元并不是需要所有数据，它也没法获取觅蜂的数据。”姚卯青说，“智元现在向觅蜂获取数据的唯一途径，就是市场化下订单。智元不存在免费从觅蜂获取数据的途径。” 在发布会上，觅蜂宣布与京东云、百度云、阿里云、猎聘及贵州大数据集团等多家企业举行战略签约，各方将在数据生态、场景协同、算力支撑等领域展开深度合作。

/tag/Token