WWW.VNIRY.CN
标签聚合 可用

/tag/可用

www.ithome.com · 2026-04-28 16:47:21+08:00 · tech

IT之家 4 月 28 日消息,据 The Information 今日援引知情人士报道,Alphabet 旗下的谷歌公司加入了越来越多科技公司的行列,与美国国防部签署协议,将其人工智能模型用于机密工作。 报道称,该协议允许五角大楼将谷歌的人工智能用于“任何合法的政府用途”。OpenAI 及埃隆 · 马斯克的 xAI 也已签署协议,为机密用途提供人工智能模型。 机密网络用于处理各类敏感工作,包括任务规划与武器目标定位。 五角大楼于 2025 年与多家顶尖人工智能实验室签署了每份价值最高达 2 亿美元(IT之家注:现汇率约合 13.67 亿元人民币)的协议,合作方包括 Anthropic、OpenAI 与谷歌。路透社此前曾报道,五角大楼一直在推动 OpenAI、Anthropic 等顶尖人工智能公司,让其工具可在机密网络上使用,且无需遵循针对普通用户的常规限制。 报道称,谷歌的协议要求其应政府要求,协助调整公司的人工智能安全设置与过滤器。 合同中包含如下条款:“双方一致同意,本人工智能系统并非旨在、且不应在缺乏适当人工监督与控制的情况下,用于国内大规模监控或自主武器(包括目标选择)。” 不过报道补充道,该协议同时规定,谷歌无权对政府合法的运营决策进行管控或行使否决权。 已被唐纳德 · 特朗普总统更名为“战争部”的美国国防部,尚未立即回应置评请求。 谷歌方面表示,公司为政府机构的机密与非机密项目均提供支持。公司一名发言人称,谷歌始终认同一项共识:在缺乏适当人工监督的情况下,人工智能不应被用于国内大规模监控或自主武器系统。 谷歌发言人表示:“我们认为,在遵循行业标准惯例与条款的前提下,为商业模型(包括谷歌基础设施上的模型)提供应用程序编程接口(API)访问权限,是支持国家安全的负责任做法。” 五角大楼称,无意利用人工智能对美国民众实施大规模监控,也无意研发无需人工干预即可运作的武器,但希望人工智能的“任何合法用途”都能得到许可。 今年早些时候,人工智能初创公司 Anthropic 因拒绝解除其人工智能模型在自主武器与国内监控用途上的安全限制,与五角大楼产生分歧,随后被国防部列为供应链风险企业。

www.ithome.com · 2026-04-27 17:30:37+08:00 · tech

IT之家 4 月 27 日消息,优步正在更积极地介入充电网络建设。不只是使用充电站,优步还想参与判断新站点应该建在哪里,以及如何让这些站点运转得更高效。 这背后是优步业务正在发生的一场大转向。优步正在全球范围内促成大量合作,把自动驾驶汽车接入平台。同时,优步开始协助建设新的快充站,以支撑未来进入平台的自动驾驶出租车,并服务越来越多转向电动汽车的优步司机。 优步全球电动化与可持续发展负责人安德鲁 · 科内利亚认为,公司最大的优势之一就是数据量巨大,堪比“超能力”。“我们正在用这些数据告诉自己,充电需求到底应该出现在哪里。” 凭借海量真实出行数据,优步认为自己可以帮助 解决充电行业长期存在的难题 :让充电供给更准确地匹配司机的实时需求。对网约车司机来说,排队等待充电意味着直接损失收入,时间成本很高。 今年 2 月,优步宣布投入 1 亿美元(IT之家注:现汇率约合 6.84 亿元人民币)建设公共快充站。公司将与美国 EVgo、欧洲 Ionity 等充电网络合作,在车流和需求更集中的地区建设站点。 优步还会向这些充电网络提供使用率保证:快充站建设前期投入动辄数百万美元, 只有使用率长期足够高,商业账才算得过来 。 科内利亚对需求并不担心。对优步司机来说, 充电问题现在已经超过车辆成本 ,成为最主要顾虑。“我们其实相当有把握,只要把充电站建起来,司机就会来。” 纽约市就是优步司机充电难的典型案例。2023 年,纽约出租车和礼车委员会出台新规,推动司机转向电动汽车。司机被鼓励去换电动汽车,然而配套充电支持却没有同步跟上。此后,纽约陆续有更多充电站上线,可不少地点排队拥堵依旧没有明显缓解。随着数以万计网约车司机改开电动汽车,现有充电站仍然不够用。 优步正在应用内加入新的推荐技术,帮助司机寻找附近电动汽车充电站,并显示哪些地点排队时间更短,以此缓解部分压力。 科内利亚坦言:“出行的未来确实是电动化、自动驾驶和数字化。公共充电仍然让人担心,所以我们才会花这么多时间解决这个问题。”

www.ithome.com · 2026-04-24 15:22:34+08:00 · tech

IT之家 4 月 24 日消息,3D 存储半导体 IP 企业 NEO Semiconductor 美国加州当地时间 23 日宣布其 X-DRAM 成功完成概念验证芯片制造,证明这一 3D 堆叠内存可利用现有 3D NAND 闪存生产线制造。 NEO Semiconductor 的 X-DRAM 验证芯片 实现了 10¹⁴ 循环耐久 , 读写延迟<10ns , 85℃ 下数据保持时间>1s (IT之家注:这一数据是 JEDEC 为标准 DRAM 给出的 64ms 的 15 倍)。 NEO Semiconductor 同时宣布得到了宏碁创始人施振荣领导的新一笔战略投资。 相关阅读: 《 类 3D NAND 设计,Neo 半导体推出 3D X-DRAM:8 倍密度、230 层 》

www.ithome.com · 2026-04-24 11:12:56+08:00 · tech

IT之家 4 月 24 日消息,JetBrains 发布 IntelliJ IDEA 2026.1.1 版本,重点修复了 WSL Python SDK 配置卡死,以及远程开发中 Emmet 缩写展开失效等关键问题。 在开发环境配置方面,团队修复了用户无法设置 WSL(Windows Subsystem for Linux)Python SDK 的问题。 IT之家援引博文介绍,用户此前尝试添加基于 WSL 的 Python 解释器,会导致对话框卡在“WSL 发行版内省”界面,致使“下一步”按钮失效,影响跨平台开发流程。 新版还改善了远程开发体验,根除困扰用户至少五年的顽疾: 在 Code With Me 或 Gateway 会话中,作为访客的开发者无法使用 Emmet 缩写展开功能。修复后,按下 Tab 键将正确展开代码片段,而非仅插入制表符。 此外,更新修正了导致类转换错误的 Gradle 同步失败问题,优化了 WSL 2 JDK 的定位逻辑,并恢复了 Ant 工具窗口双击运行目标的行为。IDE 连接 WildFly 管理进程失败的问题也已解决,确保了服务器自动部署的顺利进行。 自 2026.1 版本起,JetBrains 已将 Wayland 设为 Linux 默认显示服务器协议,消除了 HiDPI 显示器上的文字模糊和分数缩放瑕疵。

www.ithome.com · 2026-04-20 23:41:55+08:00 · tech

IT之家 4 月 20 日消息,在今天下午的华为 Pura 系列及全场景新品发布会上,华为终端 BG CEO 何刚正式发布了其今天佩戴的新品 —— 华为 AI 眼镜,定价 2499 元起。 IT之家注意到,支付宝官方今日发文宣布,华为 AI 眼镜内置支付宝鸿蒙版 App,可以“看一下支付”: 既支持看商家收款码支付 也可以看“碰一下”收款设备支付 用户绑定眼镜与支付宝账户,录入本人语音后,3 步操作可完成支付: 用户本人佩戴华为 AI 眼镜,双击 AI 键或说一句“支付 10 元” 用户看向商家收款码或“碰一下”设备,眼镜自动识别 用户本人说一句“确认支付”或双击 AI 键即可完成付款 据支付宝介绍,华为、Rokid、小米、千问、雷鸟创新等国内主流智能眼镜厂商均已在自家 AI 眼镜上线“看一下支付”。另外,华为 AI 眼镜上的“看一下支付”在鸿蒙系统协同认证能力的基础上,还支持蚂蚁 GPASS 智能终端可信连接技术与支付宝多维度风控系统: 可以确保眼镜“设备是本人的” 可以确保“操作是本人做的” 支付宝还承诺“被盗即赔”

www.ithome.com · 2026-04-16 11:29:12+08:00 · tech

IT之家 4 月 16 日消息,万事达卡与其中国境内银行卡清算机构万事网联今日联合宣布,中国境内发行的万事达卡品牌银行卡 正式支持持卡人使用 Apple Pay 进行跨境交易支付 。 据IT之家了解,持有 中国银行、中国农业银行、中信银行以及浦发银行 发行的万事达卡单品牌或双品牌信用卡 ,及 中信银行发行的万事达卡品牌借记卡 的顾客,可以通过最新版本的银行 App 将卡片添加到 Apple 钱包 App。 持卡人也可以打开 iPhone 上的钱包 App,轻点加号,并按照提示步骤跳转至相应银行的 App,选择添加信用卡或借记卡;一旦在 iPhone、Apple Watch 或 iPad 上添加了卡片,就可以立即在该设备上使用 Apple Pay。 在店内使用 Apple Pay 进行非接触式支付时,持卡人只需 连按两下侧边按钮,完成认证后将 iPhone 或 Apple Watch 靠近支付终端机,即可免接触付款 。每一笔 Apple Pay 支付都要使用面容 ID、触控 ID 或设备密码进行授权,同时生成独有的一次性动态安全交易码。Apple Pay 可在便利店、药店、餐馆、咖啡店、零售店以及许多其他接受非接触式支付的地方使用。 消费者还可在 iPhone 和 iPad 上使用 Apple Pay 在 App 内或网页上进行更快更便捷的支付,无需创建账户或反复输入联系信息、银行卡号、收货和账单信息。

36kr.com · None · tech

文|邱晓芬 编辑|苏建勋 2026年,全球的具身智能机器人创业者不约而同将目光方向调转向深水区:家庭。 点燃这份热情的,是近期行业里闪烁着的一丝丝Scaling Law苗头—— 先是硅谷具身智能公司Generalist AI在GEN-1模型上验证了确定性,当他们给机器人喂进海量数据后,精细操作任务成功率竟从64%提升到了惊人的99%; 随后,硅谷当红的具身智能独角兽公司Sunday Robotics也试图解决家庭场景数据难关,不仅推出Umi手套数据采集方案,还直接将机器人Memo送进家庭做家务(收拾餐做、冲咖啡、叠衣服),因此吸引了大量的资本押注。 在大洋彼岸的中国,近期闯入家庭机器人领域的创业者中,还有一个熟悉的身影——许华哲。 “两年内,中国将会出现可用的家庭机器人”,他对于行业的判断,同样乐观且激进。 作为“伯克利归国四子之一”、清华大学交叉信息研究院助理教授,2023年,许华哲曾加入「星海图」任前首席科学家兼联合创始人,一起将这家公司打造成中国具身智能领域的明星公司。 不过,在这家公司估值冲破200亿、融资近30亿的巅峰时刻,许华哲又选择“单飞”并创办了全新的具身智能公司「破壳机器人」。 此次重新出发,他想做的是能在家庭场景干活的、真正有泛化性的具身智能机器人。 △ 许华哲 其实,想做一个家庭机器人公司并不是近期偶然的想法。初高中时的他读完《乔布斯传》后,内心便萌生创办一家伟大To C公司的种子。此后,在清华、伯克利、斯坦福的一路升学中,他一直深耕机器人强化学习方向,梦想便是把机器人送入千万家庭。 他理想中的家庭机器人,虽然不是无所不能,却能完成上一代机器人(比如扫地机、洗地机)无法完成的复杂任务,比如能进行更精细的清洁工作、有条理的完成诸如洗衣收纳的长序列、多步骤任务串联。 在他看来,这种创业方向的选择,也带有强烈的审美洁癖。许华哲直言,泛化性的本质是一种“美与影响力”——用最简洁优雅的模型,解决人类复杂的生活问题,并真正将AI转化为生产力,而非仅仅替代低端劳动力。 从更理性的层面,切入To C家庭场景也包含着许华哲的商业判断。在他看来,当前大量机器人厂商将人形机器人送进工厂,完成传统机械臂就能完成的上下料、搬运箱的工作,本质上只是在用新的人性在做旧时代的事情,机器人没有发挥出真正的通用性。 他认为,真正的AGI应该在家庭场景中诞生、运用,因为家庭场景任务比工厂场景更混乱随机,且数据丰富,恰恰是训练通用模型的最佳土壤。 因此,为了追赶时机,在创业的短短一个月内,新公司「破壳机器人」已经完成了融资、核心团队组建、具身模型的训练、以及硬件迭代工作。 《智能涌现》独家获悉,破壳机器人近期完成数千万美元天使轮融资,由云启资本领投,并获得顺为资本、弘晖基金等一线美元基金,小米战投、星海图等知名产业方,以及BV百度风投、英诺天使基金、水木清华校友种子基金、东方嘉富等一线市场化基金的支持。 快速得到资本押注,也因为许华哲在关键技术路线上有一些不同的选择。 为了实现泛化,在关键技术路线方面,他的选择也略显反常识。他完全放弃了行业主流的VLA(视觉-语言-动作)基座模型方案,转而构建一种能直接输入和输出“视频-动作”的 世界模型 。 在模型结构上,他也提出了独特的“ UAG架构 ”,用并联式预训练替代过去的瀑布式级联,并将强化学习贯穿预训练与部署全过程,实现了训练效率的五倍提升。 打好模型基础之余,在数据与硬件层面,他也通过UMI、外骨骼和第一人称视角三层方案采集高质量数据,形成从任务定义到数据、模型、本体的闭环迭代。 据许华哲透露,「破壳机器人」第一代 32B参数规模的具身世界模型 已完成首轮训练,正处于数据迭代的关键爬坡期。在硬件层面,「破壳机器人」为数据采集量身定制的手套硬件已迭代了五六个版本。 近期,《智能涌现》与许华哲聊了聊,以下是交流实录(略经摘编) 为何出走「星海图」? 《智能涌现》:为什么选择离开星海图,创立一家新的机器人公司? 许华哲:这个想法其实酝酿了很久。在2023年8、9月份,我就开始和高继扬聊,加入星海图。但经过了两年,到去年11、12月份,我已经基本决定要离开了,真正办完手续是在今年,创立「破壳机器人」是最近一个月的事情。 离开的原因主要是因为我内心一直想做一些To C的、真正泛化的通用机器人。 《智能涌现》:既然一直想做To C,为什么一开始不直接做To C方向机器人的创业呢? 许华哲:原因是多方面的。2023年我加入星海图时,也考虑过要不要自己创业,但那时我刚从美国读完书回来,在叉院工作才一年左右,要自己开公司lead一摊事,还要兼顾教职,挑战很大。 那时星海图和其他一些具身智能公司也邀请我加入,我觉得先加入一个优秀的团队做联创,是一个更稳妥的选择,而且当时星海图的宣传里也提到大概是“让机器人服务千万人类”的话语,这和我的一部分想法是吻合的。 《智能涌现》:您现在新公司虽然只成立一个月,都有哪些进展? 许华哲:团队方面,目前有20人左右,AI侧有一些天才少年,硬件侧有很多做过To C量产交付的工程师。我们还在火热招聘中。 在技术上,我们的AI模型在“动得快”、“泛化强”、“成功率高”三个维度都有较好的前期积累,能让机器人完成某些复杂任务时达到接近100%的成功率。 我们第一代32B的模型已经完成了第一次训练,但还需要数据量的迭代才能展现出更好能力。我们的硬件手套也已经迭代了五六个版本。 第一个月要处理公司注册、选址、装修等各种事务。能跑出这个速度,我觉得还是比较快的。 《智能涌现》:您这次创业,和第一次创业时心态有什么不同? 许华哲:最大的不同是心态上更踏实、也更敢了。第一次创业前,我会担心,我没上过班怎么给别人“班”上?我没做过生意怎么办,没跟投资人、政府打过交道怎么办? 在星海图的两年,我接触过这些事,“没打过就硬打,没上过就硬来”,其实最终结果也挺顺利的,太多的顾虑没必要,出来混最重要是先出来。这次心理上更从容。 《智能涌现》:在2023年和2026年两个节点创业做家庭机器人这件事,区别大吗? 许华哲:区别挺大的。首先是硬件本体,这三年中国的硬件供应链打磨得更好了,有了更多能用的机器人,2023年时可能只能用工业臂; 第二是数据,2023年时机器人的数据几乎是0,现在网上开源数据就有几十万小时,还出现了大量的数据供应商,虽然数据质量和跨本体适配还是问题,但丰富度已经不可同日而语。 第三是融资和市场认知,2023年要做To C机器人可能很难融资,大家给的时间缓冲也更少。今天起步比2023年更好。 AGI应用于家庭,工厂是上一代技术的领地 《智能涌现》:一直想做To C的机器人,背后的触发点是什么? 许华哲:首先,一个核心思考是,我们做机器人到底在做什么?机器人是人类自古以来的追求,我们在海底捞、酒店、工厂都见过机器人,但如果我们只是用人形的外壳去工厂拧螺丝、搬箱子,那本质上还是在做旧时代的事情。 这一代机器人最核心的不同在于它的通用性。 通用性该用在越混乱、越需要通用能力的地方。那答案就是家庭,或者广义的服务场景。我认为,通用的AGI(通用人工智能)应该用在家里。 第二,从个人偏好来说,做有品牌的事情是可以做得足够大、有梦想的。伟大的公司很多是To C的,比如苹果、小米。 第三,从数据角度看,通用性需要有丰富的数据,混乱的家庭场景恰恰能提供丰富的数据。如果你的数据源头错了,就得不到正确的模型。 基于这三点,我觉得做To C机器人是一件正确的事,我自己也特别感兴趣。 《智能涌现》:您认为AI模型什么时候可以支撑做家庭To C机器人? 许华哲:我的预测比较乐观激进,我认为 两年内 会出现可以用起来的机器人。它不是万能的,但会是一个有完善产品定义、能做相当多通用事情的机器人,但它会有一些明确不做的事,比如抱婴儿、烧热水。 《智能涌现》:机器人进家庭能做的事情都包括哪些?能否举一些例子? 许华哲:分两类。 一类是本身很难的任务, 比如更精细的清洁,比如清洁墙角霉点、擦掉干涸的饭汤、剥橘子、剥虾等等。 另一类是 长序列、多步骤任务的串联。 举个例子,一个完整的洗衣流程是——把脏衣服放进洗衣机、倒洗衣液、启动,然后机器人可以去做别的事,它会在监听到“洗完了”的声音后,把衣服拿出来放进烘干机,启动烘干,最后再把衣服拿出来叠好放进衣柜。 现在的机器人能做任何一个单一步骤,但没有机器人能像人一样,从头到尾,带着这些“任务间的缝隙”把它完成,我认为两年后的机器人能有这个能力。 《智能涌现》:家庭和工厂场景,最大的区别是什么? 许华哲:家庭和工厂某种程度上都是“混乱”的,但是本质上不同。工厂的混乱更多是“管理混乱”,比如东西乱扔、人走来走去,但它具体干的活,比如上下料、装配是高度确定性的。 家里的混乱是任务本身的混乱, 比如衣服是团成一团的,杯盘狼藉需要收拾,这种混乱是需要通过工作去恢复秩序的。工厂的很多混乱并不需要去恢复。所以,这是两种完全不同性质的“混乱”。 《智能涌现》:您认为当前做家庭To C机器人,最大挑战是什么? 许华哲: 机器人进家庭的逻辑和落地To B不同。 To B的账很难算,因为工厂给人形机器人干的活价值很低,一台二三十万的机器人可能相当于一个人三四年的工资,还要考虑可靠性、维护,很难回本。再加上工厂里采集的数据可能过于专化。 To C的账不是简单的“替代人力”计算。它更像 科技潮品+家庭助手+管家 的复合体。用户买它,是购买一种先锋的生活方式、极致的便利,就像二十年前大家买车一样。我们考虑的是,当用户有一笔预算时,是买辆车还是买个能改变生活的机器人。 所以,关键是产品体验要足够好,价值感知要足够强。价格区间我们内部还在讨论,但肯定会是五位数起步。 追求泛化,也是追求美和影响力 《智能涌现》:所以To C并不是您离开星海图后才有的想法,而是一贯的想法? 许华哲:是的。我从小就想做To C,想创业。初高中的时候读《乔布斯传》、《迪士尼传》,读完了就很想创业,做一个像谷歌一样的公司,后来选电子系也是想要做IT,大学还修了管理学双学位,就是为了创业做铺垫。 后面去了伯克利、斯坦福,也是一直在做强化学习和机器人,后来还做了一些触觉相关的研究,也是在机器人大类里。 我博士毕业时(2021年),主要就是找教职还有找投资人聊,看看有没有创业机会,当时普遍观感是,下一代技术还远,这一代技术就是做扫地机、餐馆机器人,但是和AI关系不大,没看到特别匹配我专业技能的创业机会。 《智能涌现》:你判断一件事情做与不做,或者谈论你对某件事是否感兴趣时,你的标准是什么? 许华哲:一个是美,这件事要能给我带来好的审美体验。另一个是影响力,我们学术圈有一个词叫impact追问。 美,更多是个人体验,我做这件事创造出来的东西是优雅、简洁的,就像简单的公式能描述复杂的现象,泛化性的本质也是美;影响力意味着,我做的这件事要能对世界产生足够大的影响,改变人们的生活方式。 现在我们被迫用巨大的参数量来描述世界,是因为我们还没找到AI领域的牛顿定律, 我相信大模型只是一个中间状态。 我的博士生涯是带着“AI一定存在一个优美理论”的心理开始的,但后来发现理论越来越解释不了AI,这是一个痛苦但必须接受的过程。 所以现在我的使命是追求简洁和影响力,如果有另一个公式(而不是AI模型)能描述机器人与世界的所有交互,我会觉得它更好。 《智能涌现》:这次创业你希望找到什么样的合作伙伴?你会更欣赏什么样的公司文化? 许华哲:我对合作伙伴和团队文化有三个核心要求—— 极致: 我很喜欢戴密斯·哈萨比斯那本传记里的描述,里面说,一个人做事要做到什么程度,就像跑马拉松撞线后,有个救护车把你拉走了,但是你最后没死。虽然有点夸张,但是我觉得做事极致投入,永远想更进一步,是很重要的。 坦诚: 对自己、对同事、对事情绝对坦诚。不会因为不会而装会,搞砸了就承认,不要为了面子影响效率。 利他: 公司里有很多“缝隙”,如果每个人都只盯着自己的KPI,这些缝就没人填。对于初创公司,需要每个人在有余力时主动填缝,这种利他性长期看对个人和团队成长都有益。 (作者注:戴密斯·哈萨比斯(Demis Hassabis)是英国著名人工智能科学家、Google DeepMind 联合创始人兼CEO、神经科学家,被誉为“AlphaGo之父”。) 我很欣赏段永平的“本分文化”,也欣赏前段时间一篇报道中提到的,Kimi“没有部门墙”的协作模式,我倾向于弹性、扁平的组织,很赞同黄仁勋、亚马逊那种鼓励一线员工直接向老板直接发邮件反馈问题的文化。 做全新物种的家庭机器人 《智能涌现》:很多To C的机器人是曲线救国,先从陪伴场景切入,但是感觉你们的您的产品路径和其他家很不一样。 许华哲:完全不一样。他们做的是陪伴,核心能力是大模型提供的对话能力和娱乐。我们追求的 核心是物理世界的通用交互和干活能力。 我们的机器人是“家庭助理”,要能实际处理家务,所以在技术上,我们需要非常强的模型能力来保证通用性,但是很多家庭陪伴机器人是没做基础模型的。本质上,我们和他们是两个不同的品类。 《智能涌现》:你们最主要的技术的差异点是在模型侧吗? 许华哲:我们的一大亮点我们的模型能 用好强化学习 。过去机器人对强化学习的使用一般停留在单机的后训练上,但是其实强化学习上有很多自己独特的东西。 第一个就是价值函数(value function)。 价值函数 可以对数据质量进行评估,让模型知道哪些数据好、哪些次优、哪些失败。数据带着权重,去让模型学习。 它带来的好处有两个,一是可以让模型学得更精准,二是可以理解失败的边界,这样模型就能够知道紧邻着成功的失败长什么样,让强化学习去把这些失败因素排除掉; 第二是,强化学习能同时在多个任务上保持高成功率高速度,而不过度拟合到单一任务。 第三是,强化学习也可以突破人类数据上限。以前我们用人采集的数据去做某件事,数据是什么样的,机器人就能做到怎么样的,甚至会更差,因为机器人是跟着数据学习的。 但是强化学习就是根据数据以及后续的自我改进,持续突破自己的上限,最终可能做出比人类示范数据更好的表现,上限更高。 《智能涌现》:你们的强化学习只用在后训练上吗? 许华哲:我们的预训练也会用离线的强化学习。预训练现在还是有一些卡点的,比如说模型的选择上有很多种,市面上有用VLA+VLM的,也有世界模型的,还有VLWAM,就是VLM后面再内嵌一个世界模型。 《智能涌现》:那你们还是用VLA的路线吗? 许华哲:现在模型的路线还远远没有收敛,我们的选择是 世界模型结合原生的机器人模型,不是用VLA的路线。 《智能涌现》:现在的世界模型有很多派别,有的人用的是偏3D视频的方向,有的又是偏向于世界仿真,你们对世界模型的理解方式是什么? 许华哲:我们输入的是视频和动作,在训练和推理的时候,输出的也是视频和动作。这些视频和动作里面是遵循物理规律的真实世界的数据。 《智能涌现》:你们做这些事情的过程中,遇到的最大的挑战是什么? 许华哲:要训练大模型所需的Infra (基础设施)是一个挺大的卡点,因为我们想做一个32B的大模型,要支撑比较大的数据量,GPU 集群的并行效率、数据吞吐都是一个很大的挑战和壁垒。 《智能涌现》:在模型侧你们提到了一项“UAG”架构,这个怎么理解? 许华哲:UAG(Unconditioned Action Guidance)是我们的一种模型训练架构。 相对于传统的瀑布式级联的模型训练方式,我们采用的是一种并联的方式,核心思想是 先对动作进行预训练,然后再对所有的动作做整体联合的训练,做一个动作预测器,然后再将动作预测器和视觉模型一起进行联合训练。 背后的原理是,一个小时的图片、视频是巨大的,但是一个小时的动作很少,可能就是一系列关节的运动,也就是一堆小的浮点数。 这种方式可以最大程度保留基础模型的泛化能力,同时大幅提升训练效率, 估计至少5倍以上。 《智能涌现》:数据也是你们新公司的亮点,你们大概有哪些方案? 许华哲:我们的数据方案主要分三层—— ①外骨骼数据采集: 提着机器人手臂直接操作,精度高,反馈更直接; ②UMI方案: 让人戴一个和机器人手部构型完全一样的“硬手套”进行操作,好处是没有机械臂的负担,采集效率高,数据量大。手套做硬是为了保持和机器人手的一致性,确保人能做的动作机器人都能做; ③第一人称视角人类数据: 在头上戴一个摄像头,记录人日常干活的视频。这是从人的视角(Ego-centric)采集海量自然行为数据。 《智能涌现》:这些采集方式其他家也在探索,你们最大的不同点在哪? 许华哲:采集的数据,表层方法可能相似,但内核有本质不同。比如umi手套是否打磨得足够好,足够通用?采集的数据质量如何保证?以及如何清洗和处理这些数据,提升数据质量? 我们一个很大的不同是,我们会大量使用评估数据,就是机器人自己做测试和探索的时候,自己在动的数据。这样的数据某种意义上是更“差”的数据,因为里面会有失败、会有次优。但是这种“差”其实也是“好”,会让模型更知道任务的目标是什么。 另外,手套的设计细节,比如摄像头位置、佩戴舒适度、是否适应不同手型等等,都需要针对家庭任务精心打磨,我们手套的构型设计是面向家庭任务,追求通用性的。我们会在8月末左右给大家看到我们和现在所有的形态都不一样的数采系统。 《智能涌现》:但是现在出来创业会不会太晚了?现在具身智能行业的融资环境怎么样? 许华哲:市场热度还可以,投资人还是比较有热情的。和之前比,投资人更懂了,大家被市场教育过一轮,所以会问得更细。 关于创业出来是否太晚,我认为——在技术没有收敛的今天,仍然有巨大的机会。同时,因为我们更晚,所以我们的时间压力更小、负担更小,但是各种基础设施比如本体等也更加成熟了。另一方面,走向通用家庭机器人,其实才刚上半场。虽然后发,但是谁能先至,也未可知。 封面来源|企业官方 end