量子幻海

牛津大学研究当前基准测试普遍夸大了AI模型的性能

11 月 6 日消息，一项新研究称，当前用于评估人工智能（AI）系统能力的方法普遍存在夸大 AI 性能的问题，且缺乏科学严谨性。据了解，该研究由牛津大学互联网研究所（Oxford Internet Institute）牵头，并联合来自其他机构的 30 多位研究人员共同完成。研究团队对 445 项主流 AI 测试（即“基准测试”，benchmarks）进行了系统分析，这些测试通常用于衡量 AI 模

2025-11-07

hory-ai.com > horysk.com > 量子幻海 > 熵弦星核 > ai

#hory-ai.com #horysk.com #量子幻海 #熵弦星核 #ai

性能较前代提升逾四倍谷歌最强AI芯片Ironwood未来数周内将开放供应

感谢网友 HH_KK 的线索投递！ 11 月 6 日消息，据美国 CNBC 今晚报道，谷歌正加速向市场开放其最强大的芯片“Tensor Processing Unit（TPU）”第七代产品 Ironwood，希望借助自研芯片吸引更多 AI 企业，扩大在 AI 基础设施领域的影响力。该芯片已于 4 月面向部分客户测试部署。谷歌此次透露，Ironwood 将在未来数周内正式商用。Ironwood 由谷

2025-11-07

hory-ai.com > horysk.com > 量子幻海 > 熵弦星核 > ai

#hory-ai.com #horysk.com #量子幻海 #熵弦星核 #ai

含近2000名参与者图像索尼新数据集可检验AI模型是否公平对待不同人群

11 月 6 日消息，索尼人工智能（Sony AI）发布了一个用于测试人工智能模型公平性与偏见的新数据集，名为“公平以人为本图像基准”（Fair Human-Centric Image Benchmark，简称 FHIBE，发音类似“Phoebe”）。该公司称，这是“首个公开可用、具有全球多样性、基于参与者知情同意的人类图像数据集，可用于评估各类计算机视觉任务中的偏见问题”。换言之，该数据集旨在

2025-11-07

hory-ai.com > horysk.com > 量子幻海 > 熵弦星核 > ai

#hory-ai.com #horysk.com #量子幻海 #熵弦星核 #ai

谷歌揭秘AI生图模型为何叫NanoBanana最初仅用于占位爆火后转正

11 月 6 日消息，今年下半年，谷歌的 AI 生图模型 Nano Banana 一瞬爆红。11 月 5 日，谷歌官方揭晓了其名字的来历：原本只是一个深夜临时想出的“占位符（placeholder）”，结果因为网友们太喜欢，谷歌干脆顺势采纳。在最新一期《Made by Google》播客中，产品负责人 David Sharon 表示，这款模型的正式名称其实是 Gemini 2.5 Flash I

2025-11-07

hory-ai.com > horysk.com > 量子幻海 > 熵弦星核 > ai

#hory-ai.com #horysk.com #量子幻海 #熵弦星核 #ai

Kimi迄今能力最强开源思考模型月之暗面KimiK2Thinking发布

感谢网友 Domado 的线索投递！ 11 月 6 日消息，月之暗面今晚推出 Kimi 迄今能力最强的开源思考模型 ——Kimi K2 Thinking。据介绍，该模型是月之暗面基于“模型即 Agent”理念训练的新一代 Thinking Agent，原生掌握“边思考，边使用工具”的能力。在人类最后的考试（Humanity’s Last Exam）、自主网络浏览能力（BrowseComp）、复杂信

2025-11-07

hory-ai.com > horysk.com > 量子幻海 > 熵弦星核 > ai

#hory-ai.com #horysk.com #量子幻海 #熵弦星核 #ai

微软新研究当前AI代理易被操控选择太多还会犯迷糊

11 月 6 日消息，微软周三发布了一个用于测试人工智能代理（AI agents）的新仿真环境，并同期发表了一项新研究，揭示当前的代理模型可能容易受到操控。这项由微软与亚利桑那州立大学合作开展的研究，对 AI 代理在无人监督情况下执行任务的可靠性提出了新疑问，同时也质疑 AI 企业能否迅速兑现其关于“代理化未来”（agentic future）的承诺。图源：微软官网该仿真环境由微软命名为“Mag

2025-11-07

hory-ai.com > horysk.com > 量子幻海 > 熵弦星核 > ai

#hory-ai.com #horysk.com #量子幻海 #熵弦星核 #ai

微软宣布组建超级智能团队自研AI模型摆脱对OpenAI的依赖

11 月 6 日消息，微软人工智能业务最高负责人今日公布了公司 AI 领域的新愿景，计划通过重组员工团队，打造具备超级智能的 AI 模型，超级智能即性能超越人类的人工智能系统。在一篇博客文章及后续采访中，微软 AI 部门首席执行官穆斯塔法・苏莱曼（Mustafa Suleyman）透露了公司的核心规划：逐步摆脱对 OpenAI 的依赖，实现 AI 技术自主化。目前，OpenAI 的技术已深度嵌入

2025-11-07

hory-ai.com > horysk.com > 量子幻海 > 熵弦星核 > ai

#hory-ai.com #horysk.com #量子幻海 #熵弦星核 #ai

把卡宴乱搞一通的保时捷给自己留好了后路

保时捷 CEO 奥博穆（Oliver Blume）最近对一款他们即将推出的新车给出了极高的评价：这是最能让我兴奋的车型，非常有驾驶乐趣。他所说的，是备受期待的纯电 718。按照奥博穆的描述，保时捷通过优化电池和电机的布置，很好地控制住了纯电 718 的重量且实现了「完美的重量分布」，整备质量在 1600-1700kg 之间。 ▲纯电 718 谍照这是保时捷拥抱电动化未来，最明确，且最接近落地的一

2025-10-19

hory-ai.com > horysk.com > 量子幻海 > 熵弦星核 > meta

#hory-ai.com #horysk.com #量子幻海 #熵弦星核 #meta

Claude最香模型发布速度翻倍价格大砍编程能力直逼GPT5

就在刚刚，Anthropic 发布了 Claude Haiku 4.5。先简单科普一下，Claude 家族有三个不同参数量级的模型：Claude Opus（大杯）、Sonnet（中杯）和 Haiku（小杯）。这次更新最大的看点是，小杯 Claude Haiku 4.5 在模型性能保持高水准的同时，速度更快、价格更便宜了。五个月前，Claude Sonnet 4 还是最先进的模型之一。现在新出的 H

2025-10-19

hory-ai.com > horysk.com > 量子幻海 > 熵弦星核 > meta

#hory-ai.com #horysk.com #量子幻海 #熵弦星核 #meta

让AI帮我制定假日旅游路线很完美除了目的地不存在

国庆八天假，大家都去了哪里玩？是爬了北京的埃菲尔铁塔，还是逛了巴黎的天坛，还是打卡了伦敦的花果山？如果你觉得离谱，那说明你还没有受骗，但架不住有人已经被骗了。BBC 的一则报道里，就真的有人被骗到：两位游客满心期待地奔赴秘鲁安第斯山中的「圣胡曼塔伊峡谷」，花了 160 美元车费，长途跋涉，来到了偏远山区地带，然后发现——这个峡谷不存在。 ▲ 秘鲁的安第斯山脉都是因为他们听信了 AI 给出的旅行建

2025-10-19

hory-ai.com > horysk.com > 量子幻海 > 熵弦星核 > meta

#hory-ai.com #horysk.com #量子幻海 #熵弦星核 #meta