AI 原生游戏 · 全景总览

本文档基于 03_工作台/AI原生游戏/ 下的 Obsidian 笔记、Canvas 白板与项目资料整理。


一、核心判断

1. 去掉 AI 后体验是否崩溃

这是判断 AI 原生的第一标准。

  • AI 辅助:不崩溃。AI 主要用于资产生成、文案润色、美术提效。
  • AI 增强:体验下降。AI 让 NPC 更聪明、内容更多、对话更自然。
  • AI 原生:直接崩溃。AI 是玩法对象、规则裁判、关系生成器或世界演化器。

2. 玩家是否必须通过 AI 中介影响世界

判断标准:玩家是否不再直接操控结果,而是通过语言、演示、关系、指令、判断影响 AI,再由 AI 影响世界。

如果玩家自己动手比指挥 AI 更高效,AI 就会退化成自动化脚本。AI 原生感来自“玩家表达意图”和“AI 理解并行动”之间的张力。

不同题材里的 AI 中介形式不同:

  • 文明 / 生存:玩家让渡精细加工和执行能力给智能体。
  • 经营 / 关系:玩家让渡主要对话权,让 AI 与 AI 真实互动。
  • 战场 / 指挥:玩家让渡即时操作权,改用语音命令和延迟执行。
  • 调查 / 叙事:玩家让渡固定剧本推进权,通过真实提问挖出信息。

3. 不确定性需要被设计成可玩变量

AI 的不确定性只有在可解释、可追责、可利用时才有游戏价值。

  • 解谜 / 推理:需要强约束,避免随机性破坏公平。
  • 模拟 / 叙事:可以利用随机性制造涌现,但要能回溯因果。
  • 指挥 / 关系:误解、延迟、反驳可以变成机制,但玩家要能理解为什么发生。

4. 世界模型的近期落点是高价值交互模块

“AI 即游戏引擎”仍然是长期方向,但当前更可落地的切口是:把世界模型用于高价值交互模块,而不是一次性替代完整传统引擎。

最清晰的样板是魔法战斗:世界模型维护对象身份、状态历史和环境因果,让咒语不再是固定技能,而是对战场状态的实时改写。

因此当前阶段更值得关注的不是“做一个全世界都由世界模型生成的游戏”,而是找到传统引擎最难表达、但世界模型可以提供独特体验的局部模块:

  • 战斗模块:咒语、属性、环境余波和对象身份共同参与结算。
  • 调查 / 收容模块:玩家通过语言、符号和道具反制异常规则。
  • 建造 / 解谜模块:玩家改写物体属性或创造局部对象。
  • 局部世界演化模块:小场景在玩家干预后持续保留状态历史。

这类模块共同指向一个体验母题:言出法随。玩家不是按下固定技能,而是用语言、符号、咒语、绘画或贴纸声明意图,系统理解后让世界发生可见、可追责、可延续的变化。


二、宏观方向(四条赛道)

这组四分法来自 AI 原生游戏:定义、特征与未来,这里结合当前 AI原生游戏 工作台中的具体概念做再组织。

无限故事讲述者

核心体验是 AI 生成叙事。它最容易商业化,也最容易落到 RPG、互动小说、角色扮演框架里。

价值在于内容生产和角色回应的弹性;风险在于如果玩法仍然是传统任务 / 对话树,只会变成“内容更多的旧游戏”。

鲜活世界模拟器

核心体验是玩家置身 AI 驱动的社会。玩家面对的不是脚本 NPC,而是有关系、目标、记忆和行动能力的智能体群体。

这是个人最感兴趣的方向,但需要深度系统设计:玩家能力边界、智能体质量、长期记忆、社会关系、世界持久化都必须同时成立。

终极 AI 队友

核心体验是各种关系原型中的 AI 伙伴:队友、观察员、宠物、搭档、下属、被救援者。

它不一定追求大世界,而是追求“这个 AI 和我之间的关系真的成立”。语音、记忆、环境感知、主动反馈会是关键。

AI 即游戏引擎

核心体验是世界模型取代一部分传统引擎能力。长期想象空间最大,但短期不适合直接押注“完整替代引擎”。

更现实的路径是先做局部模块:魔法战斗、属性改写、局部世界生成、动态材质与状态演化。


三、具体概念库

以下不是完整索引,而是当前工作台中已经形成具体玩法样板的概念簇。

言出法随体验

玩家通过语言、绘画、贴纸、咒语等表达方式,让 AI 理解意图并改写世界状态。

这是当前最值得持续追踪的 AI 原生体验母题。它不是无边界 Prompt 沙盒,而是被题材、资源、场景、代价和规则约束后的“语义干预世界”。

无限制的言出法随更像技术 demo:玩家可以说出任何东西,但很快会遇到平衡性、目标感和输入负担问题。真正可玩的言出法随需要让玩家知道自己为什么这样说、能影响什么、会付出什么代价,以及世界为什么这样响应。

当前可以拆成四种子型:

  • 魔法战斗型:咒语作用于对象身份、材质和环境余波,形成斗法与反制。
  • 灵异收容型:语言 / 符号用于识别和反制异常规则,核心是压迫感和调查判断。
  • 属性改写型:把对象属性剥离、粘贴、组合,核心是直观的规则迁移。
  • 概念创造型:用已观察到的概念创造新物体,核心是受约束的想象力。

魔法战斗:咒语驱动的世界实时演化

核心不是“释放技能”,而是咒语驱动战场对象和环境状态演化。

  • 子型:魔法战斗型。
  • 机制:固定咒语不再触发固定技能,而是作用于一个会理解材质、生命性、身份、天气和状态历史的战斗世界。
  • 样板战斗:木兽、曼德拉草与磁化盔甲。
  • AI 角色:世界模型维护对象身份、状态历史和环境因果;LLM / 规则层理解咒语意图。
  • 代表链条:桌椅变木兽 → 火焰燃烧木质身体 → 敌人唤雨灭火 → 植物封门 → 切割清场 → 曼德拉草尖叫 → 无生命盔甲推进 → 磁化盔甲终局。
  • 价值:当前最完整的“世界模型作为战斗模块”样板。

20260128_粘贴世界大冒险

玩家用贴纸剥离和粘贴万物属性,让对象获得新的规则。

  • 子型:属性改写型。
  • 机制:ZR 剥离属性,ZL 粘贴属性。
  • AI 角色:LLM 是语义翻译官,判断组合逻辑;世界模型是规则执行官,负责实时表现。
  • 代表案例
    • [飘浮] 贴钥匙 → 钥匙从井底升起。
    • [弹性] 贴水面 → 河流变成果冻湖泊。
    • [倒影] 贴自己 → 镜面隐身。
    • Boss 战:依次叠加 [鲜红][超重][坚硬][易碎],逐步击败无形之王。
  • 价值:机制完整,案例丰富,适合做轻量 Web 原型。

神笔马良

玩家用观察到的概念作画,生成可交互对象。

  • 子型:概念创造型。
  • 机制:观察世界 → 笔吸收概念 → 用概念作画 → 世界响应。
  • 关键约束:笔不是凭空创造,它只能画玩家见过的东西。
  • 与粘贴世界的区别:粘贴世界搬运已有属性;神笔马良用已知概念创造新物体。
  • 价值:解决“无限自由 = 没有游戏”的问题,适合叙事冒险或关卡制解谜。

言出法随-东方灵异

现代都市道士处理灵异事件,通过画图和语言说明让 AI 修改场景。

  • 子型:灵异收容型。
  • 核心幻想:掌握驭鬼规则,处理灵异现象,守护城市。
  • 交互方式:按键激活 → 空中画图 + 语言说明 → AI 理解后实时修改游戏场景。
  • 代表案例
    • 对墙画门 + “给我开” → 金库出现真实的门。
    • 画耳机 + “特殊耳机,摒弃灵异声音影响” → 地面出现实体耳机。
    • 画剑 + “此剑不伤肉体,只斩灵魂” → 手持灵剑。
  • 价值:文化差异化强。中国道士和西方克苏鲁调查员、日式阴阳师有明显区隔。

语音驱动体验

语音不只是输入法,而是核心交互:玩家通过说话下达意图、追问信息、承受误解,并在实时反馈中做判断。

语音指挥

军令如山 / 战场指挥官

你不能微操士兵,只能在瞬息万变的战场中下达自然军令;不同兵种会按自己的职责、位置和局势理解同一句军令,并选择合适的执行方式。

  • 核心体验:玩家像真正的战场指挥官一样说任务式军令,而不是背固定口令或微操单位。
  • AI 原生点:固定枚举指令只能覆盖“盾兵守高坡”这类 baseline;真正要验证的是自然军令中的指代、条件、约束、优先级和备选方案如何落成兵种化战术任务。
  • 关键设计:同一句军令会被盾兵、弓手、骑兵解释成不同执行策略,例如“别让他们冲散弓手”会触发盾兵堵线、弓手后撤压制、骑兵等待侧翼窗口。
  • 项目状态:已升级为 Demo 项目 军令如山project-name: iron-orders
  • 技术线索20260402_战场指挥官_白皮书 保留 STT、LLM 指令解析和《全战三国》Mod 执行层的最初技术启发。

语音调查

棺材里的记忆

你是 FBI 探员,通过电话和被活埋者对话,在电量耗尽前找到他的位置。

  • 核心体验:FBI 工作台界面叙事 + 实时语音调查。
  • AI 原生点:保罗由 AI 驱动,玩家问什么他答什么;线索从真实对话中被挖出。
  • 结构优势:电话、工作台、倒计时、外勤搭档共同形成强约束,让 AI 更容易可信。
  • 实现状态:工作台界面、调查工具、调查板、实时语音接入已有进展。

关系经营与间接干预

20260327_银座夜总会模拟器

你是银座一家夜总会的妈妈桑,经营的不是场子,是人。

  • 核心结构:你 ↔ 妹妹们;妹妹(AI)↔ 客人(AI)。
  • AI 原生点:玩家不直接控制对话结果,而是经营配对、状态、局势和干预时机。
  • 玩法张力:配对、递纸条、送酒、换台、亲自出马。
  • 价值:这是“玩家经营关系条件,而不是直接操作结果”的强样板。

AI 社会 / 文明模拟型

HumAInity

AI 原生文明领袖模拟。玩家不是上帝视角点 UI,而是作为具身领袖,通过自然语言引导智能体探索、建造、协作和演化。

环境感知陪伴型

栖灵

AI 以宠物形式常驻桌面,观察屏幕、理解玩家行为,并形成陪伴关系。

  • 核心验证:我在养一个会看我屏幕的 AI 生命体。
  • 五个 MVP 系统:Presence、Observation、Command / Attention、Emotional Feedback、Minimal Progression。
  • 价值:它更像产品而非传统游戏,但能验证 AI 长期存在、观察玩家、形成关系的基础能力。

其他待探索方向

  • 福尔摩斯 + AI:演绎法体验,AI 作为“智能眼镜”辅助推理。
  • PoE2 + AI:四层增强,知识 → 应用 → 行为委托 → 实时适配。
  • 1v1 关系原型:狙击手 + 观察员,AI 扮演另一角色。
  • 火影结印战斗:多模态手势识别 + 语义实时战斗画面生成。
  • 网文重生玩法:轮回 / 死亡后时间回溯,带记忆重新开始。

四、基础设施洞察

真正的机会可能不只在游戏本身,也在 AI 原生游戏需要的新型基础设施:

  1. 游戏专用推理引擎:低延迟对话、实时世界生成、稳定角色行为。
  2. 模型压缩与 LoRA 插件:面向单款游戏的轻量专用模型。
  3. 动态边云路由:高频本地处理,全局逻辑云端处理。
  4. 游戏专用向量记忆:长期玩家行为记忆、角色关系记忆、世界状态记忆。
  5. AI 原生 QA 体系:测试无限动态生成内容,而不是只测固定脚本。

五、外部调研快照(2026-03)

以下为 2026-03 阶段性调研快照,用于保留当时的判断背景;后续应单独沉淀为外部调研笔记。

世界模型现状

能力现在能做2-3 年后
生成可交互 3D 世界60-90 秒,720p / 24fps 级别演示持续数分钟,持久化存档
本地消费级 GPU 运行360p / 60fps 或低分辨率演示720p / 60fps 本地运行
稳定游戏规则逻辑血量、物品栏、规则一致性仍不可靠有机会稳定
跨 session 存档基本未解决有机会解决
多人联机多模型同世界交互困难有机会出现早期方案

值得关注的项目

Overworld / Waypoint-1

  • 训练数据包含游戏录像、操作输入和文字标注。
  • 目标是本地实时世界模型运行。
  • 关注点:低延迟、可交互、本地化。

Genie 3

  • 文本到可交互 3D 世界方向。
  • 关注点:世界生成、交互持续时间、产品化入口。

Runway GWM-1

  • 分为环境、角色、机器人等不同子方向。
  • 关注点:世界模型能力是否能从视频生成走向可控交互。

Oasis 2.0

  • 从“替代引擎”转向 Minecraft 实时风格迁移 Mod。
  • 关注点:世界模型在局部模块中落地,而不是一次性替代完整引擎。

腾讯 HY-World / WorldPlay

  • 关注长期几何一致性和流式视频扩散。
  • 关注点:大厂世界模型能力与游戏场景的结合。

市场信号

  • Steam 新游戏中生成式 AI 使用比例持续上升。
  • AI 角色社交、持久记忆角色、AI 队友开始出现真实产品信号。
  • 语音比手势更像近期主流新交互范式。
  • 产业侧同时存在两条路线:生产效率提升,以及新交互范式探索。
  • 中国团队更容易先把 AI 用作生产提效;西方团队更积极包装成新交互产品。

方向修正

现在能做的原型

粘贴世界、Buried、战场指挥官这类 LLM / 语音驱动原型,不依赖完整世界模型即可验证核心体验。

6-12 个月后更值得观察的方向

当世界模型 API 或本地模型稳定后,可以尝试 Roguelike + 本地世界生成的组合。世界模型负责场景,LLM 负责规则推理,两者结合才更接近真正的 AI 原生。

长期建仓的方向

言出法随-东方灵异、世界模型魔法战斗、AI 社会模拟都值得保留。它们不是短期最稳,但拥有强文化壁垒或强体验天花板。