AI 原生游戏 · 全景总览

本文档基于 03_工作台/AI原生游戏/ 下的 Obsidian 笔记、Canvas 白板与项目资料整理。

一、核心判断

1. 去掉 AI 后体验是否崩溃

这是判断 AI 原生的第一标准。

AI 辅助：不崩溃。AI 主要用于资产生成、文案润色、美术提效。
AI 增强：体验下降。AI 让 NPC 更聪明、内容更多、对话更自然。
AI 原生：直接崩溃。AI 是玩法对象、规则裁判、关系生成器或世界演化器。

2. 玩家是否必须通过 AI 中介影响世界

判断标准：玩家是否不再直接操控结果，而是通过语言、演示、关系、指令、判断影响 AI，再由 AI 影响世界。

如果玩家自己动手比指挥 AI 更高效，AI 就会退化成自动化脚本。AI 原生感来自“玩家表达意图”和“AI 理解并行动”之间的张力。

不同题材里的 AI 中介形式不同：

文明 / 生存：玩家让渡精细加工和执行能力给智能体。
经营 / 关系：玩家让渡主要对话权，让 AI 与 AI 真实互动。
战场 / 指挥：玩家让渡即时操作权，改用语音命令和延迟执行。
调查 / 叙事：玩家让渡固定剧本推进权，通过真实提问挖出信息。

3. 不确定性需要被设计成可玩变量

AI 的不确定性只有在可解释、可追责、可利用时才有游戏价值。

解谜 / 推理：需要强约束，避免随机性破坏公平。
模拟 / 叙事：可以利用随机性制造涌现，但要能回溯因果。
指挥 / 关系：误解、延迟、反驳可以变成机制，但玩家要能理解为什么发生。

4. 世界模型的近期落点是高价值交互模块

“AI 即游戏引擎”仍然是长期方向，但当前更可落地的切口是：把世界模型用于高价值交互模块，而不是一次性替代完整传统引擎。

最清晰的样板是魔法战斗：世界模型维护对象身份、状态历史和环境因果，让咒语不再是固定技能，而是对战场状态的实时改写。

因此当前阶段更值得关注的不是“做一个全世界都由世界模型生成的游戏”，而是找到传统引擎最难表达、但世界模型可以提供独特体验的局部模块：

战斗模块：咒语、属性、环境余波和对象身份共同参与结算。
调查 / 收容模块：玩家通过语言、符号和道具反制异常规则。
建造 / 解谜模块：玩家改写物体属性或创造局部对象。
局部世界演化模块：小场景在玩家干预后持续保留状态历史。

这类模块共同指向一个体验母题：言出法随。玩家不是按下固定技能，而是用语言、符号、咒语、绘画或贴纸声明意图，系统理解后让世界发生可见、可追责、可延续的变化。

二、宏观方向（四条赛道）

这组四分法来自 AI 原生游戏：定义、特征与未来，这里结合当前 AI原生游戏 工作台中的具体概念做再组织。

无限故事讲述者

核心体验是 AI 生成叙事。它最容易商业化，也最容易落到 RPG、互动小说、角色扮演框架里。

价值在于内容生产和角色回应的弹性；风险在于如果玩法仍然是传统任务 / 对话树，只会变成“内容更多的旧游戏”。

鲜活世界模拟器

核心体验是玩家置身 AI 驱动的社会。玩家面对的不是脚本 NPC，而是有关系、目标、记忆和行动能力的智能体群体。

这是个人最感兴趣的方向，但需要深度系统设计：玩家能力边界、智能体质量、长期记忆、社会关系、世界持久化都必须同时成立。

终极 AI 队友

核心体验是各种关系原型中的 AI 伙伴：队友、观察员、宠物、搭档、下属、被救援者。

它不一定追求大世界，而是追求“这个 AI 和我之间的关系真的成立”。语音、记忆、环境感知、主动反馈会是关键。

AI 即游戏引擎

核心体验是世界模型取代一部分传统引擎能力。长期想象空间最大，但短期不适合直接押注“完整替代引擎”。

更现实的路径是先做局部模块：魔法战斗、属性改写、局部世界生成、动态材质与状态演化。

三、具体概念库

以下不是完整索引，而是当前工作台中已经形成具体玩法样板的概念簇。

言出法随体验

玩家通过语言、绘画、贴纸、咒语等表达方式，让 AI 理解意图并改写世界状态。

这是当前最值得持续追踪的 AI 原生体验母题。它不是无边界 Prompt 沙盒，而是被题材、资源、场景、代价和规则约束后的“语义干预世界”。

无限制的言出法随更像技术 demo：玩家可以说出任何东西，但很快会遇到平衡性、目标感和输入负担问题。真正可玩的言出法随需要让玩家知道自己为什么这样说、能影响什么、会付出什么代价，以及世界为什么这样响应。

这一母题在回合制方向上的运行时范式已沉淀为语义裁决引擎：自然语言声明 → 合理性裁决（含受控效果限幅） → 视频生成兑现。

当前可以拆成四种子型：

魔法战斗型：咒语作用于对象身份、材质和环境余波，形成斗法与反制。
灵异收容型：语言 / 符号用于识别和反制异常规则，核心是压迫感和调查判断。
属性改写型：把对象属性剥离、粘贴、组合，核心是直观的规则迁移。
概念创造型：用已观察到的概念创造新物体，核心是受约束的想象力。

魔法战斗：咒语驱动的世界实时演化

核心不是“释放技能”，而是咒语驱动战场对象和环境状态演化。

子型：魔法战斗型。
机制：固定咒语不再触发固定技能，而是作用于一个会理解材质、生命性、身份、天气和状态历史的战斗世界。
样板战斗：木兽、曼德拉草与磁化盔甲。
AI 角色：世界模型维护对象身份、状态历史和环境因果；LLM / 规则层理解咒语意图。
代表链条：桌椅变木兽 → 火焰燃烧木质身体 → 敌人唤雨灭火 → 植物封门 → 切割清场 → 曼德拉草尖叫 → 无生命盔甲推进 → 磁化盔甲终局。
价值：当前最完整的“世界模型作为战斗模块”样板。

20260128_粘贴世界大冒险

玩家用贴纸剥离和粘贴万物属性，让对象获得新的规则。

子型：属性改写型。
机制：ZR 剥离属性，ZL 粘贴属性。
AI 角色：LLM 是语义翻译官，判断组合逻辑；世界模型是规则执行官，负责实时表现。
代表案例：
- [飘浮] 贴钥匙 → 钥匙从井底升起。
- [弹性] 贴水面 → 河流变成果冻湖泊。
- [倒影] 贴自己 → 镜面隐身。
- Boss 战：依次叠加 [鲜红]、[超重]、[坚硬]、[易碎]，逐步击败无形之王。
价值：机制完整，案例丰富，适合做轻量 Web 原型。

神笔马良

玩家用观察到的概念作画，生成可交互对象。

子型：概念创造型。
机制：观察世界 → 笔吸收概念 → 用概念作画 → 世界响应。
关键约束：笔不是凭空创造，它只能画玩家见过的东西。
与粘贴世界的区别：粘贴世界搬运已有属性；神笔马良用已知概念创造新物体。
价值：解决“无限自由 = 没有游戏”的问题，适合叙事冒险或关卡制解谜。

言出法随-东方灵异

现代都市道士处理灵异事件，通过画图和语言说明让 AI 修改场景。

子型：灵异收容型。
核心幻想：掌握驭鬼规则，处理灵异现象，守护城市。
交互方式：按键激活 → 空中画图 + 语言说明 → AI 理解后实时修改游戏场景。
代表案例：
- 对墙画门 + “给我开” → 金库出现真实的门。
- 画耳机 + “特殊耳机，摒弃灵异声音影响” → 地面出现实体耳机。
- 画剑 + “此剑不伤肉体，只斩灵魂” → 手持灵剑。
价值：文化差异化强。中国道士和西方克苏鲁调查员、日式阴阳师有明显区隔。

人间如狱

末世灵异生存小队题材，强调资源短缺、队员状态和世界模型驱动的异常对抗。

子型：灵异收容 / 生存压力型。
机制：LLM 驱动队员性格、恐惧和临场判断；世界模型负责灵异规则与环境反馈。
价值：把“言出法随”的文化幻想压进生存压力和队员管理里，适合探索 AI 队友、灵异规则和资源循环的组合。

谁说我大夏无神明

国运召唤战题材：各国召唤本国文化神明对抗，胜者掠夺败者国运。

子型：神话召唤 / 短剧爽感型。
机制：玩家围绕神明选择、技能重配、法宝选择、文化解释和天道裁判做决策。
项目状态：已升级为 Demo 验证项目，当前无对应工程；设计母稿见谁说我大夏无神明。
价值：强题材钩子和短剧式爽点明显，适合作为“中国神话资源 + AI 语义召唤”的观察样本。

语音驱动体验

语音不只是输入法，而是核心交互：玩家通过说话下达意图、追问信息、承受误解，并在实时反馈中做判断。

语音指挥

军令如山 / 战场指挥官

你不能微操士兵，只能在瞬息万变的战场中下达自然军令；不同兵种会按自己的职责、位置和局势理解同一句军令，并选择合适的执行方式。

核心体验：玩家像真正的战场指挥官一样说任务式军令，而不是背固定口令或微操单位。
AI 原生点：固定枚举指令只能覆盖“盾兵守高坡”这类 baseline；真正要验证的是自然军令中的指代、条件、约束、优先级和备选方案如何落成兵种化战术任务。
关键设计：同一句军令会被盾兵、弓手、骑兵解释成不同执行策略，例如“别让他们冲散弓手”会触发盾兵堵线、弓手后撤压制、骑兵等待侧翼窗口。
项目状态：已升级为 Demo 项目军令如山，project-name: iron-orders。
技术线索：20260402_战场指挥官_白皮书保留 STT、LLM 指令解析和《全战三国》Mod 执行层的最初技术启发。

语音调查

棺材里的记忆

你是 FBI 案件探员，通过工作台接手连续案件，查档案、调监控、拼时间线，并用实时语音和当事人、证人、嫌疑人对话。Buried 是第一案：保罗被活埋后打来电话，玩家要查清他为什么被活埋，再由动机链反推执行者和地点。

核心体验：FBI 工作台界面叙事 + 多案件侦破 + 实时语音追问。
AI 原生点：玩家用自己的语言安抚、试探、逼问和对质，AI 角色根据证据状态与情绪状态动态回应。
结构优势：案件工作台提供强约束，实时语音提供沉浸感，单元案结构让系统可以持续换案复用。
实现状态：HTML 概念页、工作台界面、调查工具和实时语音接入已有进展；Buried 首案需要从“救援定位”改写为“活埋动机侦破”。

互动影像与生产期 AI 资产

这一路线不一定把实时生成 AI 放在 runtime 核心循环里，但它适合用 AI 在生产期批量生成角色表演、证据图、影像片段和 UI 素材，再用稳定规则做播放、调度、检索和裁决。

互动影像玩法类型整理

横向整理轻量互动影像的玩法类型，重点不是“看视频选分支”，而是让玩家操作影像、材料或角色状态。

核心动词：搜索、标记、质询、排序、切换、调度、回放、剪辑、判断。
AI 角色：生产期资产生成，runtime 保持可控的规则与素材调度。
价值：为 Beholder-like、签证官、影像取证等轻量方案提供玩法菜单。

签证官影像审核模拟器

玩家扮演美国签证官，在有限问题、申请材料和短时面谈中判断申请人是否可信。

子型：证词矛盾质询 / 表演变体调度。
机制：生产期生成申请人问答片段、材料、社交影像和后果片段；runtime 负责有限提问、素材触发、状态结算和政策压力。
价值：把 Papers, Please 式裁决压力转成影像质询体验，适合验证“AI 生产期影游资产 + 稳定规则循环”的低风险原型。

关系经营与间接干预

20260327_银座夜总会模拟器

你是银座一家夜总会的妈妈桑，经营的不是场子，是人。

核心结构：你 ↔ 妹妹们；妹妹（AI）↔ 客人（AI）。
AI 原生点：玩家不直接控制对话结果，而是经营配对、状态、局势和干预时机。
玩法张力：配对、递纸条、送酒、换台、亲自出马。
价值：这是“玩家经营关系条件，而不是直接操作结果”的强样板。

权力与组织推演

玩家站在上位者位置，通过自然语言提出治理意图，再观察 AI 角色如何按各自职责、利益和风险判断协同执行。核心不是“拥有权力”本身，而是让玩家在组织系统的摩擦中平衡不同势力，提高政策落地率。

Yes President

架空总统模拟器。玩家要在争取连任的压力下，按自己的路线治理国家；每个执行者都有立场和小九九，真正的玩法是把他们组织起来，让政策尽量按总统意图落地。

核心体验：玩家用自己的话和幕僚、官员、反对派、媒体与外国势力互动，在连任压力下实现自己的自由抱负。
AI 原生点：LLM 同时扮演有职责、立场和利益约束的角色，并把总统意图推演成官僚执行、媒体叙事、民意变化和连锁危机。
玩法张力：同一句总统命令会因为威望、角色职责、部门利益和舆论环境而发生执行折损；玩家需要通过沟通、任命、预算和利益交换提高落地率。
价值：这是“上位者治理意图 → AI 角色协同执行 → 系统反馈执行折损”的清晰样板，可迁移到 CEO、黑帮教父、宗教教主、战时领袖等题材。

朕已阅：雍正奏折 AI 模拟

玩家扮演雍正，每天批几封奏折，用一句朱批影响国库、民心、吏治、皇权和官员恐惧。

核心体验：读奏折、写朱批、看官员如何理解、误读和执行皇帝意图。
AI 原生点：AI 解析自然语言朱批的力度、语气、潜台词和治理意图，再生成执行折损与史官锐评。
价值：比 Yes President 更轻量，适合作为“上位者语言裁决”方向的短回合验证版本。

AI 社会 / 文明模拟型

HumAInity

AI 原生文明领袖模拟。玩家不是上帝视角点 UI，而是作为具身领袖，通过自然语言引导智能体探索、建造、协作和演化。

核心体验：领导力，而不是执行力。
关键矛盾：玩家不能比 AI 更高效地完成所有事，否则 AI 会退化为自动化脚本。
底层问题：
- 3.玩家角色定位_三大难题：皮囊陷阱、个体智能体质量、玩家身份困境。
- 1.玩家能力_皮囊陷阱：玩家只能做粗大动作，把精细处理和创造性加工让渡给 AI。
- 2.交互方式_自然语言：自然语言不能变成口令猜谜，需要共同经验和裁决者。
- 3.Logos_理性中枢：用知识屏蔽和愿景补全稳定 AI 行为。
- 20251120_Logos和Mythos：Logos 保可信，Mythos 保戏剧性。

环境感知陪伴型

栖灵

AI 以宠物形式常驻桌面，观察屏幕、理解玩家行为，并形成陪伴关系。

核心验证：我在养一个会看我屏幕的 AI 生命体。
五个 MVP 系统：Presence、Observation、Command / Attention、Emotional Feedback、Minimal Progression。
价值：它更像产品而非传统游戏，但能验证 AI 长期存在、观察玩家、形成关系的基础能力。

其他待探索方向

福尔摩斯 + AI：演绎法体验，AI 作为“智能眼镜”辅助推理。
PoE2 + AI：四层增强，知识 → 应用 → 行为委托 → 实时适配。
1v1 关系原型：狙击手 + 观察员，AI 扮演另一角色。
火影结印战斗：多模态手势识别 + 语义实时战斗画面生成。
网文重生玩法：轮回 / 死亡后时间回溯，带记忆重新开始。

四、基础设施洞察

真正的机会可能不只在游戏本身，也在 AI 原生游戏需要的新型基础设施：

游戏专用推理引擎：低延迟对话、实时世界生成、稳定角色行为。
模型压缩与 LoRA 插件：面向单款游戏的轻量专用模型。
动态边云路由：高频本地处理，全局逻辑云端处理。
游戏专用向量记忆：长期玩家行为记忆、角色关系记忆、世界状态记忆。
AI 原生 QA 体系：测试无限动态生成内容，而不是只测固定脚本。

五、外部调研快照（2026-03）

以下为 2026-03 阶段性调研快照，用于保留当时的判断背景；后续应单独沉淀为外部调研笔记。

世界模型现状

能力	现在能做	2-3 年后
生成可交互 3D 世界	60-90 秒，720p / 24fps 级别演示	持续数分钟，持久化存档
本地消费级 GPU 运行	360p / 60fps 或低分辨率演示	720p / 60fps 本地运行
稳定游戏规则逻辑	血量、物品栏、规则一致性仍不可靠	有机会稳定
跨 session 存档	基本未解决	有机会解决
多人联机	多模型同世界交互困难	有机会出现早期方案

值得关注的项目

Overworld / Waypoint-1

训练数据包含游戏录像、操作输入和文字标注。
目标是本地实时世界模型运行。
关注点：低延迟、可交互、本地化。

Genie 3

文本到可交互 3D 世界方向。
关注点：世界生成、交互持续时间、产品化入口。

Runway GWM-1

分为环境、角色、机器人等不同子方向。
关注点：世界模型能力是否能从视频生成走向可控交互。

Oasis 2.0

从“替代引擎”转向 Minecraft 实时风格迁移 Mod。
关注点：世界模型在局部模块中落地，而不是一次性替代完整引擎。

腾讯 HY-World / WorldPlay

关注长期几何一致性和流式视频扩散。
关注点：大厂世界模型能力与游戏场景的结合。

市场信号

Steam 新游戏中生成式 AI 使用比例持续上升。
AI 角色社交、持久记忆角色、AI 队友开始出现真实产品信号。
语音比手势更像近期主流新交互范式。
产业侧同时存在两条路线：生产效率提升，以及新交互范式探索。
中国团队更容易先把 AI 用作生产提效；西方团队更积极包装成新交互产品。

方向修正

现在能做的原型

粘贴世界、Buried、战场指挥官这类 LLM / 语音驱动原型，不依赖完整世界模型即可验证核心体验。

6-12 个月后更值得观察的方向

当世界模型 API 或本地模型稳定后，可以尝试 Roguelike + 本地世界生成的组合。世界模型负责场景，LLM 负责规则推理，两者结合才更接近真正的 AI 原生。

长期建仓的方向

言出法随-东方灵异、世界模型魔法战斗、AI 社会模拟都值得保留。它们不是短期最稳，但拥有强文化壁垒或强体验天花板。

探索

00_全景总览