AI 原生游戏 · 全景总览
本文档基于
03_工作台/AI原生游戏/下的 Obsidian 笔记、Canvas 白板与项目资料整理。
一、核心判断
1. 去掉 AI 后体验是否崩溃
这是判断 AI 原生的第一标准。
- AI 辅助:不崩溃。AI 主要用于资产生成、文案润色、美术提效。
- AI 增强:体验下降。AI 让 NPC 更聪明、内容更多、对话更自然。
- AI 原生:直接崩溃。AI 是玩法对象、规则裁判、关系生成器或世界演化器。
2. 玩家是否必须通过 AI 中介影响世界
判断标准:玩家是否不再直接操控结果,而是通过语言、演示、关系、指令、判断影响 AI,再由 AI 影响世界。
如果玩家自己动手比指挥 AI 更高效,AI 就会退化成自动化脚本。AI 原生感来自“玩家表达意图”和“AI 理解并行动”之间的张力。
不同题材里的 AI 中介形式不同:
- 文明 / 生存:玩家让渡精细加工和执行能力给智能体。
- 经营 / 关系:玩家让渡主要对话权,让 AI 与 AI 真实互动。
- 战场 / 指挥:玩家让渡即时操作权,改用语音命令和延迟执行。
- 调查 / 叙事:玩家让渡固定剧本推进权,通过真实提问挖出信息。
3. 不确定性需要被设计成可玩变量
AI 的不确定性只有在可解释、可追责、可利用时才有游戏价值。
- 解谜 / 推理:需要强约束,避免随机性破坏公平。
- 模拟 / 叙事:可以利用随机性制造涌现,但要能回溯因果。
- 指挥 / 关系:误解、延迟、反驳可以变成机制,但玩家要能理解为什么发生。
4. 世界模型的近期落点是高价值交互模块
“AI 即游戏引擎”仍然是长期方向,但当前更可落地的切口是:把世界模型用于高价值交互模块,而不是一次性替代完整传统引擎。
最清晰的样板是魔法战斗:世界模型维护对象身份、状态历史和环境因果,让咒语不再是固定技能,而是对战场状态的实时改写。
因此当前阶段更值得关注的不是“做一个全世界都由世界模型生成的游戏”,而是找到传统引擎最难表达、但世界模型可以提供独特体验的局部模块:
- 战斗模块:咒语、属性、环境余波和对象身份共同参与结算。
- 调查 / 收容模块:玩家通过语言、符号和道具反制异常规则。
- 建造 / 解谜模块:玩家改写物体属性或创造局部对象。
- 局部世界演化模块:小场景在玩家干预后持续保留状态历史。
这类模块共同指向一个体验母题:言出法随。玩家不是按下固定技能,而是用语言、符号、咒语、绘画或贴纸声明意图,系统理解后让世界发生可见、可追责、可延续的变化。
二、宏观方向(四条赛道)
这组四分法来自 AI 原生游戏:定义、特征与未来,这里结合当前 AI原生游戏 工作台中的具体概念做再组织。
无限故事讲述者
核心体验是 AI 生成叙事。它最容易商业化,也最容易落到 RPG、互动小说、角色扮演框架里。
价值在于内容生产和角色回应的弹性;风险在于如果玩法仍然是传统任务 / 对话树,只会变成“内容更多的旧游戏”。
鲜活世界模拟器
核心体验是玩家置身 AI 驱动的社会。玩家面对的不是脚本 NPC,而是有关系、目标、记忆和行动能力的智能体群体。
这是个人最感兴趣的方向,但需要深度系统设计:玩家能力边界、智能体质量、长期记忆、社会关系、世界持久化都必须同时成立。
终极 AI 队友
核心体验是各种关系原型中的 AI 伙伴:队友、观察员、宠物、搭档、下属、被救援者。
它不一定追求大世界,而是追求“这个 AI 和我之间的关系真的成立”。语音、记忆、环境感知、主动反馈会是关键。
AI 即游戏引擎
核心体验是世界模型取代一部分传统引擎能力。长期想象空间最大,但短期不适合直接押注“完整替代引擎”。
更现实的路径是先做局部模块:魔法战斗、属性改写、局部世界生成、动态材质与状态演化。
三、具体概念库
以下不是完整索引,而是当前工作台中已经形成具体玩法样板的概念簇。
言出法随体验
玩家通过语言、绘画、贴纸、咒语等表达方式,让 AI 理解意图并改写世界状态。
这是当前最值得持续追踪的 AI 原生体验母题。它不是无边界 Prompt 沙盒,而是被题材、资源、场景、代价和规则约束后的“语义干预世界”。
无限制的言出法随更像技术 demo:玩家可以说出任何东西,但很快会遇到平衡性、目标感和输入负担问题。真正可玩的言出法随需要让玩家知道自己为什么这样说、能影响什么、会付出什么代价,以及世界为什么这样响应。
当前可以拆成四种子型:
- 魔法战斗型:咒语作用于对象身份、材质和环境余波,形成斗法与反制。
- 灵异收容型:语言 / 符号用于识别和反制异常规则,核心是压迫感和调查判断。
- 属性改写型:把对象属性剥离、粘贴、组合,核心是直观的规则迁移。
- 概念创造型:用已观察到的概念创造新物体,核心是受约束的想象力。
魔法战斗:咒语驱动的世界实时演化
核心不是“释放技能”,而是咒语驱动战场对象和环境状态演化。
- 子型:魔法战斗型。
- 机制:固定咒语不再触发固定技能,而是作用于一个会理解材质、生命性、身份、天气和状态历史的战斗世界。
- 样板战斗:木兽、曼德拉草与磁化盔甲。
- AI 角色:世界模型维护对象身份、状态历史和环境因果;LLM / 规则层理解咒语意图。
- 代表链条:桌椅变木兽 → 火焰燃烧木质身体 → 敌人唤雨灭火 → 植物封门 → 切割清场 → 曼德拉草尖叫 → 无生命盔甲推进 → 磁化盔甲终局。
- 价值:当前最完整的“世界模型作为战斗模块”样板。
20260128_粘贴世界大冒险
玩家用贴纸剥离和粘贴万物属性,让对象获得新的规则。
- 子型:属性改写型。
- 机制:ZR 剥离属性,ZL 粘贴属性。
- AI 角色:LLM 是语义翻译官,判断组合逻辑;世界模型是规则执行官,负责实时表现。
- 代表案例:
[飘浮]贴钥匙 → 钥匙从井底升起。[弹性]贴水面 → 河流变成果冻湖泊。[倒影]贴自己 → 镜面隐身。- Boss 战:依次叠加
[鲜红]、[超重]、[坚硬]、[易碎],逐步击败无形之王。
- 价值:机制完整,案例丰富,适合做轻量 Web 原型。
神笔马良
玩家用观察到的概念作画,生成可交互对象。
- 子型:概念创造型。
- 机制:观察世界 → 笔吸收概念 → 用概念作画 → 世界响应。
- 关键约束:笔不是凭空创造,它只能画玩家见过的东西。
- 与粘贴世界的区别:粘贴世界搬运已有属性;神笔马良用已知概念创造新物体。
- 价值:解决“无限自由 = 没有游戏”的问题,适合叙事冒险或关卡制解谜。
言出法随-东方灵异
现代都市道士处理灵异事件,通过画图和语言说明让 AI 修改场景。
- 子型:灵异收容型。
- 核心幻想:掌握驭鬼规则,处理灵异现象,守护城市。
- 交互方式:按键激活 → 空中画图 + 语言说明 → AI 理解后实时修改游戏场景。
- 代表案例:
- 对墙画门 + “给我开” → 金库出现真实的门。
- 画耳机 + “特殊耳机,摒弃灵异声音影响” → 地面出现实体耳机。
- 画剑 + “此剑不伤肉体,只斩灵魂” → 手持灵剑。
- 价值:文化差异化强。中国道士和西方克苏鲁调查员、日式阴阳师有明显区隔。
语音驱动体验
语音不只是输入法,而是核心交互:玩家通过说话下达意图、追问信息、承受误解,并在实时反馈中做判断。
语音指挥
你不能微操士兵,只能在瞬息万变的战场中下达自然军令;不同兵种会按自己的职责、位置和局势理解同一句军令,并选择合适的执行方式。
- 核心体验:玩家像真正的战场指挥官一样说任务式军令,而不是背固定口令或微操单位。
- AI 原生点:固定枚举指令只能覆盖“盾兵守高坡”这类 baseline;真正要验证的是自然军令中的指代、条件、约束、优先级和备选方案如何落成兵种化战术任务。
- 关键设计:同一句军令会被盾兵、弓手、骑兵解释成不同执行策略,例如“别让他们冲散弓手”会触发盾兵堵线、弓手后撤压制、骑兵等待侧翼窗口。
- 项目状态:已升级为 Demo 项目 军令如山,
project-name: iron-orders。 - 技术线索:20260402_战场指挥官_白皮书 保留 STT、LLM 指令解析和《全战三国》Mod 执行层的最初技术启发。
语音调查
你是 FBI 探员,通过电话和被活埋者对话,在电量耗尽前找到他的位置。
- 核心体验:FBI 工作台界面叙事 + 实时语音调查。
- AI 原生点:保罗由 AI 驱动,玩家问什么他答什么;线索从真实对话中被挖出。
- 结构优势:电话、工作台、倒计时、外勤搭档共同形成强约束,让 AI 更容易可信。
- 实现状态:工作台界面、调查工具、调查板、实时语音接入已有进展。
关系经营与间接干预
20260327_银座夜总会模拟器
你是银座一家夜总会的妈妈桑,经营的不是场子,是人。
- 核心结构:你 ↔ 妹妹们;妹妹(AI)↔ 客人(AI)。
- AI 原生点:玩家不直接控制对话结果,而是经营配对、状态、局势和干预时机。
- 玩法张力:配对、递纸条、送酒、换台、亲自出马。
- 价值:这是“玩家经营关系条件,而不是直接操作结果”的强样板。
AI 社会 / 文明模拟型
HumAInity
AI 原生文明领袖模拟。玩家不是上帝视角点 UI,而是作为具身领袖,通过自然语言引导智能体探索、建造、协作和演化。
- 核心体验:领导力,而不是执行力。
- 关键矛盾:玩家不能比 AI 更高效地完成所有事,否则 AI 会退化为自动化脚本。
- 底层问题:
- 3.玩家角色定位_三大难题:皮囊陷阱、个体智能体质量、玩家身份困境。
- 1.玩家能力_皮囊陷阱:玩家只能做粗大动作,把精细处理和创造性加工让渡给 AI。
- 2.交互方式_自然语言:自然语言不能变成口令猜谜,需要共同经验和裁决者。
- 3.Logos_理性中枢:用知识屏蔽和愿景补全稳定 AI 行为。
- 20251120_Logos和Mythos:Logos 保可信,Mythos 保戏剧性。
环境感知陪伴型
栖灵
AI 以宠物形式常驻桌面,观察屏幕、理解玩家行为,并形成陪伴关系。
- 核心验证:我在养一个会看我屏幕的 AI 生命体。
- 五个 MVP 系统:Presence、Observation、Command / Attention、Emotional Feedback、Minimal Progression。
- 价值:它更像产品而非传统游戏,但能验证 AI 长期存在、观察玩家、形成关系的基础能力。
其他待探索方向
- 福尔摩斯 + AI:演绎法体验,AI 作为“智能眼镜”辅助推理。
- PoE2 + AI:四层增强,知识 → 应用 → 行为委托 → 实时适配。
- 1v1 关系原型:狙击手 + 观察员,AI 扮演另一角色。
- 火影结印战斗:多模态手势识别 + 语义实时战斗画面生成。
- 网文重生玩法:轮回 / 死亡后时间回溯,带记忆重新开始。
四、基础设施洞察
真正的机会可能不只在游戏本身,也在 AI 原生游戏需要的新型基础设施:
- 游戏专用推理引擎:低延迟对话、实时世界生成、稳定角色行为。
- 模型压缩与 LoRA 插件:面向单款游戏的轻量专用模型。
- 动态边云路由:高频本地处理,全局逻辑云端处理。
- 游戏专用向量记忆:长期玩家行为记忆、角色关系记忆、世界状态记忆。
- AI 原生 QA 体系:测试无限动态生成内容,而不是只测固定脚本。
五、外部调研快照(2026-03)
以下为 2026-03 阶段性调研快照,用于保留当时的判断背景;后续应单独沉淀为外部调研笔记。
世界模型现状
| 能力 | 现在能做 | 2-3 年后 |
|---|---|---|
| 生成可交互 3D 世界 | 60-90 秒,720p / 24fps 级别演示 | 持续数分钟,持久化存档 |
| 本地消费级 GPU 运行 | 360p / 60fps 或低分辨率演示 | 720p / 60fps 本地运行 |
| 稳定游戏规则逻辑 | 血量、物品栏、规则一致性仍不可靠 | 有机会稳定 |
| 跨 session 存档 | 基本未解决 | 有机会解决 |
| 多人联机 | 多模型同世界交互困难 | 有机会出现早期方案 |
值得关注的项目
Overworld / Waypoint-1
- 训练数据包含游戏录像、操作输入和文字标注。
- 目标是本地实时世界模型运行。
- 关注点:低延迟、可交互、本地化。
Genie 3
- 文本到可交互 3D 世界方向。
- 关注点:世界生成、交互持续时间、产品化入口。
Runway GWM-1
- 分为环境、角色、机器人等不同子方向。
- 关注点:世界模型能力是否能从视频生成走向可控交互。
Oasis 2.0
- 从“替代引擎”转向 Minecraft 实时风格迁移 Mod。
- 关注点:世界模型在局部模块中落地,而不是一次性替代完整引擎。
腾讯 HY-World / WorldPlay
- 关注长期几何一致性和流式视频扩散。
- 关注点:大厂世界模型能力与游戏场景的结合。
市场信号
- Steam 新游戏中生成式 AI 使用比例持续上升。
- AI 角色社交、持久记忆角色、AI 队友开始出现真实产品信号。
- 语音比手势更像近期主流新交互范式。
- 产业侧同时存在两条路线:生产效率提升,以及新交互范式探索。
- 中国团队更容易先把 AI 用作生产提效;西方团队更积极包装成新交互产品。
方向修正
现在能做的原型
粘贴世界、Buried、战场指挥官这类 LLM / 语音驱动原型,不依赖完整世界模型即可验证核心体验。
6-12 个月后更值得观察的方向
当世界模型 API 或本地模型稳定后,可以尝试 Roguelike + 本地世界生成的组合。世界模型负责场景,LLM 负责规则推理,两者结合才更接近真正的 AI 原生。
长期建仓的方向
言出法随-东方灵异、世界模型魔法战斗、AI 社会模拟都值得保留。它们不是短期最稳,但拥有强文化壁垒或强体验天花板。