ALIGNMENT — 对齐 · 可解释性

About

研究概览

本知识库围绕 机械可解释性 的经验研究与 科学技术哲学、伦理学 的规范分析之间的交叉地带构建。前 7 个领域覆盖基础技术栈与哲学框架，在此基础上提炼出 4 个核心研究空白（Gap 1–4），以专题文献库形式深入探索。总计 276 篇文献，其中 56 篇为必读核心。

Foundations / 01–07

技术基础 · 领域文献库

前 7 个领域构成项目的方法论基础与哲学参照系。每个领域含 20–35 篇文献，5 篇深度笔记。

→ 01

Research Gaps / G1–G4

核心研究空白 · 专题文献库

基于前 7 个领域 193 篇文献的系统分析，识别出四个核心哲学-技术交叉空白。新增 83 篇专题文献。

→ G1

表征本体论：发现还是构建？

Feature Ontology · Scientific Realism · Structuralism · Natural Kinds

理解的认识论：内部机制还是外部验证？

Epistemology of Understanding · Internal vs External · Validation

文献 20

必读 5

笔记 5

AUP框架BlockheadPeircede RegtFaithfulness

→ G3

因果充分性：干预相关性还是真正因果？

Causal Sufficiency · Interchange Intervention · Pearl Hierarchy

文献 22

必读 5

笔记 5

CaFDASGPT-2PearlJacobian

→ G4

向量奠基：分布模式还是真正语义？

Vector Grounding Problem · Symbol Grounding · Embodied Cognition

文献 21

必读 5

笔记 5

Chinese roomClarkFregeKripkeLLM

Bridges

跨领域桥梁文献

同时连接多个研究领域的关键节点文献，是整合技术研究与哲学分析的核心枢纽。

01 / 12

Milliere & Coelho Mollo (2026)

07 心灵哲学 ↔ 01 SAE ↔ 06 科学哲学

直接挑战SAE发现特征的语义地位：纯语言模型向量的内在语义内容缺失。将Harnad的符号奠基问题重构为向量时代版本。

02 / 12

Queloz & Beckmann (2026)

07 心灵哲学 ↔ 03 因果干预 ↔ 01 SAE

综合机械可解释性证据，论证LLM具有"可废止的理解"。揭示人类与机器认知之间的平行机制结构差异。

03 / 12

Phua (2025)

07 心灵哲学 ↔ 03 因果干预

首个系统性因果消融研究，在AI agent中测试GWT和HOT预测，发现"广播-放大效应"。

04 / 12

Culcu (2025)

06 科学哲学 ↔ 01 SAE

系统综述揭示ML文献中60%结构唯心论、0%结构实在论——直接质询SAE特征的本体论地位。

05 / 12

Ayonrinde et al. (2025)

06 科学哲学 ↔ 01 SAE ↔ 03 因果干预

为机械可解释性提供四维度定义和解释性美德框架，桥接科学哲学与可解释性实践。

06 / 12

Ovadya et al. (2025)

05 伦理治理 ↔ 04 对齐安全

将民主理论操作化为AI对齐框架，要求内部透明性（可解释性）以实现公民知情参与。

07 / 12

Longo et al. (2024/2025)

05 伦理治理 ↔ 06 科学哲学 ↔ 01 SAE

将XAI重构为社会技术治理基础设施，机械可解释性必须服务于该框架。

08 / 12

Keeling & Street (2026)

05 伦理治理 ↔ 07 心灵哲学

机械可解释性可解决AI意识/福利评估中的行为歧义问题。

09 / 12

Sutter et al. (2025)

03 因果干预 ↔ 06 科学哲学 ↔ 07 心灵哲学

因果抽象中的非线性困境与意向立场的形式化之间存在结构同构性——"无约束的解释是空洞的"。

10 / 12

Alignment Auditor (2025)

03 因果干预 ↔ 04 对齐安全

机械可解释性作为对齐审计工具：通过因果方法检测隐藏目标。

11 / 12

Beisbart (2025)

06 科学哲学 ↔ 01 SAE ↔ 02 激活工程

对DNN解释性理解的"普世教会"分析——同时涵盖SAE和表征工程两种范式。

12 / 12

Shanahan (2025)

07 心灵哲学 ↔ 04 对齐安全

关于LLM意识/意向性话语的哲学分析，直接关联对齐中的 deceptive alignment 检测。

The Four Gaps

核心研究空白

基于 276 篇文献的系统检索与分析，机械可解释性处于四个未解决的哲学-技术交叉问题之间。

GAP 01

表征本体论张力

SAE/激活工程揭示的特征是 被发现 的（实在论）还是 被构建 的（工具论）？文献分析显示 ML 文献中 0% 的结构实在论立场（Culcu 2025）。

→ 20 篇专题文献 · 08_representational_ontology

GAP 02

理解认识论张力

纯内部机制分析是否足以产生科学理解，还是必须结合行为验证？外部主义者直接挑战 MI 的内部主义预设。

→ 20 篇专题文献 · 09_epistemology_understanding

GAP 03

因果充分性空缺

当前因果干预方法是否捕捉了真正的因果结构，还是仅仅是相关性在干预下的保持？非线性困境与意向立场之间的深层结构联系尚未充分探索。

→ 22 篇专题文献 · 10_causal_sufficiency

GAP 04

向量奠基问题

Milliere & Coelho Mollo (2026) 提出的 Vector Grounding Problem 直接威胁 SAE 特征发现和导向向量的语义合法性。当前最紧急的哲学-技术交叉问题。

→ 21 篇专题文献 · 11_vector_grounding

尚无任何论文声称已同时解决上述所有张力。这构成了本研究的核心贡献空间：在技术上精准的哲学分析中，整合 SAE、激活工程、因果干预的经验发现，回应表征本体论、理解认识论、因果充分性和向量奠基四个核心问题。

Coverage

覆盖统计

文献检索日期：2026 年 5 月。覆盖 arXiv, PhilArchive, PhilPapers, Semantic Scholar, Springer, Oxford, Cambridge, ACL Anthology, OpenReview 等来源。

~95% PDF 覆盖率

~78% DOI 覆盖率

55 核心笔记

500+ 文献关联

~600 MB 总存储

对齐与可解释性
文献知识库

研究概览

跨领域关系图谱

技术基础 · 领域文献库

SAE与特征分解

激活与表征工程

因果干预与心灵哲学

AI对齐理论与安全

AI伦理与治理

科学哲学：可解释性的认识论

心灵哲学与AI

核心研究空白 · 专题文献库

表征本体论：发现还是构建？

理解的认识论：内部机制还是外部验证？

因果充分性：干预相关性还是真正因果？

向量奠基：分布模式还是真正语义？

跨领域桥梁文献

核心研究空白

表征本体论张力

理解认识论张力

因果充分性空缺

向量奠基问题

覆盖统计

对齐与可解释性 文献知识库

研究概览

跨领域关系图谱

技术基础 · 领域文献库

SAE与特征分解

激活与表征工程

因果干预与心灵哲学

AI对齐理论与安全

AI伦理与治理

科学哲学：可解释性的认识论

心灵哲学与AI

核心研究空白 · 专题文献库

表征本体论：发现还是构建？

理解的认识论：内部机制还是外部验证？

因果充分性：干预相关性还是真正因果？

向量奠基：分布模式还是真正语义？

跨领域桥梁文献

核心研究空白

表征本体论张力

理解认识论张力

因果充分性空缺

向量奠基问题

覆盖统计

对齐与可解释性
文献知识库