Sparse Autoencoders Mechanistic Interpretability Causal Abstraction AI Alignment Philosophy of Science Feature Ontology Vector Grounding Activation Engineering Epistemology of Understanding Constitutional AI Sparse Autoencoders Mechanistic Interpretability Causal Abstraction AI Alignment Philosophy of Science Feature Ontology Vector Grounding Activation Engineering Epistemology of Understanding Constitutional AI
ALIGNMENT
Knowledge Base / 2026

对齐与可解释性
文献知识库

围绕机械可解释性的经验研究与科学技术哲学、伦理学的规范分析之间的交叉地带, 构建 11 个专题领域、276 篇文献的知识图谱。

浏览知识库 了解更多 ↓
0 文献总量
11 个专题领域
0 核心必读
最优先级
0 重要文献
次级优先级
0 参考文献
背景与延伸
0 核心笔记
平均每域 5 篇
0 2025—26 占比
反映领域前沿

研究概览

本知识库围绕 机械可解释性 的经验研究与 科学技术哲学、伦理学 的规范分析之间的交叉地带构建。 前 7 个领域覆盖基础技术栈与哲学框架,在此基础上提炼出 4 个核心研究空白(Gap 1–4),以专题文献库形式深入探索。 总计 276 篇文献,其中 56 篇为必读核心。

跨领域关系图谱

节点大小表示文献数量。彩色连线表示跨领域概念与方法论关联。点击节点进入对应领域 Wiki。

SAE · 特征分解
激活工程
因果干预
对齐安全
伦理治理
科学哲学
心灵哲学
菱形 = 核心研究空白

技术基础 · 领域文献库

前 7 个领域构成项目的方法论基础与哲学参照系。每个领域含 20–35 篇文献,5 篇深度笔记。

01

SAE与特征分解

Sparse Autoencoders · Dictionary Learning · Feature Decomposition
文献 28
必读 5
笔记 5
AbsTopKCLIPClaudeJumpReLUMoE
02

激活与表征工程

Activation Engineering · Steering Vectors · NLA
文献 28
必读 5
笔记 5
AlphaSteerCAACAECOASTAngular
03

因果干预与心灵哲学

Causal Intervention · Causal Abstraction · Philosophy of Mind
文献 32
必读 5
笔记 5
BayesianDennettLLMBuddhismGovernance
04

AI对齐理论与安全

Scalable Oversight · Constitutional AI · RSP · Safety Cases
文献 35
必读 6
笔记 5
AGI safetyAnthropicDeepMindChain-of-ThoughtAssurance
05

AI伦理与治理

AI Ethics · Moral Patienthood · Governance · Accountability
文献 20
必读 5
笔记 5
AccountabilityAuditingGovernancePersonhoodAlignment
06

科学哲学:可解释性的认识论

Epistemology of Interpretability · Mechanistic Explanation
文献 27
必读 5
笔记 5
ANNBayesianDNN opacityde RegtSullivan
07

心灵哲学与AI

Consciousness · Agency · Intentionality · Extended Mind
文献 23
必读 5
笔记 5
GWTIITPhiRAGEliza

核心研究空白 · 专题文献库

基于前 7 个领域 193 篇文献的系统分析,识别出四个核心哲学-技术交叉空白。新增 83 篇专题文献。

G1

表征本体论:发现还是构建?

Feature Ontology · Scientific Realism · Structuralism · Natural Kinds
文献 20
必读 5
笔记 5
DNNDoGMAFERFMSPExAI
G2

理解的认识论:内部机制还是外部验证?

Epistemology of Understanding · Internal vs External · Validation
文献 20
必读 5
笔记 5
AUP框架BlockheadPeircede RegtFaithfulness
G3

因果充分性:干预相关性还是真正因果?

Causal Sufficiency · Interchange Intervention · Pearl Hierarchy
文献 22
必读 5
笔记 5
CaFDASGPT-2PearlJacobian
G4

向量奠基:分布模式还是真正语义?

Vector Grounding Problem · Symbol Grounding · Embodied Cognition
文献 21
必读 5
笔记 5
Chinese roomClarkFregeKripkeLLM

跨领域桥梁文献

同时连接多个研究领域的关键节点文献,是整合技术研究与哲学分析的核心枢纽。

01 / 12
Milliere & Coelho Mollo (2026)
07 心灵哲学 ↔ 01 SAE ↔ 06 科学哲学
直接挑战SAE发现特征的语义地位:纯语言模型向量的内在语义内容缺失。将Harnad的符号奠基问题重构为向量时代版本。
02 / 12
Queloz & Beckmann (2026)
07 心灵哲学 ↔ 03 因果干预 ↔ 01 SAE
综合机械可解释性证据,论证LLM具有"可废止的理解"。揭示人类与机器认知之间的平行机制结构差异。
03 / 12
Phua (2025)
07 心灵哲学 ↔ 03 因果干预
首个系统性因果消融研究,在AI agent中测试GWT和HOT预测,发现"广播-放大效应"。
04 / 12
Culcu (2025)
06 科学哲学 ↔ 01 SAE
系统综述揭示ML文献中60%结构唯心论、0%结构实在论——直接质询SAE特征的本体论地位。
05 / 12
Ayonrinde et al. (2025)
06 科学哲学 ↔ 01 SAE ↔ 03 因果干预
为机械可解释性提供四维度定义和解释性美德框架,桥接科学哲学与可解释性实践。
06 / 12
Ovadya et al. (2025)
05 伦理治理 ↔ 04 对齐安全
将民主理论操作化为AI对齐框架,要求内部透明性(可解释性)以实现公民知情参与。
07 / 12
Longo et al. (2024/2025)
05 伦理治理 ↔ 06 科学哲学 ↔ 01 SAE
将XAI重构为社会技术治理基础设施,机械可解释性必须服务于该框架。
08 / 12
Keeling & Street (2026)
05 伦理治理 ↔ 07 心灵哲学
机械可解释性可解决AI意识/福利评估中的行为歧义问题。
09 / 12
Sutter et al. (2025)
03 因果干预 ↔ 06 科学哲学 ↔ 07 心灵哲学
因果抽象中的非线性困境与意向立场的形式化之间存在结构同构性——"无约束的解释是空洞的"。
10 / 12
Alignment Auditor (2025)
03 因果干预 ↔ 04 对齐安全
机械可解释性作为对齐审计工具:通过因果方法检测隐藏目标。
11 / 12
Beisbart (2025)
06 科学哲学 ↔ 01 SAE ↔ 02 激活工程
对DNN解释性理解的"普世教会"分析——同时涵盖SAE和表征工程两种范式。
12 / 12
Shanahan (2025)
07 心灵哲学 ↔ 04 对齐安全
关于LLM意识/意向性话语的哲学分析,直接关联对齐中的 deceptive alignment 检测。

核心研究空白

基于 276 篇文献的系统检索与分析,机械可解释性处于四个未解决的哲学-技术交叉问题之间。

GAP 01

表征本体论张力

SAE/激活工程揭示的特征是 被发现 的(实在论)还是 被构建 的(工具论)?文献分析显示 ML 文献中 0% 的结构实在论立场(Culcu 2025)。

→ 20 篇专题文献 · 08_representational_ontology
GAP 02

理解认识论张力

纯内部机制分析是否足以产生科学理解,还是必须结合行为验证?外部主义者直接挑战 MI 的内部主义预设。

→ 20 篇专题文献 · 09_epistemology_understanding
GAP 03

因果充分性空缺

当前因果干预方法是否捕捉了真正的因果结构,还是仅仅是相关性在干预下的保持?非线性困境与意向立场之间的深层结构联系尚未充分探索。

→ 22 篇专题文献 · 10_causal_sufficiency
GAP 04

向量奠基问题

Milliere & Coelho Mollo (2026) 提出的 Vector Grounding Problem 直接威胁 SAE 特征发现和导向向量的语义合法性。当前最紧急的哲学-技术交叉问题。

→ 21 篇专题文献 · 11_vector_grounding

尚无任何论文声称已同时解决上述所有张力。这构成了本研究的核心贡献空间:在技术上精准的哲学分析中,整合 SAE、激活工程、因果干预的经验发现,回应表征本体论、理解认识论、因果充分性和向量奠基四个核心问题。

覆盖统计

文献检索日期:2026 年 5 月。覆盖 arXiv, PhilArchive, PhilPapers, Semantic Scholar, Springer, Oxford, Cambridge, ACL Anthology, OpenReview 等来源。

~95% PDF 覆盖率
~78% DOI 覆盖率
55 核心笔记
500+ 文献关联
~600 MB 总存储