《什么是科学》 (超科技现象统计局)

转载自LostAbaddon的网站

科学这个东西，早已润物细无声地浸透了我们现代人生活的方方面面。

它就像空气一样无处不在、无比重要，但同时也像空气一样经常被人所忽略。

所以，当我们谈论“科学”、“科学的”的时候，我们到底在谈论些什么呢？

人们经常会将“科学”神格化，将它与“正确”、“真理”这些概念混淆在一起，甚至将“科学的”与“正确的”等同，这样的做法严格来说当然是错误的——“科学的”并不表示“正确的”，同样，“正确的”也未必就表示“科学的”。

要讨论“科学”，就势必要分清它与“非科学”、“反科学”以及“伪科学”之间的联系与差异，而后才能来看待它与“正确”之间的关系。

在斯坦福哲学百科（SEP）的“科学与伪科学（science and pseudo-science）”词条中，上述四者的区别被这样指定：

所有不是科学的系统化知识体系，都是“非科学”，这从其前缀词“非”字上就能看出来了；
而“反科学”是一个比“非科学”要狭隘一点的概念，它特指非科学中与科学存在某种形式的矛盾与冲突的部分；
而“伪科学”又是一个比“反科学”更狭隘的概念，它是假装为科学的反科学，被人误认为是基于科学方法的反科学。

更有甚者，在科学哲学家Hansson的理论中，判断一个知识体系是否是伪科学的标准有两条：

它不是科学
其主要支持者试图制造它是科学的假象。

由此可见，“伪科学”不单单不是科学（所以是非科学），它甚至是与科学存在一定程度的冲突与矛盾的（所以是反科学的），此外更重要的是它还被“伪装”成一种科学。

那么，到底什么是“科学”呢？如果“科学”意味着“正确”，那么非科学自然就是“不正确”了——按照多值逻辑的理念，非科学就包含了了“错误”、“不可判定对错”与“自相矛盾”这三种可能的状态。

但，虽然我们暂时没有论述什么是科学，但我们显然知道哲学、艺术与技艺都属于非科学，难道它们要么是错误的要么是不可判定对错的要么是自相矛盾的么？显然不是。

因此，仅从逻辑出发，我们便可知道“正确”并不意味着“科学”，至少存在一大类“正确的”对象，它们不是“科学的”。

所以，下面问题就集中在到底什么是“科学”这点上了——我们似乎绕了一圈又回到了原点。

在科学哲学领域，对于科学，尤其对于科学实在论，是存在很大的争议的。甚至可以说，每一位科学哲学家的心中都有一套自己的关于科学实在论的定义。

这里就不得不让人再一次想到了维特根斯坦，当然这是旁话我们按下不表。

我们这里暂且不讨论各种不同的关于什么是科学的定义流派，仅直白地将科学给出如下的定义：

它是一种基于可测量之现象，来探究其背后本质规律，并能给出对于尚未测量之现象的可检验预言，且预言之结果能在科学共同体所认同的误差容许范围内与新现象之测量结果吻合的，且给出预言所基于的逻辑系统自洽的，这么一类理论族，及围绕这族理论而进行的智慧活动。

这一套定义中包含了很多限定，比如，科学的研究对象是可测量的现象，因此，比如“存在一个你无论如何都不可能测量到它的存在所带来的影响的上帝”这样的对象，就不在科学的研究范围内，相似的还比如“粉红的透明独角兽的颜色”这种一看就感觉玄之又玄的东西。

而科学的目的也就明确了，那就是探究背后的规律，这也就是说，我们必须假定是存在某种形式的规律的。纯粹的随机行为本身也是一种规律，那就是在所有可能的状态上的先验分布是均同的，这句废话本身就代表了一种规律。这种彻底无规律的存在，我们也许可以考虑阿撒托斯……

科学的表现手段，是给出对新现象的可检验预言，这里其实体现的就是卡尔·波普尔的可证伪性要求，但更加具体的是，这里指出了对于“证明”与“证伪”的界定，取决于科学共同体（当然，更多时候应该说是学科共同体）所允许的误差范围，比如对于高能物理实验来说，往往是取所谓的“5σ标准”，即完全由误差导致该现象的概率不大于350万分之1。但这样的标准放到经济学中，那显然所有经济理论都没法看了，因此不同的学科有不同的标准，故要加上“学科共同体公认的”这一前缀。很显然，这就表示这里人的认定已经很重要了，科学与否已经不是一个简单的做实验就能说清楚的事了。

此后是科学的内部推演方式，是基于自洽的逻辑系统的，所以有些显然不讲逻辑的胡话我们就都可以排除掉了。

最后，我们还要说明的是，围绕上面所给出的这些东西的所有人类活动，都被统称为科学。

由此可以看出，“科学”一词事实上包含了一套方法论、一套评价体系，以及一套至少逻辑上是自洽的理论体系。

同时，哲学与艺术这些为什么是非科学也很好理解了，因为它们所研究的对象并不具备可测量性，所以虽然哲学在逻辑上应该是自洽的，但它显然不是科学——当然，“不是科学”这点本身不具任何贬义性，但似乎在日常用语中这就成了一个贬义词了。

艺术也有自己的逻辑，在《现代艺术150年》中作者威尔·贡培兹颇为详尽地向我们描述了各不同时期的艺术流派的内在创作逻辑是怎么样的，这种逻辑虽然不是数学和物理中常用的数理逻辑，也不是形式逻辑，但却有其自身内在的一致性。

同样的，宗教与神学也有自己的逻辑体系，虽然显然也不是形式逻辑或数理逻辑，但这套逻辑体系是可以自洽的。事实上，佛教中的因明学就是一套佛教体系下特有的逻辑系统，因此我们可以说宗教与神学是非科学，但不能说它们不讲逻辑——对，“不讲逻辑”是一个比“不科学”要更精准或者说更“狭隘”的描述词，它特别指出了“非科学”中的一个特定的门类，即，在逻辑上也无法做到自洽的知识体系。

技艺也是一种非科学，但它和科学的关联就非常密切了，但它依然不是科学，因为技艺的目的不是“探究现象背后的本质规律”。

而另一个和科学关系非常密切的就是数学了，绝大部分科学理论都会使用数学作为其描述语言，但数学本身却不是科学，因为数学的研究对象并非可测量的现象。我们当然可以说数学对象可以对应到很多可测量的对象上，比如一个苹果加一个苹果等于两个苹果，一个窨井盖的直径为0.7米，但这些都不是数学对象本身，而是数学对象的模型（此处的模型指模型论意义上的模型）。数学并不直接研究现象，它的研究对象涵盖了一切在可以建立自洽逻辑的形式系统，有的时候甚至都不怎么在乎这个系统中所蕴含的对象本身究竟是什么，而更在乎这个系统整体的性质，比如范畴论。也因此，数学也属于“非科学”——由此可见，“非科学”这个词一点都不比“科学”low，甚至有时候比“科学”更high。

但也有一些非科学的确非常low，比如不要问为什么问就是信仰的那种迷信理论，它们或许在逻辑上可以保持自洽，虽然这点往往并得不到保证，更重要的是它们的评价体系与科学是直接矛盾的：科学讲究的是与现象之间的契合性，即理论必须与理论所描述的现象足够吻合，但在迷信理论中则并不需要如此，即便理论与现象的分歧非常巨大，但却依然可以被采信，因为信不信比准不准更重要。所以在这些体系中，评价标准是非科学的，而且与科学无法调和。

技术与数学的评价体系和科学也并非全然相同，但却是可以互融的，比如数学要求的是逻辑自洽，这点当然可以包含在科学中。哲学与艺术的评价体系与科学也是截然不同的，但却依然不冲突，比如艺术的评判标准就是美不美，而“美”这个概念不在科学的讨论范围内，所以无论艺术上对一套理论如何评价，都不可能和科学产生冲突与矛盾。

但迷信则不一样，迷信的理论体系往往会要求对一些现实中的事物给予“是否正确”的评价，而“正确与否”虽然不是科学说了算的（这点后面会指出），但却是科学也要给出评判的，因此两者就可能产生冲突。

比如说，心灵感应是否存在，这个是可以通过实验来求证的，从而给出心灵感应是否真的发生了的评定，但迷信者却会说你没有测到不表示不存在、只要相信它存在它就肯定存在这样的评判，这显然就和科学发生了冲突——到底谁对谁错我们不论，这里的关键是：这个评判体系是与科学有冲突的，所以迷信是一种“反科学”。

当然，反科学未必就一定是错的，一如科学就未必一定是对的。

为什么呢？

科学，实质上只负责告诉你它给出的结论与所考虑的现象之间，存在大家公认可接受的误差，但这并不能保证它就一定是正确的，因为毕竟还是存在误差的。一个很好的例子就是2011年CERN的一次大乌龙，他们以6个σ的置信度（也即不可信的概率小于十亿分之一）宣告发现了超光速运动的中微子，正当所有人都兴奋不已的时候，后续的几个团队都宣布并未能复现出该结果，而最终调查发现，最初的超光速现象很有可能是因为一个探测器故障导致的。

可见，在最终发现原因是探测器故障之前，CERN的所有操作和分析都是科学的，可结果并不正确。

还比如当年爱因斯坦的广义相对论提出后，爱丁顿利用日食对爱因斯坦的预测做了实验验证，最后宣告理论与实验结果吻合。但实际上后人分析爱丁顿的实验数据，发现他不知是有意还是无意地将一些“不恰当”的数据给剔除了，从而“造”出了广义相对论的预言与日食观测结果吻合这一结论。用现代科学眼光来看，爱丁顿这个属于实验数据造假，而利用完整的原始数据似乎能给出广义相对论与日食观测的结果吻合得不够好，从而理论是错误的。但实际上后续的大量实验，尤其是近几年来的高精度实验，几乎都无一例外地证明，广义相对论是正确的。

这两个例子告诉我们：误差在允许范围内并不表示一定正确，而误差在允许范围外也不表示一定错误。

因此，如果只从正确与错误的角度来划分的话，那么“科学的”既不表示“正确的”，也不表示“错误的”，它属于“不可判定对错的”。也因此，“科学”只表示它的理论与现象之间吻合程度足够好，但吻合得足够好并不表示全同，对不对？

那，从逻辑上我们就可以这么说：反科学的理论与现象之间的吻合程度往往不如科学好（当然，也存在一些特殊的反科学，可以给出吻合程度异常好的理论，比如“这都是最好的安排/上帝的考验”等等，把一切形式的误差都解释为合理的，那这样的理论的适用性显然），但吻合不好也不表示一定错，对不对？

这里如果细分的话，我们还要分析误差的来源究竟是什么。比如我们如果将一套理论视为一个将输入映射到输出的映射机，那么误差的来源至少有四个：

测量等因素导致的输入数据误差
测量等因素导致的输出结果误差
理论与目标规律之间的误差
规律本身蕴含的真随机性

前两个误差理论上不属于一套理论自身的误差，但却是无可避免也无法区分的。最后一个误差是规律本身的特性，更是无法避免与区分的。而第三个才是理论本身到底够不够“正确”的反应，可惜它和其它三个误差无法区分开。

这种无法避免也无法区分的特性，决定了即便一个理论与现象符合得再好它也可能是错的，以及一个理论与现象符合得再不好它也依然有可能是正确的。

从这点来说，哲学家南希·卡特莱特将科学视为一场骗局也不是全然没有道理，虽然这依然是一种胡扯。

事实上，“科学”一词重要的内涵不在于它是否正确，而是在于它具有一种动态的特性，即，随着现象的不断累积，原则上来说科学会呈现出一种自我纠错的动态特性，因为如果理论错了，那么它和现象之间的吻合程度会下降，从而科学会将自身所否定，这就要求它去寻找新的理论。

也即，“科学”的最大特性在于，它允许整个体系在现象累积的过程中，不断做出自我调整，以朝着与现象吻合最好的方向发展。

我们当然并不知道与现象吻合得最好的科学体系到底是不是正确的，但我们至少知道：在已验证的范围中，科学是值得信赖的，因为它吻合得最好；而在待验证的现象上，科学是最值得相信的。

但这里必须强调的是：这仅仅是大家的一种信仰，未必是现实。

为了解释这个问题，我们可以将科学，尤其是某一条科学理论，以及它对应的现象背后的本质规律，都视为一款“映射机”，它能将输入的一组数据（构成现象的环境与状态参数）映射到一组预言数据上（现象的测量结果）。那么，输入和输出的数据显然都可以表示为实数，而且如果我们约定只有有限组输入和有限组输出的话，那这样的映射机就是将实数R映射到实数R自身的映射，它可以被视为一条定义在R上的曲线（不要求连续）。但我们人类能做的实验的次数是有限的，所以我们实际上只能知道可数个实数对应的输出。好了，曲线上有阿列夫1个点，而实验能验证的点只有有限个，至多也只有阿列夫0个，因此，实验可以验证的现象在所有可能现象中的占比为0。

在数学上，如果曲线满足一定的连续性要求，那么我们在知道可数个点的值的情况下，当然可以反推出曲线，但问题是现在现象所对应的曲线并不需要满足任何连续性要求，因此，从有限来推测无限的结果，永远都是不能完全相信的。

这也就是休谟疑难的本质：我们验证的次数再多，得到的数据再多，都不可能穷尽所有可能，那么我们如何相信科学呢？

站在贝叶斯主义的立场来说，检验次数越多当然意味着科学越可信，但显然并不是所有哲学家都信贝叶斯推断。

但至少，我们可以确认一点：科学并不总是意味着正确，它只是意味着即便现在是错误的未来也存在自我纠正的可能。

这点在科学的发展史上屡见不鲜，我们有大量错误的理论在时间的长河中不断涌现，而后被认为是真理，但过了一段时间后被发现并非真的真理，从而被推翻，再发现新的理论。

当这样的自我纠错、自我更新的程度达到一定规模时，整个科学大厦就会发生被托马斯·库恩称之为“范式转移”的大变革，它从最基础的概念实指层面进行概念转移，并在方法论、评判体系、命题结构等方面进行全方位的翻新。比如从牛顿力学到相对论，从经典物理到量子物理，从点粒子物理到弦论（这点到底是否能称之为范式转移还存在哲学层面的争论），等等。

可以说，科学的自我纠错能力是建立在其评判体系之上的，即理论必须与现象足够吻合，而后者是一个可以动态积累的过程，那么前者就必须也要动态地做出调整，两者才有可能始终保持吻合。

但，这一评判体系本身却不是自然存在的自在之物，它不是神授的，而是人创的，所以这种评判体系的可靠性是值得大家去质疑的，尤其当它发生变化，而这种变化不是朝着更严而是更松的方向去的时候。

比如说，近年来随着高能物理不断推向越来越高能的领域，以至于人类的实验室已经不可能满足日益奔放的理论物理学家的脑洞了，因此对于在物理研究中实验验证的必要性，就有一部分物理学家提出了质疑。

在他们看来，只要数学上是自洽的，那理论就是科学的。但我们都知道，数学所要研究的对象是远比自然界更广阔的抽象领域中的对象，它的自洽性只能表示数学上的有效性，但并不能表示它真的描述了我们所身处的自然界——我们完全可以为阴阳五行与奇异博士建立一套逻辑上自洽的形式系统，但它和我们所处世界的联系仅在于，它到底画在哪一本漫画书上了。

这已经是在否定传统认为的科学的评价体系了，毕竟如果科学已经不需要和现实（也就是现象）挂钩的话，那它和数学，甚至说它和哲学之间，又有什么区别呢？

最后闲扯一个话题：奥卡姆剃刀到底能不能成为科学理论筛选的标准？

从算法信息论的角度来说，如果两台图灵机在功能上是等价的，即对于任意输入X，图灵机A和B所给出的输出永远是相同的，那么放在随机生成这一动力学背景下，K氏复杂度也即不可压缩长度越低的图灵机，其随机涌现的概率越大。事实上，按照Levin编码定理，图灵机在全集中的占比等于其不可压缩长度的对数，加上一个语言相关而与图灵机本身无关的上下限范围。

从这点来看，奥卡姆剃刀的含义应该这么来表述：在功能完全相同的情况下，越简单的规律出现的概率越高，但是否更正确则天晓得。

也因此，奥卡姆剃刀，本质上就和科学自己一样，和对不对是不沾边的，所以用它来筛选科学理论，也只是一个信仰问题而已了。