如果百年后深度学习最终有了公认的数学理论作为基础,能解释实验中的各类玄学,那这个理论会长什么样子?

2022-01-06 查看外链

Q: 如果百年后深度学习最终有了公认的数学理论作为基础,能解释实验中的各类玄学,那这个理论会长什么样子? A: 根据Cobham-Edmonds定理,良好的计算模型都在一个多项式时间复杂性类里,良好的计算模型意味着凡是该模型可解的问题,通用图灵机也都可解;这些计算模型的计算性能尽管有所不同,但总体来说还是多项式级别的差距。 深度学习现在也存在不少不错的解释理论,有将其作为一个机器学习模型用一般的机器学习理论推导其泛用性的,也有用非线性动力学、相空间的理论证明其收敛能力的。新的花样还有几何流,拓扑流...... 无论是概率分布还是啥基础理论,CE定理所暗示的是:这可能是迷人耳目的繁复花样,用这个或用那个解释深度学习,在计算能力上不至于产生大的区别。然而,深度学习在实战中,在某些问题上的惊艳表现似乎不让人觉得这种计算能力上的区别很小。 除非承认现有的深度学习的基础理论就足够好了足够当答主所认知的“公认理论”了,不然这的确是个隐患。 答主认为这个新理论应该能解释实验中的“各种玄学”,而玄学总作为自然界的一道防线而显现,无玄学不工程,这已经暗示了深度学习是个高度工程性的技术学科:一个环节错综复杂的工程是高度不可解释的,而充斥各种技术的深度学习显然是这样一个工程。 我对这个新理论具备什么形态提两个小看法: 1.《规模》一书中提到了Geoffrey West有关超线性增长和亚线性增长的问题,其中超线性增长的是城市,创新与活力永不枯竭,规模越大经济越旺,而亚线性增长的是公司团体,有其生命周期,会成长也会衰老死亡。现在的深度学习技术仅是一项产品,有其数据来源和算法实现,随着数据设施化规模化和算法的更加精进,老的深度学习产品会死掉或者更换,而新的则会代替,甚至在更大的意义上,真正的通用人工智能——人类自己,也要面临这种知识迭代的挑战。 终其一生不会面对玄学的,必然是不死之物,比如大城市,比如文明。即使是人类个体也会面对大量的玄学,但放大到人类社会整体这个问题就很微弱了,创新、活力和多样性是“不死之物”的表现:它最终会解决一切玄学。但什么能造就这样的“不死之物”、如何把深度学习变成这样一个“不死之物”就是一个机制繁杂的问题。 但有一点可以肯定的是,现今的深度学习仍只是一个人类个体知识活动的附属品,很多问题做深度学习不是非深度学习不可、没有深度学习天就塌了,而是为了精益求精。 未来如果能让深度学习成为一种感官、一种等同于理性/感性这种级别的思维,成为一种想象和行为的基础,而非这些感官、思维和想象所塑造的世界观中的附属品,具备这个能力的深度学习理论就可能会“解释实验中的各种玄学”吧。 很遗憾我不能给一个更加数理化的回答,而是一个比较具有想象性的回答,只因为我觉得前者,在CE定理的幽灵下,常常原地打转,而后者则能打开一扇面向混沌和可能性的窗。 2.在实践上的新的可能性。设计师们总喜欢调参为什么不调数呢?尝试着去拨弄神经网络的向量组让其中某个位置数值高一点或者低一点。当然,这在动力学上不过就是做了个特殊的微扰,可能无法改变计算的结果,也可能使计算结果变得千奇百怪。可我们是否可以开始尝试不要去寻求收敛或者一些稳定的算法性质,而是考虑一些行为艺术呢? 这个问题下的一些答主提到了“涌现”,对我个人而言,“涌现”在复杂系统的语境是自动成立的:我认为这等于没说。因为只要将深度学习所管理的成型的系统认作复杂系统,这一性质就是自然存在的。 关键是在如何面对涌现的态度上,我与一些答主不同,我认为存在复杂系统就存在涌现,通过某些解耦手段将复杂系统变成另一个系统看似可以解决这个问题,但复杂系统的复杂是来自模型设计者的复杂而非模型自身的复杂,解耦手段只是转移了复杂性而从未减少复杂性。 举个例子,我可以将模型设计的能应对很多种情况,并能识别用户的不同情境,于是用户要做的事情就少了,但模型要做的事情就特别多:多场景识别,和进一步地利用针对这个场景下的已经设计好的解决方案。而且用户仍然要做一定事情:包括至少知道可以用这个模型和如何对接这个模型的若干可能需求。现在将模型解耦了,分散为多个系统则要增加系统间协调、对接和维护的复杂性,以及用户的学习成本,或者变成一个功能繁多的超级界面系统,那么复杂性就转移到了用户身上:用户需要理解复杂的接口和功能。 世界就是超级巨型复杂系统,为了让模型有用得让模型和世界对接,让世界的复杂性涌入模型。 无视复杂性的模型则是无用的,接受复杂性的模型是平凡的。 假设我们是一群蠢蠢欲动的基因,猎豹的飞奔,蜂鸟的俯冲,就好像我们追求的工程性能一样,刷新着最高水准,但诞生智人文明的工程是否在这些工程之列?不得而知。 但这个新的工程,新的有关深度学习的理论,一定不会走现在来看的很多平常路。