【周末杂谈】数据 → 信息→知识→智慧
出自识林
【周末杂谈】数据 → 信息→知识→智慧
笔记 2025-03-09 从数据“蒸馏”到智慧的这条路,会越走越窄? 关于真实数据(real data)与合成数据(synthetic data)的讨论,是说用来训练大模型的真实世界数据,能用的已经用的差不多了。以后,大模型的训练会越来越依靠自己产生的数据,即所谓合成数据。随着芯片速度的不断提升,大模型产生数据的速度,会越来越高。合成数据的量会越来越大。但与真实数据不同,合成数据的质量偏低,难有原创性。 这可以理解。设想如果真实数据是由一组二维空间(平面)的向量所组成。那么这些向量的所有线性叠加,都是平面上的向量,不会有任何垂直于平面的分量,也就是不会产生三维向量。无论这组中有多少向量,即无论数据量多大,都不会产生立体向量。若视从平面到立体的跨越为“原始创新”的话,则对这个例子而言,大数据中的“大”,没意义。当然,这是个极端例子。 这让笔者想起常见的“数据-信息-知识-智慧”金字塔。新数据未必产生新信息,新信息未必生成新知识,新知识未必升华到新智慧(如下图左上角的灰色三角形所示)。如果说做AI的目的,是获得智能(智慧)的话,那从数据到智慧的这条路,会是越走越窄的,因为要从很大量的数据中,才能“蒸馏”出智慧来。 最近看到来自美国纽约的Alphacution Research Conservatory公司画的“数据-信息-知识-智慧”金字塔(如下主图所示)显示从数据到智慧的这条路,不仅是越走越窄,而且收窄的越来越快。如果说三角形的金字塔,显示的是从真实数据到智慧的“蒸馏”,中间那个顶部细尖的弯曲三角形也许更形象地显示了未来从真实数据和合成数据的混集中“蒸馏”出智慧的路会变得越发难走。这是因为,合成数据产生的速度会越来越高于真实数据产生的速度。也就是大模型的训练集中,会有越来越大的比例来自合成数据。这预示着大模型的功效会逐渐进入收益递减的成熟期。 问题是:这个成熟期距今有多远? 作者:榆木疙瘩 识林®版权所有,未经许可不得转载 |