从几何角度认识人工智能和大数据

从狭义的角度提人工智能,其实指的就是“机器学习”。这个“机器”可以是计算机、单片机,也可以是其他形式的机械;这个“学习”,可以在软件层面上实现,也可以在硬件层面上实现。那什么又是“机器学习”呢?这就要涉及到一些概率和统计了。
统计,是人类对自然现象和社会现象的数学表达,概率则是这种表达所反映出的规律。不同的人看同一张画会有美与丑的分辨,随机的人也会产生随机的评判。但当评判的数量足够大时,规律便开始显现——更多比例的人会觉得《蒙娜丽莎》是美的,这也正是《蒙娜丽莎》是世界名画而我小时候画给母亲的画像只能算作是涂鸦一样,但是这并不妨碍我母亲将我的儿时作品装裱起来视如珍藏而对蒙娜丽莎毫无兴趣。
机器学习,就是要利用机器(最常见的是用计算机)上可以自动运行的算法,通过分析纷繁的样本,去寻找这些统计数据的分布规律,这个分布规律在数学上以函数的形式呈现,被称为概率密度函数,用它可以计算样本散落在某个区域里的可能性。为方便起见,我们记这个想要寻找的概率密度函数为f(x)。
寻找函数f(x),尤其是设计一套可以在计算机上自动运行的算法去寻找,并不是一个简单的问题。从上个世纪80年代开始,在michaeli. jordan等科学家们的探索下,逐渐形成了机器学习的下面这四个步骤[1]:
第1步:通过观察数据,选取(一般是靠不完全归纳)一个适当的函数模型(即带有参数的函数)g(x;a),这里a为参数(绝大多数时候,参数不仅一个,这里仅作为示例)。
第2步:建立一个度量泛函d(.,.),来衡量不同的函数g和f间的“距离”d(f,g)。直观上理解,这相当于建立了一个评价机制,以评价不同参数a所对应的g(x;a)谁更接近f(x)。
第3步:根据第2步建立的评价机制,用演绎的方法推导出迭代算法,利用这个算法,可以生成一串参数值a1,a2,a3,…,使得对应的函数g(x,a1),g(x,a2),g(x,a3),…,离f(x)越来越近。最终利用极限找到对f(x)逼近程度最佳的参数a的取值。
第4步:证明第1步选取的函数模型g(x,a)、第2步建立的度量泛函d、第3步推导出的迭代算法,对于数据源的有效性(即,能否达成目的)以及敏感性(即,换了一批数据后是否还适用)。
图1机器学习示意图
可不要小看这四步,它们各自都有着深刻的内涵。
在第1步中,为了找到适当的函数模型,数据是最关键的因素。如果数据不够多,选取的函数模型就很片面;如果数据不够及时,选取的模型又很滞后;如果数据的维度不够多样性,选取的函数模型往往会很怪异而且难以继续——就像是把一个立体的雕塑压缩到底面上,如果仅观察雕塑在底面上的投影,往往难以看出其本来的样子。所以我们希望数据能同时满足充分多、及时性和多样性。这也正是大数据所谓的3v特征[2](volume、velocity、variety)。从这个角度来讲,大数据是人工智能的必然要求。
图2大数据的3v特征
图3数据多样性(维度)的降低会影响对数据的认知
在第2步中,合适的度量可不容易找到,这主要是在于直观想象和数学抽象之间的鸿沟——我们总希望找到的“距离”泛函是满足我们生活中对于距离的“感觉”的,具体来说有三条:距离总是大于或等于0、“a和b的距离”与“b和a的距离”在数值上相等、“a和b的距离为0”当且仅当“二者重合”。但是可惜的是,一般情况下,具有明显现实意义的度量往往不会同时满足这三条,而且问题往往出在最后一条上。几何上的解决办法就是利用一种“提升”,将问题放到更高的维度上去考虑。在数学上,这对应了代数几何学(algebraicgeometry)中一个非常重要的分支——奇点解消[3]。
图4奇点解消
在第3步中,由于实际工作中的数据往往维数很高,涉及到多维数据的运算,这时向量、矩阵以及向量空间也就被拉进了舞台。
在第4步中,一个重要的意识起到了作用,就是“不同的数据会对应不同的模型”。这是一种朴素的数据观,也是“奥卡姆剃刀”[4]即简单有效原理的一种表现——如果一个简化模型对于一类数据都是适合的,那么它就具有一定的应用价值。这个原理在14世纪由一位圣方济会的逻辑学家提出,它一直以各种形式左右着科技和历史的进程,在机器学习这里也是如此。这一步中往往要用到微分学,因为那正是一门考量自变量变化对因变量变化影响趋势的学问。
回顾这四个步骤,从第1步到第4步,无一不是几何问题:第1步中依据数据的空间分布寻找恰当的函数模型,相当于在寻找一类符合数据分布趋势的曲线或曲面;第2步中构建评价机制,也是通过建立“函数与函数的距离”来完成;第3步中,对高维空间的描述和线性空间中的运算,又是几何的内容;第4步中,求函数在某一点处的导数等价于研究这一点处函数图像切线的斜率,在高维中对应于研究曲面在某点处的切空间,这又具有很强的几何背景。这样看来,如果不考虑计算机编程实现,“机器学习”,或者说是其代表的“人工智能”,可不就是一个几何问题嘛!