从人机融合到多模态智能,人工智能的重要趋势

近代中国落后挨打，使得中国之精英开始深度思考一个问题，为何近代科学没有诞生在中国而是诞生在西方。其中一个结论就是中国文化中大量使用主客观融合之模式去描述世界，极少用归纳，善于用比喻。

比如有诗云，相看两不厌，唯有敬亭山。亦有诗云，我见青山多妩媚，料青山见我应如是。这些都是将客观存在与主观认知进行杂糅从而表情达意也。从西方文化看，其逻辑很不严谨。

孟子有云，【恻隐之心，人皆有之；羞恶之心，人皆有之；恭敬之心，人皆有之；是非之心，人皆有之。恻隐之心，仁也；羞恶之心，义也；恭敬之心，礼也；是非之心，智也。仁义礼智非由外铄我也，我固有之也】。孟子认为，人作为天地之心，作为碳基生命之最高形式，其天生就具备仁义礼智这样之基础组件，乃其灵光、灵性、灵气之所在也。而作为硅基生命之人工智能，目前仅有少量智，即评判是非之心，其尚不具备真正之同理心、羞恶心、辞让心也。

从存续超过千年之几个文明来看，亚伯拉罕神学与佛学近似，讨论了人与内心，人与神之关系也。古希腊哲学讨论了人与物，物与符号之关系也。东方文明则主要讨论人与人，人与社会，人与自然之关系也。

《道德经》有云，【有物混成，先天地生。寂兮寥兮，独立而不改，周行而不殆，可以为天地母。吾不知其名，强字之日道，强为之名曰大。大曰逝，逝曰远，远曰反。故道大，天大，地大，人亦大。域中有四大，而人居其一焉。人法地，地法天，天法道，道法自然】。

这句话中，老子将道、天、地、人并列，并将道拟人化，称为天地之母，乃是华夏这种人伦文明之核心特色也。计算机之发端在于西方，其核心逻辑建立在哲科思维之上，严谨、精确乃是其基础也。而人工智能组成之硅基生命又建立在计算机科学之上。故而以其不完备之智能去独立解决人类散布在社会、人伦、环境、文化等多元巨复杂系统中之诸多问题，其必然面临巨大之挑战也。

以二元思维视角出发，很容易将碳基生命与硅基生命对立起来，似乎二者是竞争甚至替代关系，这也是目前人工智能让人类充满恐惧之根本。实际上大自然中大量存在这种复杂融和状态，譬如人之大脑，由两个性别属性差异之左脑右脑组成，就是逻辑理性与直觉理性的结合体。

两者看似对立，实际上却组成了复杂度极高的人类智能。将碳基智能与硅基智能进行有效耦合，亦是为人工智能发展之重要目标也。在考虑机器智能时，可以考虑是否不要将人机对立起来，而是真正发挥人机耦合之魅力，将人工智能的核心不仅放在智能上，更放在人工上。

东方文明以审美为核心，乃是于美中求善也。而西方文明以真实为核心，乃是于真中求善也。故而看西方传统油画，多数以真实表达当下之所见所闻为其最高境界。看中国传统国画，则多数以写意为根本，像不像则不在其考虑范围内，其所求者，在于意境，在于传神。

东方文明始终有复归于婴儿之倾向也，比如《黄帝内经》所崇者，乃是上古天真。比如孟子写道，【大人者，不失其赤子之心者也】。而在《道德经》中，老子写道，【常得不离，复归于婴儿】。这种归于婴童，实际上蕴含了大量智慧也。

以孩童之观点去看庄子之《逍遥游》，问他们鱼怎么变成鸟，他们是有几百种解释也，以孩童之观点去看庄子《秋水》，问他们鱼快不快乐，他们也有几百种解释也。反而孩子长大，变成成人后，一板一眼看世界，被大量知识束缚，以拥有强大逻辑推导为智慧，反而失去了诸多创造性也。

人类智能里包含了逻辑，也存在着大量的非逻辑成分

人类智能里包含了逻辑，同时也存在着大量的非逻辑成分，如直觉、非公理、模糊等因素。人类智能里不仅存在着逻辑、伦理悖论之对抗，亦隐藏着逻辑、伦理悖论之妥协。本质上是用多元之可能性，通过一元之现实性，完成不失其意之表征也。

而机器智能很难做到【得意忘形】，反而多数是【得形忘意】也。机器智能如洪水一般，将人类之逻辑理性之树不断淹没。而对于人类直觉理性部分，机器智能还是望尘莫及也。

人类之感觉，常常是嵌套混合贯通联合的，视觉里包含着听觉触觉嗅觉和味觉，其大脑对于声香色味触法之解读，常常以通感方式存在。比如其看到好看的食物，大脑就假设其好吃，从而引发味觉对于此类食物之回忆，进而打开味蕾之内在感知力，驱动大脑对于此食物产生强烈之渴望也。

当前多数机器智能，其信号采集与数据输入则是单纯、唯一、独立、而分离的，各种通道模态之间没有融合，没有交叉。人与机之感觉秩序，大相径庭，刺激与数据、信息与信号差异太大。对人而言，未感觉到的刺激，往往被隐藏在感觉到之刺激里，进而形成无意识感觉或下意识感觉。

不难相信，这种复杂处理过程在文字、词语中也有着相似的机理。即人类在理解言中之意时，还能听出言外之意，听出话外之音来。人之看，包含了大量的其他感觉到的东西，如听觉、触觉、嗅觉、味觉，这些联觉都潜在视觉里。机器之看，没有通感、联觉、统觉。而机器之听觉、触觉等，莫不如此。

一块现代大型硬盘之存储量，已经超越多数人类之大脑记忆力所能容纳之最高值。然而硬盘依然是硬盘，建立其上之大数据智能，依然无法与人类在多数复杂场景下进行比拼。机器这种一板一眼，钉是钉，铆是铆，成为其独立解决人类社会复杂问题之巨大障碍也。

在博大精深之汉语中，智慧二字是有很大区别的。智所表达者，即是能够分出事物之不同与区别也，比如父母从婴儿期就在教孩子识别，这是苹果，这是橘子，他们不一样，这是奶奶，这是外婆，他们也不一样。这种智能，正是机器智能之根本，即分类器也。而慧所表达者，即发现事物相同之一面也。

孩子分不出妈妈与别的女人之美丑，认为妈妈就是最美的。孩子也分不出自家出租房和别人家豪宅之区别，认为爸妈所在的地方就是最开心的，这就是慧，亦是人类智能之所在也。而华夏民族，一直都很认同慧，对于智者，永远都有许多讽刺与编排。

比如《愚公移山》中之智叟，比如《红楼梦》中之【机关算尽太聪明，反误了卿卿性命】之王熙凤。《道德经》有云，知人者智，自知者明。很明显老子认为，明比智要高级，有自知之明是为高级智慧也。今日之人工智能，就是典型有智无慧之代表也。如果将机器智能之智，融合人类智能之慧，共同组成一个系统，那就是一个近乎完美之智能也。

中国人自隋唐创立科举制度以来，在考场上比拼智力，成为所有读书人必须面对之竞争态势也。在一个封闭环境内，在规定时间内完成一个未知之闭卷考试，成为帝国测试才子智力之核心手段也。这种方式尽管存在诸多缺陷，然而其与其他考察方式相比，亦有巨大之优势也，因为其具有更高之相对公平性。

那就是对于陌生试卷之应激反应，亦是每个人之预判能力之体现也。考试就是高密度情景交互，就是智力比拼也。一切智能在情景交互中才能体现，故而其不是一个独立系统，而是和情景共同组成一个系统，在交互中呈现也。情境中每个东西都有众多属性和关系，当前机器智能之数据打标模式，就是九牛取一毛，往往打标后挂一漏十，白白损失了大量的信息。

所以现有的人工智能中数据标注模式，以单模式之形式提取相关性，进而称之为智能，这很值得商榷。深入下去，人对这类复合信息之加工，也应该是复合并行的处理: 既有逻辑清晰地推理过程，可谓之达理，更有感性丰富地动情发展，可谓之通情；既有基于公理地显性信息的分析，也有基于非公理地隐含信息的综合，慢慢形成显、隐理解的共存，进而演化为显、隐意向性，为下一步的规划决策做好准备。在完成情境任务目标的价值驱动下，显性的意向性可以变成理性决策，隐性的意向性可以演化成直觉决策。

多模态就是人工智能重要之发展方向

这个多模态不仅是将机器视觉与语音识别等进行综合加工融合，进而做出逻辑判断，而且还包含遇到疑问时求助于同伴，求助于人类也。

从现代脑科学之研究来看，人类多数行为都是在取悦己之大脑也，以道心观之，有一种被“耍弄”之感觉也。而这种取悦之基本原则，都在基因中被明确规定。基因也以这种始终【求而不得】之引诱模式，让众生沉浸在乐短苦长之痛苦中，忍受着诸行无常与诸法无我之现实世界，痛并快乐，最终完成帮助基因本身达到永生之目的也。

而佛陀等少数人，参透人类大脑机制，看透基因设定陷阱，创立帮助人类解脱之法。其所说法之根本，乃是利用大脑之机理，以大贪大嗔大痴代替小贪小嗔小痴，以合道之法，去对抗基因之自私性，从而跳出基因设定之轮回，最终帮助修行者到达彼岸，获得解脱之道也。

鉴于人类之智能多数由情绪驱动，故而人类智能运算所求者，乃是舒适解，开心解。而机器智能运算所求者，乃是精确解，正确解。这两种目的完全不同之智能，如果能够相互融合，各取所长，就可以趋近于得出最优解也。《思考快与慢》之作者丹尼尔指出，我们的大脑有快与慢两种作决定的方式。常用的无意识的“系统一”依赖情感、记忆和经验迅速作出判断，它见闻广博，使我们能够迅速对眼前的情况作出反应。

但系统一也很容易上当，它固守“眼见即为事实”的原则，任由损失厌恶和乐观偏见之类的错觉引导我们作出错误的选择。有意识的“系统二”通过调动注意力来分析和解决问题，并作出决定，它比较慢，不容易出错，但它很懒惰，经常走捷径，直接采纳系统二的直觉型判断结果。

人类大脑这种两种看似矛盾之系统融合起来，帮助其能够在处理事务时保证效率与效果之高度平衡，省力省心也。在人机耦合系统中，也要学习这种快思考与慢思考结合之机制也，以最佳能耗比，获得最优解，是为正解也。

在人机耦合时，应将任务进行有效切割，适合机器的交给机器，适合人的交给人，优势互补，责任共担。最终让人类掌握百分之一之灵感，剩下百分之九十九可以全部交给机器，是为面向强人工智能之路径之一也。

自猿人开始创造并使用工具开始，人猿相揖别，几个石头磨过，就开始人类之小儿时节。人所创造之物，一直都是人类器官之延申也。人类所创造之人工智能，亦是人类大脑之扩展与延申也。是以未来真正之强人工智能，

应是将计算机之硬件、软件，以及人类智能作为湿件，两者共同组合，成为超级融合体与聚合体，形成一套崭新的智能适配机理。这种适配性包括两部分，一部分是相互适应，一部分是互相配合。这样就可以克服当下人工智能之不足与缺陷，开启真正可以深度改造碳基文明之新引擎也。

机器人可以做到【事不关己，高高挂起】，而人类却很难做到。因为人类是一个社会性动物，在社群中很多时候必须要亮出己之态度，才能被接纳也。

人类是非理性动物，其理性不过是感性之外衣。这是受其生理结构所限制之必然也。对于外界刺激，人类根据价值取向来决定持反对，还是赞成，还是中立态度。而这种价值取向多数时候源自于当下之情绪也。一念成佛，一念成魔。

这种情绪缺乏稳定性。若把机器看成是建立在确定性数据、算法、算力基础上的物体，那么人则应是建立在随机性知识、算理、算计基础上的物体，其中的知识具有主观性、强弥聚、富弹跳、不确定的特性。理解始终以一种连续之能力谱而存在。

比如大部分对于水之理解，可能限于水之一般属性。对于水之分子式，水之导电能力，水在不同压力下之沸点，都知之甚少。但是大家对于一般人这种理解力，还是处于可接受状态，并不会说他们只理解力不可信赖。

然而人类对于机器智能，却绝少能够接受或允许其出错也。目前之深度学习已经在各种基准任务上与人类之表现相匹敌，却不能推广到高级任务上，这和大众广泛认为之人工智能相去甚远，故而失望情绪不断累计，逐步演变成为深度学习之危机也。

某种意义上说，智能就是寻找最好替代的过程，这里的替代包括替代物、替代方案、替代系统等，寻找就是计算加上算计的混合处理过程，算计常常涉及宏观方向和内在道理，算法往往关联具体过程和方法手段。算计不是简单的计算逆过程。

人的算计涉及显性、隐性知识，侧重价值化与事实性的融合，人和机器之计算，包括可描述中可程序化的显性知识，聚焦事实性。机器计算中很难既对立又统一，而算计中却常常可以以和为贵。

在传统的人工智能研究中，联接主义的代表形式是人工神经网络，主要处理数据；行为主义的代表形式是强化学习方法，主要处理信息，奖惩后有价值的数据；符号主义的代表形式是知识图谱和专家系统，主要处理知识和推理；三者有递进的味道，但距离人擅长的概念产生和理论建立相距甚远，尤其是在情感化表征、非公理性推理和直觉决策等方面机器更是望尘莫及。

另外，机器学习中的反馈、迭代的生硬艰涩滞后与人的相比，也是比较低级。这是因为人的态势感知能力不但来自科学技术还源于社会学、史学、哲学、文学、艺术等多方面的素养与思维技能，进而产生价值取向。缺乏人类深度融合之人工智能，不是刻舟求剑，就是盲人摸象，其发展已经遇到巨大之瓶颈也。

爱因斯坦曾经说过，【现实是一种幻觉，尽管这种幻觉非常稳定】。换句话说，我们认为是真实之东西，实际上是精神工作之产物也。王阳明亦有【心外无物，心外无理】之说也。

更进一步说，我们往往是通过一件事之稳定性来给其贴上真实之标签。如果我们周围人也承认这种稳定性，那么这个东西真实性就得到承认，反之则会引起争议。然而这种客观幻觉会引起多个后果。

首先，人们认为自己之认知是真实的，因此其他理性之人也都会认可它。其次，对于自身认知之乐观让我们相信，说服那些不接受我们认知者是很容易的。最后，对于那些不能被我们说服，或是不认同我们认知者，我们容易形成负面评价。解决客观幻觉之关键，在于我们不应该给不认可我们之人，贴上负面标签。古往今来，无数所谓明君者，在面对直言纳谏者之斥责时，亦多有因为愤怒而杀人也。

人类这种客观标榜，容易让人赋予信息源某种权威，从而忽略其他不同之信息源也。而机器智能在采集数据时，因为其没有这种客观幻想之限制，再加上其可以采集之数据源可以遍布互联网，不会出现因数据源狭窄而导致之信息闭塞，故而其具有相对之中立性。

如果能够给富于情绪表达之人类，配上相对冷静客观之机器助理，则可以形成良好之搭档效应也。人类智能在于事前的无数据，亦可以采用随机应变，是为无中生有也。而机器智能在于事后的有数据，就可以提取相关性，是为见趋明势也。两者配合将是感性与理性之真正交融也。

俗语有云，【谣言止于智者】。实际上谣言之可怕，是因为多数谣言是附加于情绪之上进行传染，群情激愤时，情绪通过人类之同理心被快速传染，当情绪来袭，很少人可以抵御之，这也是政府恐惧之处也。而机器智能在这个时候，可以充当那个智者之形象也，用数据说话，用数据事实来抵御谣言，以正视听，提出客观公正之解读，是为其大用也。

许多人将深度学习之未来寄托于强化学习之上，认为强化学习可以帮助机器智能达到人类智能之水平。然而机器强化学习中的奖惩机制与人类的奖惩机制相差甚大。

孔夫子有云，君子喻于义，小人喻于利。人类的奖惩除了利，即事实与利益网之外，还有义，即价值网所在；同样，机器之感知机理与人类之感知机理都大相径庭。机器基本上还是以理服人，而人类则是情理交融。

机器智能与人类智能充分融合，是面向未来之真正智能

目前机器与人的交互是单向的，而人与机器的交流则是人、机、环境系统之间多向的。故而以人机融合模式，重新看待人工智能，人类作为【猴子请来之救兵】出现，让机器智能与人类智能充分融合，是为面向未来之真正智能也。

一个孩子在多次努力搬石头后，告诉父亲，我已经用尽全力，实在搬不动。父亲告诉他，你没有用尽全力，因为你没有求助我。人工智能进入多模态时代，求助于人，实现人机深度耦合，是为正途也。

今天人工智能遇到了同样的瓶颈。只有通过人机结合，绑定人类的自私性，为硅基生命建立多劳多得之制度优势，方能破除当下人工智能之困局也。正如改革开放前，几亿农民不可谓不辛苦，不可谓不努力，然后就是很难填饱肚子。

通过小岗村人施行家庭联产承包责任制，最终这项制度被广泛实施。几亿人通过一年的努力就实现了温饱。这背后不是生产力的问题，而是生产关系的问题。工业革命将人类作为重要传感器，放置于其巨大之工业系统中，也就是将人机器化之过程也。自动化一定程度让很多蓝领工人从生产流水线上离开。

而智能化则能够让少数参与半人马座改造之白领与金领产生更多收入，获得更多报酬，同时工作量却大大降低，幸福指数爆棚。是以在历次工业化革命浪潮中被淘汰之人，不是被工具淘汰，而是被使用新工具之人所淘汰也。

在人类的历史长河中，古埃及的象形文字、古巴比伦的楔形文字、古印度河流域的印章文字和中国的甲骨文共同形成了世界四大古文字体系。唯有中国的甲骨文穿越时空，至今仍在使用并且充满活力。其根本原因在于西汉时期出现了隶书—这一表意性文字，自此，中文文字完成了由表形到表意的惊险一跳，成为世界上唯一连绵不断之文明也！

智能科学的核心和关键依旧是何时能够完成“得意忘形”这一惊险的一跳，目前科技进展的种种迹象表明：人的意向性加上机的形式化是完成智能最高形式“得意忘形”可能性最大的方式。

人类在自以为是自己独有特征之主观智能领域创造了自己在客观领域的对手，即人工智能。人类社会将由于人工智能的发展发生革命性改变。我们可以预测，基于主观智能的人类智能与基于客观智能之人工智能，可能演变为相生相克之阴阳对立统一体，即人机融合智能也。

人机协同正在催生新型融合智能形态。人类智能在感知、推理、归纳和学习等方面具有机器智能无法比拟的优势，机器智能则在搜索、计算、存储、优化等方面领先于人类智能，两种智能具有很强的互补性。

人与计算机协同，互相取长补短将形成一种新的一加一大于二之增强型智能，也就是融合智能，这种智能是一种双向闭环系统，既包含人，又包含机器组件。其中人可以接受机器的信息，机器也可以读取人的信号，两者相互作用，互相促进。在此背景下，人工智能的根本目标已经演进为了提高人类智能，更有效地陪伴人类完成复杂动态的智能职能任务。

《道德经》有云，道可道，非常道，名可名，非常名。语言本身具有诸多缺陷，故而随着社会之发展，语言亦在快速进化，以适应社会发展之需要也。音乐、诗歌、图画、表情、肢体动作等，都是被用来弥补或者完善语言之准确性也。同时也可能增强或者加大其模糊性。

在有的场景下，含糊其词可以增强交流效果，在有的场景下，精准遣词造句可以增强认同效果也。在语言学习中，语法有时候起到之作用，乃是产生局限。每个孩子在最初学习语言过程中，很少去考虑语法，只是根据外部客观刺激进行信息输出，他们没有约束地建立起自己之注意与理解方式。

当其咿呀学语时，最初也不是按照规范语法指导进行，正常情境下是父母自然性的字词或短语说明成为其模仿对象，最后才有生活句子之学习与建立。

当孩子开始在学校进行系统语法学习时，很多语言的自然属性纷纷被规范化、程序化、大众化，而用语言进行意图表达的个性、独立性、准确性同时在减弱、下降。在正常生活面对面交流过程中，语言的语调等可以使人准确地理解彼此的真实意图。例如【讨厌】这个词被赋予不同音调时，一般人都能知道其真实情感表达。而在目前网络文字交互表达中，虽然也可以结合上下文进行情感判断，但在较复杂的连续的多人干扰的无音调的实时交流环境下，这种情感判断的准确性往往会大打折扣，常常会演变成更丰富的多维理解，进而增强了非单一映射关系。

硅基智能率先在电话场景中使用多模态技术，将单纯的语音转文字，然后基于文本进行语义解析，变成直接根据语音进行语义解析。因为人类在讲话时，语气、语调、语速、眼神、表情、肢体语言，都在补充语言本身之不足，故而仅仅从语音转文本本身去反推讲话者之意图，是为盲人摸象，必然不得其全也。

吾以为，今日之弱人工智能所达到之水平，即是鸡鸣狗盗之水平也。鸡鸣，即是鸡根据自己对于时间之预判感知，进行广而告之，从而使得在缺乏精确计时时代，具有可以起到闹钟唤醒作用之目的也。

狗盗，即是狗根据自己对于听觉嗅觉视觉之综合预判，形成对于有陌生人进入之预警。同时狗可以通过吠叫来唤醒主人，从而达到一种高灵敏之防盗功能。鸡和狗被驯化作为人类伴侣存在，已经有数万年。

人类巧妙利用工具来达到某种目的，即是智能所在之根本意义也。同时在人类狩猎场上，狗之智能也很早就被充分利用，最终形成人狗相互配合之战术，帮助人类战胜诸多上古猛兽，成功登上食物链之王者荣耀也。

高帝曰：夫猎，追杀兽兔者狗也，而发踪指示兽处者人也。今诸君徒能得走兽耳，功狗也。至如萧何，发踪指示，功人也。今日之人工智能，亦为功狗之能力，得到功狗之定位是也。

从人机融合到多模态智能,人工智能的重要趋势

相关阅读

硅基智能电话机器人

硅基智能电话机器人

举报文章问题

举报评论问题

用户登录×