融数联智创始人兼CEO袁晔：国内更适合做垂直类大模型

2023-04-21 22:10 由苏舒发表于 #商业

ChatGPT掀起的热浪还是继续。

一方面，除了BAT等互联网科技大厂纷纷下场紧追ChatGPT步伐之外，国内科技圈迎来了一波创业潮，一瞬间，大模型赛道上热闹非凡。另一方面，也有不少人开始担忧起了未来，数据隐私安全、社会伦理等威胁论甚嚣尘上。

在此背景下，特别邀请了明略科技集团高级技术总监赵亮、赛智产业研究院院长赵刚、融数联智创始人兼CEO袁晔三位重量级嘉宾，以把脉ChatGPT技术的利好与落地为棋盘，同时聚焦于ChatGPT数据安全话题，探讨ChatGPT发展之路。

以下是融数联智创始人兼CEO袁晔的观点，为了方便阅读，在不改变原义的基础上进行了调整：

：ChatGPT到底是什么，或者说大家如何定义ChatGPT？是聊天机器人，还是AGI（通用人工智能），还是其他？

袁晔：我认为这是两个问题。正如ChatGPT名字一样，Chat就是聊天机器人，GPT整套框架包括大语言模型在内的一套涵盖算法、算力、数据等技术的体系。前一个还比较好理解，因为它已经呈现在大众面前，但后一个因为没有开源，所以大家很难去深挖它究竟是什么样的。GPT前几版本有开源的，但GPT3.5、GPT4已经被微软私有化了，我们很难知道它的边界是什么，只能通过只言片语去猜测一些信息。

所以说如果我们要去分析GPT到底是什么，以及GPT现在做的程度如何，我觉得还是很难去下定义或者去讨论。坦率来说，这就好像是你问微软，Microsoft的产品office word到底写了多少行代码，但这些代码都是闭源的，缺少基础信息，所以这是一件很难去下定义的事情。

：ChatGPT大爆发背后，如何平衡数据隐私安全和AI能力之间的关系？

袁晔：这个涉及方面比较多。我先从隐私保护的角度来谈。确实，像北美、欧洲和中国在隐私保护方面的政策是不一样的。所以我们可以看到Open AI在美国可以获得大量的数据去训练它的模型。此外，英语世界的语料是非常多的，数据整理和清洗的工作也做的比较好，这些都是在今天我们能够看到ChatGPT做的很好的重要因素之一。

欧洲为什么会有国家拒绝呢？是因为欧洲有一个法律叫GDPR，这是在隐私保护上非常严格的要求，这也是为什么意大利会首先拒绝，那么接下来可能欧洲其他国家也会跟进，因为这是法律的要求。

同样，国内也有个人隐私保护法、数据安全法等等，整体上与欧洲GDPR更接近。所以，从这个角度上来讲，如果说中文世界想做一个类似于ChatGPT这样的产品，面对的挑战有很多。现实情况是，首先数据相对较少，第二，数据清洗工作也相对做的没有英语世界做的多。第三，从法律的合规性和数据监管隐私保护的角度也是完全不一样的，所以这个也会从某种意义上影响国内想做ChatGPT产品的团队的具体执行。

Open AI现在达到的状态，可以说，哪怕是谷歌这样的公司也很难追赶，因为它基本上很好地调用了英语世界的语料，用于训练模型，并且形成了很好像雪球一样的滚动效应，也就是说，大量用户使用后，又产生了很多数据，并且不停地进行优化训练。

可以这样说，现阶段的ChatGPT就像是雪球在高速滑行状态，雪球会越来越大，其他的跟随者都很难在利用这些雪滚出这样大的球。

所以，某种意义上来说，在北美市场这个模式的战斗已经结束，ChatGPT这个事情上，欧洲也好，中国也好，或者世界上其他国家也好，可能会在垂直类大模型上生根发芽，而这对于隐私保护来说，才是一个现实的挑战。

早在20年的时候，就有研究人员针对ChatGPT做过相关数据隐私安全的研究。当时的这个研究就是说，大模型里面可能会隐藏着一些个人隐私的数据，只要通过一些手段就可以把它提取出来。因此，这也引发了一股担忧隐私数据泄漏言论。其实在这些新闻出来之前，很多学者就注意到了这个问题，并尝试做了一些工作。比如学术圈曾提到，通过一些方式来尝试减少和避免隐私数据泄漏。但目前来看，从技术层面上来说，好像还没有一个很好的方式能够绝对地避免这个问题。

此外，ChatGPT出现后，很多能力是我们暂时很难去解释的，或者说真正用原理去解释。这也引发了很多担忧，除了隐私数据的泄漏外，也会引发其他一些比如舆论引导等社会性、公共安全的担忧。

：怎么看待马斯克叫停GPT5这件事？

袁晔：我认为马斯克的担心有一定的道理。主要原因还是在于大家对GPT5的认知是模糊的，大家都不知道到底是怎么做的，这可能是一个很大的原因。如果开源的话，大家顾虑会相对少些。其实这也可以倒逼微软来开源这个部分。

但显然，ChatGPT的出现，在商业角度上来看是解决了一些问题的，比如说很多初级的工作，确实也可以被替换。

：除了互联网、科技大厂外，现在去做大语言模型的创业公司、连续创业者不再少数，还有像王小川、王慧文这样子的互联网老兵，大家认为谁能做出中国版的ChatGPT？

袁晔：我认为，我们很难再去做一个OpenAI他们一样做出的ChatGPT，哪怕是谷歌、亚马逊、Mate，当然，这也包括国内的一些公司。因为第一名已经跑很远了，并且像雪球一样越滚越大，我们很难去追赶。既然如此，为什么不另辟蹊径呢？

第二，从现实的角度来说，国内的相关法律法规跟北美也不一样，包括数据状况跟北美也不一样，所以我们也不太可能做出一模一样的东西来，而且也不可能去在英语世界做出这样一个应用。我们处在中文世界里，所以我们只能说不安其命，大家有自己的想法，大厂做出解决大厂自己问题的东西，初创公司有初创公司的玩法。然后无非就是看大家要解决的问题是什么，是真的要解决自己的业务问题，比如说大厂想要解决自身业务的问题，初创公司解决一个具体的业务场景问题。

所以，通用这个事情是比较难的，我认为国内做垂直类大模型的机会可能更大些。

：围绕着ChatGPT相关领域，您认为目前有哪些创业机会？围绕着数据隐私安全，有没有一些创业的方向？您对创业者有没有什么建议？同时对已经深耕ChatGPT领域的企业提出一些建议或看法？

袁晔：对于创业公司来说，需要考虑的事情包括团队、资金等各方面的能力。总体来说，沿着通用大模型创业还是比较难的。

我们需要做的是拥抱新技术，去使用它、结合它，应用它。对于国内创业者而言，做通用大模型还是有难度，国内更适合在垂直行业做模型，开花结果。

：ChatGPT是否会引发第四次工业革命？

袁晔：对第四代或第四个阶段的定义，其实之前像区块链、Web3，大家都会有类似的一些角度，比如说Web3顾名思义第三代互联网,区块链大家也讲是第三代互联网，包括 VR/AR/MR、元宇宙这些。至于ChatGPT本身，把大家带到了第四代还是怎么样，只能由历史来定，我们现阶段其实都是在猜。

但有一点，结合第一个咱们讨论的问题，我想简单说一下其他角度，就是说无论ChatGPT发展到什么程度，我觉得人类本身就是一个渺小的，而且在宇宙整个时间轴里都是很短暂的。

我们今天的人类其实跟100万年前的人类其实已经不一样了，甚至与在没有工业革命之前的人类也不一样。我们的体力、身体的结构其实多多少少都发生了微妙的变化，因为机器等带来的就是我们不需要那么强调体力、上肢及下肢。我们很多时候担心说AI去挑战人类，我觉得有点过虑了。

但有一点，我们去拥抱它，和它去做结合，包括脑机接口、假肢义肢，这些都是人与机器的融合。同时我认为，工业革命虽然带来很多工作岗位的消失，但同样也会创造大量的工作岗位。

：在这样的背景下，我们需要具备怎么样的技能才能应对ChatGPT带来的生产力的一个变革？

袁晔：特别简单——用，让他不断地学习。通过各种方法去用ChatGPT，他的API是开的，调用他的API去做一些简单的应用，才知道这个东西到底是什么，才知道怎么去结合它，否则就天天说，数学来了加减乘除很吓人，但是你从来不去学加减乘除，你就觉得它跟洪水猛兽一样的东西。

当你学了，你才知道你如何作为一个个体的人去跟他结合，我觉得核心就是要去用。

热门相关：首席的独宠新娘薄先生，情不由己大神你人设崩了网游之逆天飞扬寂静王冠