河套 IT TALK 77：（原创）解读老黄与 Ilya 的炉边谈话系列之六——ChatGPT 未来将走向何方（万字长文）

一个月前，就在GPT 4发布的第二天，同时也是英伟达（NVIDIA）线上大会的契机，英伟达的创始人兼CEO黄仁勋（”Jensen” Huang）与OpenAI的联合创始人兼首席科学家伊尔亚-苏茨克维（Ilya Sutskever ）展开了一次信息量巨大的长达一个小时的“炉边谈话”（Fireside Chats）。期间谈到了从伊尔亚-苏茨克维早期介入神经网络、深度学习，基于压缩的无监督学习、强化学习、GPT的发展路径，以及对未来的展望。相信很多人都已经看过了这次谈话节目。我相信，因为其中掺杂的各种专业术语和未经展开的背景，使得无专业背景的同仁很难彻底消化理解他们谈话的内容。本系列尝试将他们完整的对话进行深度地解读，以便大家更好地理解ChatGPT到底给我们带来了什么样的变革。今天，就是这个系列的第六篇：ChatGPT未来将走向何方？这也是本系列的最后一篇。

EDG生物计算机：用人类大脑细胞开发超越电子计算机的技术

对话译文（06）：

黄仁勋：这真是不可思议。你之前还说过的一件事，是关于用 AI 生成测试，来训练另一个 AI 的事。这让我想起了一篇论文，虽然我不确定其中的内容是否属实。据说在未来一段时间内，全世界大概有4万亿到20万亿的语言类tokens 可以被用于训练模型。你知道，在一段时间内，可以用来训练的 token 会慢慢消耗殆尽。首先，我不知道你是否有同样的感觉？

其次，我们是否可以利用 AI 生成自己的数据来训练AI 本身？你可能会反驳这是一个循环，但我们无时无刻不在用生成的数据，通过自我反省的方式，训练我们的大脑，并在脑海里思考某一个问题。神经科学家会建议人们保持充足的睡眠，我们会做很多事情，比如睡眠，来发展我们的神经元。你如何看待合成数据生成领域？这是否会成为未来AI 训练重要的一部分，AI 能否自己训练自己？

Ilya Sutskever：我认为不应该低估现有的数据，我认为可能有比人们意识到的更多的数据。至于你的第二个问题，这种可能性仍有待观察。

黄仁勋：未来的某些时候，当我们不使用 AI 时，它可能会生成对抗性的内容来进行学习，或者想象着它需要解决的问题，不断提升自己，并告诉我们它能做什么。关于我们现在在哪里，以及未来我们将会在哪里，时间不用很遥远，比如说可见的一两年，在最让你兴奋的领域中，你认为语言模型会走向何方？

Ilya Sutskever：预测是困难的，尤其是对太具体的事情。我们有理由认为这个领域会持续进步，我们将继续看到AI 系统在它的能力边界，让人类感到惊讶。AI的可靠性是由它是否可以被信任决定的，未来它肯定会达到能被完全信任的地步。如果它不能完全理解，它也会通过提问来弄清楚。它会告诉你自己不知道，但同时它会说需要更多的信息。

我认为 AI 可用性影响最大的领域，未来会有最大的进步。因为现在，我们就面临着一个挑战，你想让一个神经网络去总结长文档，获取摘要。挑战是，你能确定重要的细节没被忽略吗？

这仍然是一个有用的摘要，但当你知道所有重要的点都被涵盖时，就会产生不同的结果。在某个时刻，尤其是当存在歧义时，这也是可以接受的。但如果某个点明显很重要，以至于任何其他看到该点的人都会说这真的很重要，当神经网络也能可靠地识别到这一点时，你就会知道它可信度提高了。这同样适用于防护栏。它是否清楚的遵循用户的意图，也会成为衡量可靠性的标准。未来两年，我们会看到很多这样的技术。

黄仁勋：是的，这太棒了。这两个领域的进步将使这项技术变得值得信赖，使它能够应用于许多事情。这本应该是最后一个问题，但是我的确还有另外一个问题，抱歉。从 ChatGPT 到 GPT-4，你是什么时候第一次开始使用GPT-4 的？它表现出来什么样的能力，让你感到惊讶？

Ilya Sutskever：它展示了很多很酷的东西，非常惊人。它非常棒，我会提到两点，我在想怎么才可以更好地表达。简单来说，它的可靠性水平让人感到惊讶。在此之前的神经网络，如果你问它一个问题，它可能会以一种近乎愚蠢的方式误解问题。但在 GPT-4 上这种情况已经不再发生。它解决数学问题的能力大大提高了，你可以认为它真的进行了推导，很长的、复杂的推导，并且还转换了单位等等，这真的很酷。

黄仁勋：它是通过一步步的证明来工作的，这真的很神奇。

Ilya Sutskever：不是所有的证明，但起码有很大一部分是的。另外一个例子，就像许多人注意到它可以用同一个字母开头的单词写诗，每个单词都很清晰地遵循着指令。虽然仍不完美，但是已经非常好了。

在视觉方面，我真的很喜欢它是如何解释笑话的。它可以解释网络热梗，你给它看一个网络热梗，并询问它这个为什么好笑，它会告诉你原因，并且它说的还是对的。我认为，在视觉部分，它就像真的可以看到那些图像。你用一些复杂的图像或图表来追问它问题，然后得到解释，这非常酷。

但总的来说，我已经从事这项工作很长时间了，实际上几乎整整20年了。最让我感到惊讶的是，它真的运行起来了。它似乎一直以来对人们来说都是个小事，但它现在不再渺小，变得更重要、更强烈。

它还是那个神经网络，只是变得更大，在更大的数据集上，以不同的方式训练，但训练的基础算法都是一样的，这是最令我惊讶的。

每当我回顾时，我就会想，这些概念性想法怎么可能呢？大脑有神经元，也许人工神经元也一样好，我们可能只需要用某种学习算法对它们进行训练。那些论点竟然如此正确，这本身就是最大的惊喜。

黄仁勋：在我们相识的十年里，你训练的模型和数据量，从你在 AlexNet 上所做的工作到现在，增加了约100万倍。在计算机科学界，没有人会相信在这十年间，计算量会扩大100万倍。并且你的整个职业生涯都致力于此，你有两个开创性的研究成果，早期的 AlexNet 和现在 OpenAI 的GPT，你所取得的成就真了不起。很高兴能再次与你进行思想上的碰撞，我的朋友 Ilya，这是一个相当美妙的时刻，今天的对话，你将问题抽丝剥茧，逐一解释。这是最好的博士学位之一，除了博士学位，你还描述了大型语言模型的最新技术水平。我真的很感激，很高兴见到你，恭喜你，非常感谢你。

智愿君：让我们继续解读老黄和Ilya炉边谈话的第五六段对话（也就是本系列的终章），这一段主要是探讨对ChatGPT未来的畅想。那么老黄和Ilya谈话中哪些细节值得我们去关注呢？

AI 能否自己训练自己？

老黄的这个问题提得蛮尖锐的。而Ilya并未展开回答这个问题。我觉得这个问题我们要回顾一下神经网络的发展历史：

从20世纪40年代至今，神经网络经历了三次浪潮。

第一次浪潮指的是早期的控制论，其核心是逻辑主义。这一潮流始于1943年，由美国著名的神经生物学家沃伦·麦卡洛克（Warren McCulloch）和数学家沃尔特·皮茨（Walter Pitts）提出了麦卡洛克-皮茨神经元模型（McCulloch-Pitts neuron model）。感知机和自适应线性单元是最典型的成果。感知机是一种学习权重的模型，根据每个类别的输入样本来学习。自适应线性单元则是用函数f(x)本身的值来预测一个实数。第一次浪潮的主要限制是过于理想化的数学模型和机械逻辑论，希望通过符号演算（逻辑门）的方法推理和计算。这种方式过于简单，无法真正解决现实生活中复杂的问题，并且不具备灵活度，可以说是一个大号的计算器。
第二次浪潮是在20世纪80年代到90年代出现的联结主义（connectionism），又称为并行分布处理（parallel distributed processing）。联结主义的指导性启示和主要灵感来自大脑或神经系统，将认知看成是网络的整体活动。中心思想是，当网络将大量简单的计算单元连接在一起时，可以实现智能行为。1982年，生物物理教授霍普菲尔德提出了一种新的神经网络，可以解决一大类模式识别问题，还可以给出一类组合优化问题的近似解。1986年，David Rumelhart和Geoffery Hinton发展了神经网络反向传播学习算法Back Propagation，延展出来的分布式表示、长短期记忆以及新认知机成为了卷积网络的基础。联结主义在许多领域得到了广泛应用，如模式识别、手写文字识别、字符识别和简单的人脸识别。但是，应对复杂问题时联结主义的表现力不够强大。第二次浪潮的衰退主要限制是算力跟不上，受限硬件计算能力和互联网的并行处理能力。
第三次浪潮是基于互联网大数据和GPU的深度学习的突破。2006年，加拿大CIFAR的Geoffrey Hinton和其他附属研究小组使用一种称为贪婪逐层预训练的策略来有效地训练深度网络。这标志这现在有能力训练以前不可能训练的比较深的神经网络。此时的深度神经网络已经优于与之竞争的基于其他机器学习技术以及手工设计功能的 AI 系统。（参见前文我们提到在ImageNet上的夺冠）。第三次浪潮的驱动力就是：推进通用人工智能（强人工智能），并探索超人工智能。不仅仅是通过硬件的升级，更是通过大数据的积累和GPU的高性能计算，使得深度学习的模型和算法得到了极大的提升，广泛应用于语音识别、自然语言处理、图像和视频识别等领域。例如，深度神经网络在计算机视觉领域的应用，如人脸识别、物体检测、图像分割等任务中，已经达到了人类水平甚至超越了人类。同时，深度学习还带来了很多新的技术突破，例如生成对抗网络（GAN）、变分自编码器（VAE）、残差网络（ResNet）、注意力机制（Attention）等等。与此同时，深度学习也面临着很多挑战和问题。例如，深度学习算法需要大量的训练数据和计算资源，而且很难解释其内部的决策过程；深度学习模型容易受到对抗性攻击和过拟合等问题的影响；深度学习的可解释性和公平性等问题也需要进一步研究解决。

而回到刚才的问题就是自己训练自己，也就是自我学习能力，是通用人工智能的标志之一。所以老黄问出这个问题，还是挺有深意的。

那么为什么Ilya回避了对这个问题的回答，我觉得大概率是两点原因：

Ilya清楚这是一个敏感话题。他如果过度赞许AI自己训练自己的能力，会增加AI发展不受控的社会恐慌。从近期Geoffrey Hinton 宣布辞去 Google 的职务，并称自己现在对自己毕生的工作感到后悔这件事上，就能说明问题。Geoffrey Hinton对人工智能领域的发展所带来的风险感到担忧，并为人类敲响警钟。
Ilya明白，确实在使用这种AI自己训练自己的方式，但是效果有待观察为什么这么说呢？因为自我训练，可能会无法准确评估训练模型的性能和鲁棒性。人类的信息有很多，有些信息是正确信息，有些是错误信息。有些信息带有明显的恶意或者逻辑漏洞。如果不分青红皂白，让AI自己去训练自己，可能会在训练数据这个环节就会失控，因为“脏”数据，自然不会学出一个理想的模型和能力沉淀。在机器学习中，训练数据的质量对最终模型的表现和准确性有着非常重要的影响。如果训练数据集中包含了大量的错误数据、噪声数据或者恶意数据，那么最终的模型可能会受到这些数据的干扰，表现不如预期甚至出现偏差和过拟合等问题。因此，在选择训练数据时，需要尽量筛选和清洗出具有代表性和高质量的数据，从而提高模型的表现和泛化能力。另外，对于AI自我训练自己这一过程，需要设计合理的学习策略和算法，以避免模型的学习过程受到“脏”数据的影响。例如，在训练过程中可以引入监督信号或者其他的先验知识，以引导模型学习正确的知识和规律。同时，在评估模型的表现时，也需要引入合理的评估标准和指标，以评估模型的性能和泛化能力。

所以，我总结一下这个问题的答复应该是：1. AI可以自己训练自己；2. 结果难与保证，所以有待观察，或者需要人工干预。

如何看到AI系统的置信度

在对话里，Ilya抛出来一个疑问：让AI去总结长文档，获取摘要。但如何确定重要的细节没被忽略吗？

其实回答这个问题是一个置信度的平衡问题。对于到底总结是否准确或者是否有遗漏，我觉得分为两类。一种是事实准确，一种是感知准确。前者是大模型本身通过深度学习技术和数据集的完备性来保障的，当然也和人工强化学习和调优等有关。后者是使用者的心理置信度，不管准确与否，我信任你。这两种准确有交集，如果两个交集越大就表明大模型的置信度能力越符合使用者的心理预期，信任感也就越容易建立。如果交集很少，使用者的产品信任度会逐渐降低，并最后放弃使用。这种逻辑在自动驾驶的事实安全和感知安全上也可以通用。

拿Ilya举的总结长文摘要的例子。不同人总结，肯定也会有千差万别。有的人总结详细一点儿，有的人总结简约一点儿。有的人偏重文章的某一方面，有些人偏重文章的另外一个方面。而且，往往业务需求不同，总结也会不一样，比如从财务角度分析，从技术演进的角度分析，从企业创新实践的角度分析，都会有不同的摘要。所以，对于总结长文摘要，基本上存在两点：1. 对需求的精准理解，懂得去和使用者进一步交互，去了解对方的期待；2. 不管从哪一个角度的理解，能做到尽可能思考完备，不追求100%准确，因为很可能也不存在标准答案，但是一定要足够靠谱。

所以对于一个好的AI，回答问题的能力是一方面，懂得向使用者提问，而且能从使用者的答复中再提炼和精准收敛理解用户的需求，显得更为重要。会聊天的AI，比单纯只回答的AI，要总要得多。相信，这个也应该是ChatGPT未来发展的重点。

训练AI的数据会耗尽吗？

如果我们面临的最终目标是要训练通用人工智能，或者超人工智能，可能我们会思考如何应对训练数据可能被耗竭的风险。但正如Ilya回答的那样，我们不应该低估现有的数据，而且可能有比人们意识到的更多的数据。

这句话也有多层的涵义。

首先，我们不应该低估现有的数据。这是什么意思呢？同样的训练数据，如果数据标签的数量不同，标签覆盖的完备性不同，训练数据的多样性选择等等都会对最终结果产生影响。如果处理不当，可能会出现过拟合、梯度消失或梯度爆炸等问题。如果要利用好同一个训练数据，那么就要通过合理的标注以确保训练数据的质量和多样性被体现、同时，神经网络结构（比如层级）和参数数量的设计、训练算法和优化技术的选择等。在这个过程中，需要综合考虑模型的性能、计算资源、训练时间、数据质量等多个因素，以达到一个平衡点。也就是说，同样一个数据集，不同公司来使用，如果标注完备性不够，网络结构不合理，参数不合适，训练算法不够优秀，都可能会导致差强人意的大模型结果。

其次，可以通过一些技术手段，来优化学习样本。比如：

数据增强：通过对现有数据进行扩充和变换，可以生成更多的训练样本。例如，可以使用图像增强技术对图像数据进行旋转、平移、缩放等变换，或者使用文本增强技术生成近义词、反义词等变换文本数据。
跨任务迁移学习：在某些情况下，可以利用先前训练好的模型和数据来提高新模型的性能。这种方法称为迁移学习。通过使用迁移学习，可以将模型从一个任务转移到另一个任务，从而减少对大量数据的需求。
数据共享：在某些情况下，可以考虑共享学习的数据库，做一定程度但拉通。例如通过共享数据集或与其他机构或组织合作共同收集数据，以充分利用可用资源。

最后，要实时跟进，人们产生的数据的步伐。人类的知识是一直不停地迭代和更新的。根据Statista 2023年的统计，今年的互联网上的数据量，已经是2021年的一倍。所以这种数据扩张的幅度和增长曲线是指数级的。而且现在数据的形态也在发生变化。除了文本之外，视频、音频，3D等形态的数据也在日益增长。所以，不要轻言训练数据耗尽，这种情况基本上不会出现。

GPT-4，到底是什么？

在老黄和Ilya谈话的过程中，其实聊了很多的GPT-4。但到底什么是GPT-4，它和之前的版本到底有什么不同？

首先，就是准确率的大幅提升。在本期谈话中，Ilya谈到了它回答错误率大幅度降低了。降低到什么水平呢？OpenAI提供的文档报告称，GPT-4-launch的错误行为率为0.02%，远低于GPT-3.5的0.07%和GPT-3的0.11%。这意味着GPT-4-launch生成的文本在10000次完成中只有2次违反OpenAI的内容政策或用户偏好。GPT-4虽然已经具备解物理题的能力，但毕竟不是专门的解题算法，一些复杂的数理问题对话中仍会出现一本正经胡说八道的情况。但是如果我们理解GPT的机制，就应该明白准确率再提升，也无法做到100%的准确。由于大模型（包括GPT-4）本质上可以视为训练集（人类知识/语言）的有损压缩，因此在模型运行时无法完整复现或者应答原始知识，从而模型的幻觉来自于信息压缩的偏差。多模态幻觉的本质是这种有损压缩偏差的体现，也是通过数学逼近人类语言的必然代价。（类似于压缩后的图像边缘出现不正常的条纹）。

第二，GPT-4如上文说的那样，是一个多模态的处理能力。已经升级为多模态大语言模型（Multi-modal Large Language Model，MLLM）。Ilya在本期和上期的谈话都提到了它如何理解图像。图像可以帮助GPT-4实现更好的常识推理性能，跨模态迁移更有利于知识获取，产生更多新的能力，加速了能力的涌现。这些独立模态或跨模态新特征、能力或模式通常不是通过目的明确的编程或训练获得的，而是模型在大量多模态数据中自然而然的学习到的。量变引发质变。涌现能力的另一个重要表现是模型的泛化能力。在没有专门训练过的情况，GPT-4也可以泛化到新的、未知的多模态数据样本上。这种泛化能力取决于模型的结构和训练过程，以及数据的数量和多样性。如果模型具有足够的复杂性和泛化能力，就可以从原始数据中发现新的、未知的特征和模式。当然，GPT-4涌现出的新能力可能仍有局限性，例如：模型可能产生错误的回答，对某些问题缺乏理解，容易受到输入干扰等。目前认为GPT-4的幻觉与其涌现能力具有相关性。GPT-4的多模态输入的能力对语言模型至关重要，使得“苹果”等单纯的符号语义扩展为更多的内涵。第一，多模态感知使语言模型能够获得文本描述之外的常识性知识。第二，感知与语义理解的结合为新型任务提供了可能性，例如机器人交互技术和多媒体文档处理。第三，通过感知统一了接口。图形界面其实是最自然和高效的人机自然交互方式。多模态大语言模型可通过图形方式直接进行信息交互，提升交互效率。多模态模型可以从多种来源和模式中学习知识，并使用模态的交叉关联来完成任务。通过图像或图文知识库学习的信息可用于回答自然语言问题；从文本中学到的信息也可在视觉任务中使用。

第三，就是更强的推理能力。GPT-4的思维链（Chain of Thought）能让大众感觉到语言模型“像人”的关键特性。虽然GPT-4这些模型并非具备真正的意识或思考能力，但用类似于人的推理方式的思维链来提示语言模型，极大的提高了GPT-4在推理任务上的表现，打破了精调（Fine-tune）的平坦曲线。具备了多模态思维链能力的GPT-4模型具有一定逻辑分析能力，已经不是传统意义上的词汇概率逼近模型。通过多模态思维链技术，GPT-4将一个多步骤的问题（例如图表推理）分解为可以单独解决的中间步骤。在解决多步骤推理问题时，模型生成的思维链会模仿人类思维过程。这意味着额外的计算资源被分配给需要更多推理步骤的问题，可以进一步增强GPT-4的表达和推理能力。一般认为模型的思维推理能力与模型参数大小有正相关趋势，一般是突破一个临界规模（大概62B，B代表10亿），模型才能通过思维链提示的训练获得相应的能力。思维链不是随随便便就能被训练出来的。另外也有研究表明，在语言训练集中加入编程语言（例如Python编程代码）可提升模型逻辑推理能力。具有思维链推理能力的GPT-4模型可用于简单数学问题、符号操作和常识推理等任务。完成思维链的训练，才算真正拿到了这波大模型AI竞技的入场券。

GPT的未来，到底何去何从？

对AI的狂热追捧的热度高峰过去后，很多人开始冷静下来。从一个多月前，包括埃隆马斯克和苹果公司联合创始人史蒂夫沃兹尼亚克在内的一些科技行业人士发表公开信敦促OpenAI停止训练比GPT-4更强大的人工智能系统。以及最近从谷歌辞去职务的Geoffrey Hinton警示AI 有可能会伤害人类。让我们从另外一个视角来看到这个问题。

其实关于人工智能是否会危及人类生存的话题，很早就出现了。早在1863 年，小说家塞缪尔·巴特勒 (Samuel Butler)就在《机器中的达尔文》中写道：“结果只是一个时间问题，但机器将真正统治世界及其居民的时刻将会到来，这是任何真正具有哲学头脑的人都不会怀疑的。”。卡雷尔·恰佩克（Karel Čapek）在1920年罗森的万能机器人RUR的喜剧中，第一次引入了机器人的概念，就通过夸张的舞台故事预言AI接管人类（AI takeover）。AI takeover是一种假设情景，超级智能AI机器人成为地球上主要的智能形式，并从人类手中夺走了地球的控制权。这一概念在后续科幻小说和电影等艺术作品中被广泛运用。甚至连计算机科学家艾伦·图灵 (Alan Turing)也曾在1951年一篇题为“智能机械，一种异端理论”的文章中提出：随着人工智能变得比人类更聪明，它们可能会“控制”世界。

存在风险（“x-risk”）学派认为：人类物种目前支配着其他物种，因为人类大脑具有其他动物所缺乏的一些独特能力。如果人工智能在一般智能上超越人类，成为“超级智能”，那么人类将难以或无法控制。正如山地大猩猩的命运取决于人类的善意，人类的命运也可能取决于未来机器超级智能的行为。说白一点儿就是，尽管我们在训练AI的过程中一直在灌输与人类兼容的价值观。但是我们无法控制的是机器人是否在认知提升后产生新的逻辑体系和价值判断体系。道格拉斯·恩格尔巴特 (Douglas Engelbart)在1994年，正式提出“集体智商”（collective IQ）的概念，作为集体智慧的衡量标准。随着互联网的普及、大数据和基于深度学习的人工智能的迅猛发展，AI正在朝着集体智慧的方向进化。集体智慧的伦理和强调个体关系的人类的伦理会产生巨大的差别。

前一段时间，我分析过美国国防部DARPA的一些和人工智能相关的项目。其中包括：比如CREATE项目（具有对抗策略的建设性机器学习战斗Context Reasoning for Autonomous Teaming 的缩写）、ACK (自适应跨域“杀”网是Adapting Cross-Domain Kill-Webs 的缩写) 等。美国军方计划将这项技术应用于战争的一些想法确实令人作呕，且毛骨悚然。这些项目都属于致命自主武器系统(LAWS) ，也就是通常被称为“杀手机器人”或者“战争机器人”，理论上能够在没有人类监督和干扰的情况下瞄准和射击。而且是物联网多武器协同作战。2014年，常规武器公约（CCW）召开了两次会议。第一个是致命自主武器系统 (LAWS) 专家会议。会议就LAWS 的特别授权，并引起了激烈的讨论。许多非政府组织和发展中国家都呼吁预防性地禁止 LAWS。他们根据道义论和后果论推理提出了自己的观点。人们有“不被机器杀死的权利”。

但一味的担心，没有解决方案，也是不对的。早在1941年，作为科幻“三巨头”之一的艾萨克·阿西莫夫（Isaac Asimov），就在他最著名的作品银河帝国系列和机器人系列中的一篇短篇小说《Runaround》中，第一次提及”机器人三定律”。这个奠定了机器人伦理的基础：第一定律：机器人不得伤害人类，或因不作为而让人类受到伤害。第二定律：机器人必须服从人类给它的命令，除非这些命令与第一定律相冲突。第三定律：只要不违反第一或第二定律，机器人就必须保护自己的存在。但随着时代的发展，显然，这个远远不够。2005～2006，由机器人学院协调的Euron项目（The Research EURON Atelier on Roboethics），制作了第一个机器人伦理学路线图。这里并未给出非常明确的路标，但是书中确实提出了关于机器伦理的各种挑战、场景、原则和观点。首次明确提出了在机器人伦理中考虑：“尊严、正义、公平、多元化、非歧视、自主权、隐私、利益分享、社会责任以及对生物圈的责任。比尔·希伯德（Bill Hibbard）在2014 年出版的著作《道德人工智能》，谈到了他关于人工智能的看法。他认为，由于人工智能将对人类产生如此深远的影响，人工智能开发人员是未来人类的代表，因此有道德义务在他们的努力中保持透明。因此他主张在人工智能算法和软件代码领域要采用开源方式，这是对整个人类负责的表现。而我们知道，从GPT-3开始，OpenAI就不再开源，违背了透明度原则，这也是让人担心的原因之一。

默奥大学计算机科学系的教授弗吉尼亚·迪格努姆 (Virginia Dignum) 在2018年3 月出版的《伦理与信息技术》上指出，机器人伦理有三个目标：1. 设计产生的伦理（Ethics by Design），指代伦理算法，是人工智能行为的表现基础。2. 设计中的伦理（Ethics in Design），指代如何分析和评估设计的机器人是符合伦理的。3. 伦理化设计（Ethics for Design），也就是如何保证开发设计的人员在前期研究、设计、构建的过程中，能确保机器人伦理的实现。2019年，布里斯托尔机器人实验室的艾伦·温菲尔德（Alan Winfield）提出，图灵测试存在缺陷，人工智能通过测试的要求太低。一项替代测试被称为道德图灵测试，该测试将通过让多名法官决定 AI 的决定是否符合道德或不道德来评判机器人，在图灵测试中增加道德决策的权重。2019年，IEEE推出了自治系统透明度的 IEEE 标准。描述了可测量、可测试的透明度级别，以便可以客观地评估自治系统，并确定合规级别。不仅仅是标准组织，很多研究人员建议将政府监管作为确保透明度的一种手段，并通过它来确保人类的责任感。经合组织、联合国、欧盟和许多国家目前正在制定监管人工智能的战略，并寻找适当的法律框架。但以上肯定还远远不够。

欧洲议会人工智能伦理领域顾问安娜·费兰德近日表示：人类已走到了关键的十字路口。在人工智能野蛮生长的当下，没有一致的立法监管，人工智能在实践层面会面临诸多挑战。当前世界需要对人工智能采取伦理学上的切实有效的考量。

过去这半年时间，仿佛世界一下子翻了一个个。以前从来不相信通用人工智能的人，都开始担心那个曾经被雷·库兹韦尔（Ray Kurzweil）预测的2045年的奇点，会不会提前到来，甚至会不会突然的“智能爆炸”让毫无准备的人类措手不及。所以，这种警觉的状态已经让大多数人行动起来，乐观来看，这应该是值得欣慰的变化。

好了，今天我们先解读到这里。关于英伟达的创始人兼CEO黄仁勋（”Jensen” Huang）与OpenAI的联合创始人兼首席科学家伊尔亚-苏茨克维（Ilya Sutskever ）的“炉边谈话”，我们一共花了六期来解读，今天是终篇。解读的观点肯定存在片面和偏僻，欢迎大家批评指正。