输入“/”快速插入内容

Sora是如何发生的(一):2016年关于机器学习和神经网络的一篇深度报告

2024年2月21日创建
本文讨论了人工智能从诞生到2016年的发展历程,包括概念起源、深度学习崛起、神经网络原理、学习形式、应用案例及影响等。关键要点包括:
1.
人工智能发展历程:1956年提出概念,进展波折,2012年ImageNet竞赛后因深度学习崛起迎来曙光。
2.
深度学习与神经网络:深度学习用大量算力和数据增强人工神经网络,其训练通过调整神经元权重实现,互联网和GPU推动其发展。
3.
深度学习形式:监督学习用带标签示例训练系统;无监督学习让网络在大量示例中自主聚类;强化学习使网络与环境交互以获奖励。
4.
应用案例:谷歌用深度学习改进搜索等服务;DeepMind的AlphaGo结合多种技术击败李世石;MetaMind探索多任务学习。
5.
发展现状与未来:深度学习成果转化快,大公司开源软件,初创企业探索新方法;未来人工智能将广泛嵌入,也引发就业担忧 。
📌
作者:Polyphony Group / 复调文化、经济学人杂志
插画创作:复调文化 x Stable Diffusion XL
内容策划:Peter YU
概述
人工智能的崛起自古以来即受到人们的关注,但现代的技术发展为其注入了新的活力。从1956年提出的“人工智能”概念开始,人们就一直希望机器能够解决人类面临的各种问题,但进展并不总是如此顺利。然而,自2012年ImageNet Challenge竞赛以来,深度学习技术的崛起为人工智能领域带来了新的曙光。通过深度学习,神经网络的训练变得更加可行,而互联网的兴起为其提供了大量的训练数据,加速了这一进程。深度学习的核心是人工神经网络,它模仿了生物大脑中的神经元网络。通过调整神经元之间的连接权重激活函数,神经网络可以从训练数据中学习并提高性能。监督学习、无监督学习和强化学习是深度学习的主要形式,它们分别用于不同类型的问题,并在诸如图像分类、语音识别、欺诈检测等领域取得了巨大成功。谷歌Facebook微软等科技巨头不仅在推动深度学习技术的发展,还通过开源软件和云服务等方式将其普及。这些技术的广泛应用将为人们的日常生活带来改变,从更智能的搜索引擎到个性化的推荐系统,以及更具交互性和预测性的计算机界面。当下全球关注焦点的OpenAI的Sam Altman在那个时候还在创业孵化器Y Combinator。那个时候机器学习和神经网络结构的应用领域更多在科学研究和商业应用研究,还没有“大举进攻”生成式内容 —— Sora的基础。那个时候NVIDIA的股票价格12美元都不到(如今截止2024年2月20日,已经超过720美元,翻了整整60倍)。根据指数级发展规律,过去7年的变化幅度也许在将来的2年内,都可能被迅速超越。(以下深度报告文章发布于2016年6月23日)
从不奏效到神经网络,人工智能的繁荣是基于一个古老的想法,但带有现代的转折
人和人工智能之间就像阿拉丁和他的神灯
人工智能从诞生之初就与傲慢和失望联系在一起,为何突然成为最热门的技术领域?这个术语是在 1956 年撰写的一份研究提案中创造的,该提案提出,如果一组精心挑选的科学家一起工作一个夏天,那么在让机器“解决现在留给人类的各种问题”方面可以取得重大进展。至少可以说,事实证明这种想法过于乐观了,尽管人工智能偶尔会取得突破性进展,但它还是以“承诺远远超出其所能实现的程度”而闻名。研究人员最终大多避免使用这个术语,而是更愿意谈论“专家系统”或“神经网络”。 “AI”的复兴以及当前该领域的兴奋可以追溯到 2012 年的一场名为 ImageNet Challenge 的在线竞赛。ImageNet是一个包含数百万张图像的在线数据库,所有图像均由手工标记。对于任何给定的单词,例如“气球”或“草莓”,ImageNet 包含数百张图像。一年一度的 ImageNet 竞赛鼓励该领域的人们竞争并衡量他们在让计算机自动识别和标记图像方面取得的进展。他们的系统首先使用一组提供了正确标签的图像进行训练,然后挑战对以前未见过的测试图像进行标记。在后续研讨会上,获奖者分享并讨论他们的技术。 2010 年,获胜系统能够在 72% 的时间内正确标记图像(对于人类来说,平均值为 95%)。 2012 年,多伦多大学 Geoff Hinton 领导的一个团队借助一种名为“深度学习”的新技术,将准确率跃升至 85%。这带来了进一步的快速改进,在 2015 年的 ImageNet Challenge 中准确率达到了 96%,首次超越了人类。
蒙特利尔大学的计算机科学家约书亚·本吉奥 (Yoshua Bengio) 表示,2012 年的结果被正确地认为是一项突破,但他们依赖于“将以前所有的部分结合起来”。深度学习的先驱。从本质上讲,这项技术使用大量的计算能力和大量的训练数据来增强人工智能诞生之初的一个旧想法:所谓的人工神经网络(ANN)。这些是受生物学启发的人工神经元或脑细胞网络。
分层的蛋糕:人工神经网络如何处理数据
在生物大脑中,每个神经元都可以被其他神经元触发,这些神经元的输出会输入到该神经元中,然后它自己的输出可以依次触发其他神经元。一个简单的人工神经网络有一个神经元输入层,可以将数据输入网络,有一个输出层,可以输出结果,中间可能还有几个隐藏层,可以处理信息。(实际上,人工神经网络完全在软件中进行模拟。)网络中的每个神经元都有一组“权重”和一个控制其输出发射的“激活函数”。训练神经网络涉及调整神经元的权重,以便给定的输入产生所需的输出。人工神经网络在 20 世纪 90 年代初开始取得一些有用的成果,例如在识别手写数字方面。但让他们完成更复杂任务的尝试遇到了麻烦。在过去的十年中,新技术和对激活函数的简单调整使得训练深度网络变得可行。与此同时,互联网的兴起使得数十亿的文档、图像和视频可用于培训目的。所有这些都需要大量的数字运算能力,当几个人工智能研究小组在 2009 年左右意识到图形处理单元 (GPU)(PC 和视频游戏控制台中用于生成精美图形的专用芯片)也能很好地发挥作用时,这种能力就变得很容易实现。适合运行深度学习算法。由吴恩达 (Andrew Ng) 领导的斯坦福大学人工智能研究小组发现,GPU 可以将其深度学习系统的速度提高近百倍。吴恩达后来跳槽到谷歌,现在在中国互联网巨头百度工作。突然之间,之前需要几周时间训练一个四层神经网络,现在只需要不到一天的时间。 GPU 制造商 NVIDIA 的老板黄仁勋 (Jen-Hsun Huang) 表示,这是一种令人愉悦的对称性,用于为游戏玩家构建想象世界的芯片也可以用于帮助计算机通过深度学习理解现实世界。
让人们对这个领域感到兴奋的是,深度学习这一技术可以应用于许多不同的领域
ImageNet 结果展示了深度学习的能力。突然间,人们开始关注,不仅在人工智能社区内,而且在整个技术行业。此后,深度学习系统变得更加强大:20 或 30 层深度的网络并不罕见,微软的研究人员已经构建了一个 152 层的网络。更深层次的网络能够实现更高层次的抽象并产生更好的结果,并且这些网络已被证明擅长解决非常广泛的问题。