合成数据即将改变人工智能

发布时间：2022-07-26 12:35:12 所属栏目：大数据来源：互联网

导读：想象一下，如果有可能以廉价和快速的方式生产出无限量的世界上最有价值的资源。那么，这将会带来什么样的巨大经济转型和机遇呢？这这就是今天的现实，它被称为合成数据。合成数据并不是一个新想法，但就现实世界的影响而言，其现在正接近一个关键的拐点。

　　想象一下，如果有可能以廉价和快速的方式生产出无限量的世界上最有价值的资源。那么，这将会带来什么样的巨大经济转型和机遇呢？

　　这这就是今天的现实，它被称为合成数据。

　　合成数据并不是一个新想法，但就现实世界的影响而言，其现在正接近一个关键的拐点。它有望颠覆人工智能的整个价值链和技术堆栈，并产生巨大的经济影响。

　　数据是现代人工智能的命脉。获取正确的数据是构建强大 AI 的最重要和最具挑战性的部分。从现实世界中收集高质量数据是复杂、昂贵且耗时的。这就是合成数据的价值所在。

　　合成数据是一个非常简单的概念——其中一个想法似乎好得令人难以置信。简而言之，合成数据技术使从业者能够简单地以数字方式生成他们需要的数据，无论他们需要多少数量，都可以根据他们的精确规格定制。

　　根据一项广泛引用的 Gartner 研究，到 2024 年，用于人工智能开发的所有数据中，60% 将是合成的，而不是真实的。

　　花点时间消化一下。这是一个惊人的预测。

　　数据是现代经济的基础。用《经济学人》的话说，它是“世界上最宝贵的资源”。在短短几年内，用于人工智能的大部分数据可能来自一个颠覆性的新来源——如今很少有企业了解甚至不知道。

　　不用说，这将带来巨大的商业机会。

　　合成数据初创公司Datagen的首席执行官兼联合创始人Ofir Zuk 表示 :“我们可以简单地说，合成数据的总目标市场和数据的总目标市场将会融合。”

　　合成数据的兴起将彻底改变数据的经济、所有权、战略动态，甚至（地缘）政治。这是一项值得关注的技术。

　　从自动驾驶汽车到人脸
　　虽然合成数据的概念已经存在了几十年，但从 2010 年代中期开始，该技术首次在自动驾驶汽车领域得到了广泛的商业应用。

　　合成数据开始出现在自动驾驶汽车领域也就不足为奇了。首先，因为 AV（Audio and Video）领域吸引了更多的机器学习人才和投资资金，甚至可能比任何其他人工智能商业应用都要多，它通常是合成数据等基础创新的催化剂。

　　合成数据即将改变人工智能

　　鉴于 AV 世界中“边缘案例”的挑战和重要性，合成数据和自动驾驶汽车特别适合彼此。为自动驾驶汽车在道路上可能遇到的每个可能场景收集真实世界的驾驶数据是不可能的。鉴于世界是多么不可预测和未知情况，实际上需要数百年的真实驾驶才能收集构建真正安全的自动驾驶汽车所需的所有数据。

　　因此，自动驾驶汽车公司开发了复杂的模拟引擎来综合生成必要的数据量，并有效地将他们的人工智能系统暴露在驾驶场景的“长尾”中。这些模拟世界可以自动生成任何可以想象的驾驶场景的数千或数百万个排列——例如，改变其他汽车的位置、添加或移除行人、增加或降低车速、调整天气等等。

　　多年来，领先的自动驾驶汽车厂商——Waymo、Cruise、Aurora、Zoox——都在合成数据和模拟方面进行了大量投资，并将其作为其技术堆栈的核心部分。例如，2016 年，Waymo生成了 25 亿英里的模拟驾驶数据来训练其自动驾驶系统（相比之下，从现实世界收集的驾驶数据仅为 300 万英里）。到 2019 年，这一数字已达到100 亿英里。

　　正如 Andreessen Horowitz 的合伙人 Chris Dixon在 2017 年所说：“现在，你几乎可以通过他们对模拟的认真程度来衡量自主团队——无人机团队、汽车团队的成熟度。”

　　因此，出现的第一批合成数据初创公司瞄准了自动驾驶汽车终端市场。其中包括 Applied Intuition（最近估值为 36 亿美元）、Parallel Domain 和 Cognata 等公司。

　　但没过多久，人工智能企业家就认识到，为自动驾驶汽车行业开发的合成数据功能可以推广并应用于许多其他计算机视觉应用。

　　从机器人技术到物理安全，从地理空间图像到制造，近年来计算机视觉在整个经济中发现了广泛的有价值的应用。对于所有这些用例，构建 AI 模型需要大量的标记图像数据。

　　合成数据在这里代表了一个强大的解决方案。

　　使用合成数据方法，企业可以比其他方法更快、更便宜地获取训练数据——即从现实世界中费力地收集数据。想象一下，在系统上人工生成 100,000 张智能手机图像比在现实世界中一张一张地收集这些图像要容易得多。

　　重要的是，现实世界的图像数据必须先手动标记，然后才能用于训练 AI 模型——这是一个昂贵、耗时且容易出错的过程。合成数据的一个关键优势是不需要手动数据标记：因为图像首先是从头开始以数字方式定制的，所以它们会自动带有“像素完美”的标签。

　　计算机视觉的合成数据究竟是如何工作的？如何人工生成如此高保真、逼真的图像数据？

　　合成数据核心的一项关键人工智能技术被称为生成对抗网络或 GAN。

　　GAN由 AI 先驱 Ian Goodfellow于 2014 年发明，自那时以来一直是研究和创新的活跃领域。Goodfellow 的核心概念突破是用两个独立的神经网络构建 GAN，然后让它们相互对抗。

　　合成数据即将改变人工智能

　　从给定的数据集（例如，人脸照片的集合）开始，第一个神经网络（称为“生成器”）开始生成新图像，就像素而言，这些图像在数学上与现有图像相似。同时，第二个神经网络（“鉴别器”）被输入照片，而不会被告知它们是来自原始数据集还是来自生成器的输出；它的任务是识别哪些照片是合成生成的。

　　当这两个网络迭代地相互对抗时——生成器试图欺骗鉴别器，鉴别器试图停止生成器的创造——它们相互磨练彼此的能力。最终判别器的分类成功率下降到 50%，并不比随机猜测好，这意味着合成生成的照片已经与原件无法区分。

　　2016 年，人工智能巨匠 Yann LeCun称GAN 是“机器学习过去十年中最有趣的想法”。

　　推动视觉合成数据近期发展势头的另外两个重要研究进展是扩散模型和神经辐射场(NeRF)。

　　最初受热力学概念的启发，扩散模型通过增加噪声破坏训练数据来学习，然后找出如何逆转这种噪声过程以恢复原始图像。一旦经过训练，扩散模型就可以应用这些去噪方法从随机输入中合成新颖的“干净”数据。

　　扩散模型在过去一年中大受欢迎，包括作为DALL-E 2的技术支柱，这是OpenAI 备受讨论的新文本到图像模型。与 GAN 相比，具有一些有意义的优势，预计扩散模型将在生成 AI 的世界中发挥越来越重要的作用。

　　与此同时，NeRF 是一种强大的新方法，可以快速准确地将二维图像转换为复杂的三维场景，然后可以对其进行操作和导航以生成多样化的高保真合成数据。

　　为计算机视觉提供合成数据解决方案的两家领先初创公司是 Datagen（最近宣布了 5000 万美元的 B轮融资）和 Synthesis AI（最近宣布了 1700 万美元的 A 轮融资）。两家公司都专注于人类数据，尤其是人脸；他们的平台使用户能够以编程方式自定义跨维度的面部数据集，包括头部姿势、面部表情、种族、注视方向和发型。

　　AI.Reverie 是这一领域的先行者，去年被 Facebook 收购——这表明大型科技公司对合成数据越来越感兴趣。早期创业公司包括 Rendered.ai、Bifrost 和 Mirage。

　　循环往复，虽然几年前自动驾驶汽车为合成数据的增长提供了原始动力，但时至今日，自动驾驶汽车行业仍在继续推动该领域的最新发展。

（编辑：我爱制作网_潮州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

怎样用好数据科学	未来已来 Cloudera拥抱
一文看清楚数据指标体	为啥云原生数据湖值得