2022-11-11 10:22

人工智能白皮书:AIGC 的机会在哪里?

1.9万

原文标题:《白皮书 | AIGC 的机会到底在何处?》(AI 2022: The Explosion

撰文:David Cahn、Caryn Marooney、Sri Viswanath、Malachi Price、Jessica Brown、Vibhor Khanna

编译:阿法兔

图片来源:由无界版图AI工具生成

‍‍‍本篇文章,是知名基金(Coatue)发出的白皮书,谈到他们认为 AIGC 的机会到底在哪,目前有哪些应用案例。笔者翻译后,对部分概念做了一些批注。那么,这篇文章怎么使用?笔者认为,最有价值阅读的部分,是文章中的各种应用案例,动态演示部分见下列参考链接的原文(请注意:这些大部分都是 Coatue 的 Portofolio,请大家本着客观理性的态度阅读,本文不构成任何投资建议或者对项目的推荐),不过这些思路,对于我们目前的观察研究,特别是根据目前这些项目的表现和状况,去思考需求在哪,这些需求到底有多大,还是有一定帮助的。


1. 前言


随着 AI 从研究模式转变为商业化和规模化,大家都想知道。此时此刻的「人工智能高光时刻」对个人、公司和社会有什么影响?这种兴奋和期盼将如何转化为切实的进展?

随着人工智能图像生成器的出现,人工智能领域似乎正在迎来真正行业的高光时刻,已经逐步成为主流。目前人工智能生成艺术随时可见,在 Instagram 和 Twitter 上,在《纽约时报》和《大西洋》等主流出版物的头条上,都有介绍 AIGC 的新闻,或者用这种技术生成的图像。

这一高光时刻到来的背后,是已经酝酿了五年的科学突破。自 2017 年 Google Brain 推出 Transformers 以来,人工智能一直在悄然迅速迭代,这种现象被称为深度学习的研究浪潮。

深度学习,使用神经网络来学习世界运作的通用原则,通过在大型数据集上进行模型训练,基于深度学习的 AI 可以完成普通的任务,例如自动回应客户服务请求。当然,这种技术也可以完成更有创造性的工作,如写博客文章,生成图像和视频,以及写代码。随着这些神经网络的规模呈指数级增长(近年来增长了 1 万多倍)AI 技术变得更加强大。

十多年来,Coatue 一直密切关注这一趋势,在 2010 年代中期开始,Coatue 投资了英伟达。在 2018 年 East Meets West 的会议上,英伟达创始人黄仁勋预测,未来人工智能将协助解决人口问题,例如目前美国的劳动力短缺问题,提高整个社会的生产力和繁荣程度。

这个预测中的未来现在正在逐一实现。同年,Coatue 在深度学习领域下了两个大赌注,加入了流行的机器学习开发者平台 Weights & Biases 的董事会,投资了人工智能芯片公司 Cerebras。

基于 Coatue 从这些经验中得到经验,在接下来的几年,我们加强了对人工智能的关注,投资了许多趋势中最有前途的公司,包括 Abacus、Edge Impulse、Gantry、Gong、HuggingFace、Jasper、Latch Bio、Lightning、Replit、RunwayML、Scale 和 Stability。

这段时间的热度,对整个人工智能领域来说是振奋人心的。可以说,人工智能在瞬间就爆发了,真正进入了公众视野。目前,所有人都在谈论 AI,不仅仅是工程师,还包括普通用户、财富 500 强的高管、和很多媒体人。今年夏天公开推出的开源工具 Stability,短短 30 天内,就有超过一百万用户使用他们的产品(文字转图像)。

随着像 Stability 和 OpenAI 这样的公司通过 API 向开发者发布更新、更强大的人工智能模型,建立人工智能应用的关键障碍已经被消除了。结果是我们看到了人工智能的爆发时代,也就是,每天都有新的应用被发布。

随着 AI 从研究模式转变为商业化和规模化,大家都想知道。此时此刻的「人工智能高光时刻」对个人、公司和社会有什么影响?这种兴奋和期盼将如何转化为切实的进展?

本篇白皮书中,我们将回顾人工智能的最新技术突破,并分享我们对「Summer of AI」将如何真正转化为未来十年的行业性变革。


2. 为什么目前人工智能很重要


为什么目前人工智能很重要?(What is the big deal with AI right now)

Jason Allen 的人工智能生成的作品「Théâtre D'opéra Spatial」,在科罗拉多州博览会上获得数字类作品第一名。来源:纽约时报

长期以来,许多人认为人工智能是一种只能自动完成简单任务的技术。2022 年最大的惊喜之一,是市场对人工智能生成艺术的关注度增长迅速。尽管受到了部分传统艺术家的反对,但是人工智能艺术确实将人工智能革命的创造潜力带到了真实的生活场景中,并激发了新一代的创作者的热情。

当然,人工智能生成艺术只是冰山一角。现在,有超过 120 万名软件工程师使用 GitHub Copilot,GitHub Copilot 可以自动编写 40% 的代码。能够撰写博客文章和营销内容的 Jasper.ai,在过去两年中得到了广泛应用,并迅速成为行业标准。基于人工智能的视频编辑器 RunwayML,目前有数十万用户,它们的用户还包括在《The Late Show》、《Top Gear America》(Top Gear America)和《Everything Everywhere All at Once》等知名节目工作的视频编辑。

这波人工智能的再次复兴,正在许多不同的领域和垂直行业中发生,这并不是一个巧合:我们认为:规模化的突破使人工智能在很短的时间内变得指数级别的强大。工程师们目前正在利用这一技术突破,将其应用到可以能实现的各种场景。

随着人工智能开始触及越来越多的行业,越来越多的创业者被这项技术及和它的潜力所吸引也是很自然的。

像 Metaphor 这样的公司,正在研究人工智能搜索。Podcast.ai 正在创建人工智能生成的访谈。Adept.ai 正在研究「Decision Transformers」,他们将用它来为现有的应用程序(如 Excel 和 Salesforce)建立一个通用的人工智能助手。

Wordtune 已经发布了一个人工智能写作助手,而 Repl.it 正在建立一个 AI 优先的软件开发平台。

每个垂直领域都有新的初创公司出现

像 Canva 和 TikTok 这样的后起之秀,正在用人工智能与它们的现任对手微软和 Meta 竞争,而这些科技巨头也在进行反击:上周,微软官宣自己的应用——Designer,即 Canva 的竞争对手,由 DALL-E 提供支持。Meta 公司推出了 Make-A-Video,一种生成视频的新工具。

这些变化在科技领域之外也会有其发展迹象

在生命科学领域,几十家公司正在致力于将人工智能应用于人类基因组的研究。像基因科技这样的巨头正在大笔投资人工智能药物研发公司,像 AbSci 这样的生物技术公司,因其在人工智能平台上的模式,也经常在各种大型人工智能会议上亮相。而像 LatchBio 这样的初创公司正在为生物学家建立基础设施,以便轻松运行人工智能工作负载并进行数据分析。

即使在采矿等传统行业,新的初创公司也在努力前行,例如,利用人工智能寻找自然资源。Aurora Solar 正在用人工智能生成最佳太阳能屋顶安装实践方法。许多大型农业公司正在应用人工智能来提高作物产量,John Deere 已经成为自动化的领导者。

要进一步了解人工智能的新兴力量,演示比文字更有说服力。在下一节中,本文将通过一些有趣的产品的演示来展示 AI 生态系统中的快速进展。


3. 人工智能:案例


了解人工智能最好的方式是自己去探索。本节将介绍今年 AI 领域一些最令人兴奋的产品和例子,当然,每天都有新的案例出现,这只是一个初步的样本呈现。

图像生成模型 StableDiffusion

人工智能图像生成器,已经以极快的速度变得非常流行。其中使用最广泛的是 Dream Studio,这是一个基于 StableDiffusion 的 AI 图像生成器,产品在 30 天内达到了 100 多万独立用户,并且是完全开源的,无需要注册或付费。

下面是 Dream Studio 的生成的图像:

参考链接:https://www.loom.com/share/de6fcdf84b33424185f02658c7530cb8

Jasper.AI:文本自动生成器

下面这段话,Jasper.AI 可以将简短的短语或提示,写出出数百字的文本。下面这篇英文文章,「现在人工智能有什么大问题」,是 Jasper.AI 根据以下提示写的。

「写一篇关于人工智能的文章,以及它现在是如何有史以来第一次产生内容的。」

下文「为什么人工智能很重要?」这篇英文文章由 Jasper.AI 撰写

What’s the Big Deal with AI Right Now - Written by Jasper.AI

As anyone who's been keeping up with the latest tech news knows, AI is a big deal right now. But what exactly is AI, and why is it suddenly generating so much buzz?

To put it simply, AI is artificial intelligence. That means creating machines that can think and learn for themselves, rather than just following pre-programmed instructions. This is something that scientists have been working on for decades, but only recently have we started to see real progress.

One of the key reasons AI is generating so much interest right now is because of the sheer amount of data that's now available. With the advent of big data and powerful computer processors, we finally have the ability to store and analyze huge amounts of information. This is giving us insights into how the human brain works, and how we can create machines that mimic its workings.

Another reason AI is such a hot topic right now is because of the potential applications. While it's still early days, there are already many exciting possibilities for how AI could be used. For example, it could help us diagnose diseases earlier, or create more realistic virtual assistants.

So what's the big deal with AI right now? In short, it's a combination of exciting new technology and vast potential applications. We are only just beginning to scratch the surface of what AI can do, and the next few years are sure to be very exciting.

用 RunwayML 生成视频

基于人工智能的视频编辑器 RunwayML 已被用于编辑《The Late Show》、《Top Gear America》和《Everything Everywhere All at Once》等电视电影节目。近期,RunwayML 发布了一个生成性的人工智能模型,可以接受各类文本并从头开始生成新的视频。以下链接是它的运行情况:

参考链接:https://twitter.com/runwayml/status/1568220303808991232?s=20&t=SexDMxhkdZSaV8U9p5gl4w

用 GitHub Copilot 和 Repl.it 自动生成代码

今年早些时候,GitHub 推出了 Copilot,Copilot 是一个人工智能助手,可以帮助工程师更好、更快地编写代码。

Coatue 采访的一位 CEO 是这样形容的:

「我现在要求公司的每个工程师都使用 Copilot,Copilot 让每个人都更有效率,甚至比最好的工程师都能写出更好的代码。」根据 GitHub 的数据,已经有超过一百万的开发者使用 Copilot,现在用户使用该工具生成的代码超过了 40%。

以下链接是关于 Github Copilot 的演示:

参考链接:https://www.loom.com/share/79766038ff754612ab8310afc8395890

尽管 GitHub 的目标用户是专业开发者,但像 Repl.it 这样的公司正在努力将人工智能编程带给下一个 10 亿开发者:Repl.it 目前拥有超过 1000 万的注册用户,提供了一个集成的软件开发平台和代码社交网络。通过最近发布的 GhostwriterAI(一个人工智能变成助手)的测试版,Repl.it 的团队相信它可以极大地扩大互联网上的建设者和创造者的队伍。

将 AIGC 添加到 Adobe 套件中:

在 AIGC 方面进行创新的不仅仅是初创公司。在 Adobe 的 Analyst DAY 上,公司宣布将在 Photoshop、Lightroom 和创意套件的其他部分嵌入 AIGC 功能。

大科技公司适应这种新的颠覆性趋势的紧迫性和速度体现了它的力量。Canva 和微软都在进行类似的布局,Canva 在 9 月宣布它将在其产品套件中加入 StableDiffusion 技术,而微软也在应用 DALL-E。

以下是 Adobe 的公告的完整演示 DEMO:

https://www.loom.com/share/25281afd22e541d19abc6d78351b64f5

为 Excel、Salesforce 建立通用 AI 助手:

当今人工智能领域最大的主题之一是建立一个通用的 AI 助手,使每个人都更有效率。目前正在测试的一种方法是「Decision Transformers」,这种框架可以教机器学习模型如何做出实际决策,就像人类在日常工作中一样。

例如,用户可以教一个人工智能模型如何完成在 Salesforce 中记录数据、更新 Excel 文件或在 Figma 中对设计进行修改所需的步骤。

Adept.ai 是一家致力于解决上述问题的公司,他们在这里发布了许多关于其技术的

演示:adept.ai/act

地址:https://s3-us-west-2.amazonaws.com/secure.notion-static.com/c6e19c69-6067-4acd-bcdf-83ab6a2d05d7/Adept_AI_Excel_Demo.mp4

使用人工智能的 PowerPoint Deck

除了创建图像、视频和文本,AI 能够完成相对复杂的任务,例如从头开始生成一个 PowerPoint 演示文稿。8 月在 ProductHunt 上推出的 DeckRocks,提供了一个很好的案例。DeckRocks 从用户那里接受了一个快速的「tagline」,并制作了整个创业公司的宣传资料。

请看 DeckRocks 根据以下提示创建的宣传模板:

「A startup that creates music using AI. The idea is to replace Spotify over time. The user can remix different artists and create entirely new music.」

演示地址:

A pitch deck for: “A startup that creates music using AI. The idea is to replace Spotify over time. The user can remix different artists and create entirely new music.” Created using DeckRocks. Scroll to navigate.

语音识别与 Whisper

9 月,OpenAI 推出了一个名为 Whisper 的基于语音识别的模型。该模型可以对语音进行提取、转录和翻译。从历史上看,有一些非常专业的公司在做这件事(通常有人类在循环中检查准确性)例如,Nuance,一家为医生服务的转录公司,在今年 3 月被微软以 200 亿美元收购。

下面的例子展示了 Whisper 的示例:

( 演示链接:https://www.youtube.com/watch?v=nwPaRSlDSaY)

AlphaFold 算法的应用 (AlphaFold 来模拟蛋白质相互作用 )

很多优秀的 AI 研究人员现在都在关注 AI 在生命科学中的应用。谷歌在 2021 年发表了关于该主题的开创性论文,推出了 AlphaFold,一个基于基因组代码预测蛋白质结构的模型。下面的演示讲述了一项基因组学任务,通过使用人工智能模型来预测蛋白质的折叠,大大加快了这项任务。

使用 Latch Bio 的界面的 AlphaFold 演示:

Weights & Biases:人工智能的开发者平台

在上述许多应用程序的基础上,有一个先进的基础设施层,使 ML 从业者能够富有成效。

例如,现在有超过 20 万名机器学习工程师使用 Weights & Biases,以更快地建立更好的 ML 模型,使用该平台进行模型监测、微调等。

下面的例子概述了 ML 工程师如何协作跟踪实验,评估 ML 模型的性能,重现 ML 模型,并将其结果可视化。

https://www.youtube.com/watch?v=krWjJcW80_A

Hugging Face:正在建立机器学习领域的 Github

Hugging Face 正在建设「机器学习的 Github」。现在它已经成为分享 ML 模型、数据集以及运行 AI 产品和演示的广泛选择,Hugging Face 上最受欢迎的机器学习模型已经获得了超过 3000 万次下载,像 StableDiffusion 、OpenAI 的 Whisper 等模型都在 Hugging Face 平台上发布:https://www.loom.com/share/5c7d276c9c0943b7963de09ff78e0fbd


4. 科学的突破:到底是什么推动了人工智能的发展


在上一节主要是用案例来展示人工智能的力量,AI 现在可以写文本,生成图像,编辑视频,以及在更多场景得以实现。但是,在这些新技术的底层,到底有什么新的创造?这里我们要提到一个历时五年的科学突破:

Transfomer 的发明和深度学习的崛起

在 Transformer 模型诞生之前,各类主流 NLP 神经网络采用的是 Encoder-Decoder(编码器 - 解码器)框架。

深度学习的崛起

神经网络是推动深度学习的核心技术,神经网络最早的例子主要用来构建图像检测器。深度学习模型的一个简单例子是猫咪识别,具体指的是通过在猫咪照片的数据集上训练模型,可以教这个模型理解猫咪的基本特征:胡须、大小、眼睛颜色等。完成训练后,这个模型可以准确地预测一张新图片是否符合猫的特征。

与传统的机器学习不同的是,深度学习更多的是统计学和确定性的,深度学习的目的,是教模型基本原理,这个模型不会「记住」猫是什么,而是正在发展对使某物成为猫的组成部分的基本理解。

传统的机器学习方法是围绕着科学家将任务分解成不同的问题陈述或「特征集」,并开发模型来解决这些问题,这样的策略,在用于小型数据集和被完全理解的问题时非常有效。然而,当研究人员开始研究更多的开放式问题时,它就没那么好用了,例如,理解人类语言或运行自动驾驶汽车,这两个问题是深度学习运动需要解决的重大问题。

深度学习始于 20 世纪 80 年代 Yann LeCun 发明的卷积神经网络(CNN),Yann LeCun 现在是 Facebook 的首席人工智能科学家。然而,CNNs 从未发展起来,因为它们并不准确,而且从硬件角度来看,运行 CNNs 所需的计算水平目前还不具备。

深度学习的重大突破是 Transformer 模型的发明。2017 年在 Google Brain 的论文「Attention is All You Need」中首次提出,Transformer 至今仍然是深度学习的最先进技术。在过去的五年里,建立更强大、更完善的 Transformer 模型的竞赛一直在酝酿之中。目前,这些模型已经变得如此强大,以至于抓住了公众的眼球。最近,像 Diffusion Model 这样的替代架构也越来越受市场关注。

最初的 Transformer 论文和 Coatue 最近在人工智能领域看到的许多进展之间的有着直接的联系。OpenAI 的模型 GPT-3 和 DALL-E 都基于 Transformer 架构,例如承载着世界上最大的人工智能社区之一的 Hugging Face,以推出一个开源的人工智能模型开始了它的旅程。最早的 Transformer 论文的「参与者」已经开始创办一些最重要的新兴人工智能公司,如 Adept(Ashish Vaswani)、Character.ai(Noam Shazeer)、Inceptive(Jakob Uszkoreit)和 Inflection.ai(Mustafa Suleyman,DeepMind 的创始人)。

自然语言处理(NLP)和计算机视觉(CV)

在 Transformer 推出后,两个方向的进步协助推动了研究和投资的发展:

一是自然语言处理(NLP),二是计算机视觉(CV)。

首先,是 NLP(自然语言处理);

谷歌和 Meta(Facebook)在 NLP 领域带来了诸多进展,这些尝试使两家公司成为人工智能(AI)的领导者。谷歌在 2018 年发布了 BERT,在维基百科上进行了 Next Sentence prediction 的训练。Meta 在 2019 年发布了 RoBERTa,这是对最初的 BERT 研究的改进。Hugging Face 最终成为真正普及这类工具的公司,当时它发布了开源的 Transformer 库,其中包括 BERT 和 RoBERTa 模型的预训练版本。

深度学习的第二个重要用例是计算机视觉。

计算机视觉专注于理解视觉世界,特别是训练模型来检测物体:比如一辆车、一个人、一棵树,以及这些物体中的边缘、颜色等等。正如谷歌和 Meta 属于解决 NLP 问题的大拿,像特斯拉、Waymo、Nuro 和苹果等公司已经在 CV 研究上投入了超过 1000 亿美元,以解决自动驾驶汽车问题,这些公司认为这是人工智能领域最有利可图的机会之一。

随着人工智能的进步不断提高,所有这些领域都在融合。OpenAI 的 DALL-E 图像模型是建立在其 GPT-3 语言模型之上的。在未来,许多人工智能研究人员认为,基础的人工智能模型将是多模式的,这意味着相同的模型将被用于文本、图像、视频等等。这也是他们看到的通往人工通用智能(AGI:Artificial General Intelligence)的道路,其中一个领域的模型,可以复制甚至超越人类智能。

大模型的崛起 (The rise of big models)

深度学习的一大优势是,模型越大越好。自从 Transformer 发明以来,扩大这些模型的规模,已经成为研究和投资的关键领域。在过去三年里,人工智能模型的规模已经增长了 15500 倍以上。

按参数数量和发布日期划分的深度学习模型:

OpenAI 一直是推动模型扩展的最大力量之一。在从微软融资超过 10 亿美元之后,该公司发布了一系列名为 GPT 模型的语言模型。今年夏天,OpenAI 发布了图像生成模型 DALL-E。

GPT 和 DALL-E 一经发布,立即成为最先进的主导模型,现在已经成为业内模型复杂性不断增加的趋势的标杆。

如果「从更多的计算,就能意味着更好的结果」这一基本前提出发,那么可以预期,人工智能生态系统的发展会持续产生巨大的影响。重要的是,这就意味着与其让每家公司建立自己的 AI 模型,不如由少数具有成本结构优势和规模的主导供应商去主导这个市场。

这种认知已启动了一场新的人工智能军备竞赛:据 Pitchbook 报道,在 OpenAI 从微软融资 10 亿美元之后,其竞争对手 Cohere 以 10 亿美元的估值融资 1 亿美元。由(谷歌 DeepMind 的联合创始人:Mustafa Suleyman)创立的 Inflection.ai 融资超过 2 亿美元,由 OpenAI 自己的团队创立的 Anthropic 融资超过 5 亿美元。随着人工智能领域的升温,更多的进入者可能会跟进。

云计算供应商也认识到了这个巨大的机会。随着微软对 OpenAI 的全力投入,我们预计谷歌和亚马逊很快就会进入这个战场。鉴于人工智能工作负载的计算强度,随着时间的推移,它应该为云计算供应商带来巨大的收入,他们可能会将这一类别视为战略要务。

大模型趋势中的最大赢家可能是英伟达,英伟达的图形处理单元(GPU):特别是他们最先进的 A100 芯片,已经成为运行云端 AI 工作负载的实质标准,目前在这个生态系统中投入的大部分资金最终会使英伟达受益。

基石模型公司 (Foundational Models)

随着模型越来越大,人工智能领域正在出现一个新的类别,就是那些能够提供基石模型的公司。基石模型公司的愿景是提供其他公司可以利用的核心 AI 基础设施。通过这种方法,公司可以在现有的基础模型之上建立他们的应用程序,而不是每个公司都必须从头开始重新训练自己的模型。

这种模式极大地降低了构建新的人工智能应用的门槛,这也就解释了为什么能在 2022 年的夏天,我们能看到的应用层应用的涌现。

例如,Jasper 没有自己的人工智能模型。但是可以向 OpenAI 支付访问其 API 的费用。同样,GitHub Copilot 独立于底层的人工智能模型,也就是 OpenAI 的 Codex 模型;而 Canva 在 9 月宣布,它将在其平台上使用 Stable Diffusion 来驱动图像生成。

随着越来越多的终端产品使用人工智能进行设计,关于技术分布策略的争论将会升温。今天,我们看到人工智能未来的三种可能路线。

1. 可以供所有人使用的模型(Models for ALL)。每年,随着越来越多的学生选择专注于人工智能领域,人工智能领域学历的供给将持续上升。根据 LinkedIn 的数据,今天美国大约有 50 万名机器学习工程师。在未来几十年里,这个数字可能会增长 10 倍或 100 倍?我们预测,未来可能会有和软件工程师一样多的人工智能工程师,或者这两种工作将不会用明显的区别。在这个世界上,人工智能领域工程师将结合通用的 AI 工具,使用 Weights & Biases 和 Hugging Face 等平台,为雇主建立和部署模型。

2. 新的属于人工智能 FAANG(Facebook、Apple、Netflix、Alphabet 谷歌)巨头格局形成:如果基础模型成为未来部署人工智能的主要方式,那么一小撮新的公司可能会成为「人工智能领域的 FAANG」。这些新兴巨头可能会控制一个大模型,通过 API 将其授权出去。为了保持行业地位,每个基础的人工智能公司将花费数十亿美元进行模型训练。而在非人工智能公司内部,软件工程师将利用这些大模型进行自己的应用,可能会根据自己的应用需求对这些模型进行微调,但他们自己不会建立任何模型。

3.混合式(Hybird Approach)。关于人工智能生态系统如何发展的第三个假设是一种混合方法。在未来的愿景中,将存在免费使用和开源的基础的人工智能模型。随着这些模型的效率越来越高,训练成本越来越低,它们将变得商品化。使用这些商品模型,每个企业都可以训练自己的基础模型集:例如,迪士尼可以建立一个星球大战模型和一个漫威复仇者联盟模型。然后,他们需要在自己的专有数据集上投资模型训练和微调。

以我们目前在人工智能领域看到的迭代速度,这三种方法都有可能,也有可能出现更新的模式,未来是不确定的,但这也正是此时此刻,AI 如此引人注目的原因:

应用人工智能

基石模型(大模型,Foundation models) 的最大影响是人工智能的更广泛的应用。一旦这些模型被训练和部署,它们的力量就可以通过开源代码或 API 向公众提供。开发人员可以在这些模型的基础上构建应用程序:我们将这一趋势称为「应用人工智能」。

许多开发者和设计师正在应用人工智能,将其作为他们创意库中的新工具,并为消费者和企业打造令人难以置信的产品。鉴于这些模型已经存在了不到两年,而且只在近几个月内广泛使用,这一类别才刚刚开始。

应用人工智能的一个新兴属性是,新的开发者类别正在出现,称为 Prompt Engineer(这里我们翻译为提示工程师:是一种对于特定任务去精心构造的输入。)一个 Prompt Engineer 可以知道人工智能模型是如何工作的,可以用来提供智能提示,但不需要知道如何编程,这就为非技术专业人员获得人工智能的力量开辟了道路。

在 Stratechery 对 Github 前 CEO、著名的 AI 投资人 Nat Friedman 的采访中,他是这样说的:

「最近有位卡车司机,他取消订阅了 Netflix 剧集,现在他的爱好就是睡前做几个小时的 AI 图像,他完全被这个迷住了。客观上,自己做图像,要比看 Netflix 和播放节目更好;因为这是探索自己的想法和创造力的空间。因此,事实证明,有很多人有这种创造性的冲动,只是没有工具,没有手工技能来表达它和创造艺术,而像 Midjourney 或像 Stable Diffusion 这样的工具给了他们发挥创造力的空间。」

我们在上一部分展示的许多案例,都是应用人工智能工具,这些应用场景,跨越了从艺术创作到提高软件开发人员生产力的各种方面:

作为通用的框架,可以按照两个轴线来组织梳理 AI 的应用范围:

  1. 模式(Modality):模型作为输出产生的内容类型(如文本、图像、视频、代码等)
  2. 目的 (Purpose):模型为其用户实现的功能或「结果」
  3. 生成方向(Generative):代表用户创造内容(如艺术创作)
  4. 功能方向 (Functional):帮助简化或改善用户的工作流(例如,编程助手)
  5. 垂直方向 (Vertical):专门用于特定的行业用例(如蛋白质结构预测)

与许多框架一样,有一些应用会重叠或跨越以上界限,但我们发现,这种分类法有助于为人工智能这个领域和空间,带来新的结构:

最终会出现应用人工智能产品,超越上述框架,挑战新的前沿领域。在这一趋势中,新的创业思路的发展空间是非常广泛的,它将成为创业者和工程师们开办公司和设计新产品的成熟的土壤。我们很高兴看到接下来的各种变化和新的方向,因为尚有很多想法还没有被测试或探索。

MLOps :人工智能是如何建立的?

像所有的软件一样,人工智能从根本上说是由代码构成的。机器学习的开发人员需要工具来编写、测试、迭代、调试、部署和监控代码。随着人工智能变得越来越流行,一套新的工具正在出现,基于从业者新的能量。

像 Weights & Biases 这样的公司,使机器从业者能够获得更多的优势:为他们提供构建、监测和微调 ML 模型的工具。Hugging Face 提供了一个共享模型和数据集的协作平台,现在是有史以来最受欢迎的商业开源项目之一。

就像 Atlassian、Github 和 Gitlab 提高了开发人员的生产力,并扩大了可以构建软件应用程序的范围,我们相信 W&B 和 Hugging Face 将为机器学习带来同样的效果。

GPU 和人工智能硬件

随着人工智能研究支出的增加,硬件的创新及其有效使用(如 CUDA、AIT 等软件)肯定会成为叙事和赛道发展的重要组成部分。英伟达已经成为人工智能领域的核心硬件公司,几乎所有的大型人工智能模型都在英伟达的 GPU 上训练和运行。此外,大多数 AI 开发者已经熟悉英伟达的 CUDA 框架,这是一个并行计算平台,允许开发者通过使用 GPU 来加速应用程序。

谷歌通过 TPU 提出了一个替代方案,而亚马逊正通过其自己的芯片,如人工智能加速器 Inferentia,进入硬件领域。最值得关注的还有 Cerebras 领导的,它正在建造有史以来最大的计算机芯片,专门用于运行深度学习工作负载。

关于 GPU 和人工智能硬件,英伟达将继续保持主导地位,还是新进入者将占据大量市场份额?这是一个开放的问题,问题的答案将在未来几年内产生重大影响。

在现实世界中部署人工智能(挑战在哪?)

本文讲了很多关于人工智能模型的发展,但最大的未解决的问题之一是在真实生产环境中的部署。今天,从 Hugging Face 公司获得一个现成的 Transformer 模型或者使用最新的开源版本 Stability 是相当容易的。「从零到一 」比以往任何时候都容易,但从「一到大规模生产」仍然不简单。

将人工智能整合到公司的业务流程中仍然具有挑战性。例如,如何确保你的人工智能模型在生产中不被破坏?怎么能找到需要更多数据的边缘案例?因为人工智能不是决定性的,而且有许多潜在的用例,对每个场景进行「单元测试」以确保模型行为正常,并不容易。

为了让人工智能发挥潜应用的力,需要一个更广泛的生命周期方法来进行人工智能的操作和部署。将人工智能投入真实的生产环境,在生产中监测这些模型,然后通过收集更多的训练数据来改进发现错误的模型,这可能是人工智能的下一个重大创新领域之一,像 Gantry 这样的公司正专注于这个问题。

物理部署模型是一个额外的挑战。虽然许多早期的人工智能平台在云中进行预测,但这只适用于潜在应用的一个子集。许多最终用例将涉及在边缘部署模型,例如安全摄像机、可穿戴设备,甚至能源基础设施。像 Edge Impulse 这样的新创业公司专注于解决最后一英里的问题,将你的人工智能模型送到你需要的地方。像 OctoML 这样的其他公司正在研究编译器,为部署模型的终端进行优化。

未来几年,企业中从消费级演示到生产级机器学习的飞跃将是一项重要的工作。


5. 悬而未决的疑问:伦理、影响和未来


任何革命性的技术自然会对社会和社会应该如何运作,发起了新的拷问。这些问题不仅仅是专注技术的工程师的职权范围,也是政府、媒体、公民社会和其他利益相关者的需要关注的范围。

人工智能伦理是当今一个重要的热点话题,而且只会越来越热门。技术总是呈现出有意义的权衡,无论是对终端用户还是对整个社会,所以在这个话题上自然会有很多讨论和看法。

下面,我们将回顾今天引发讨论和对话的一些最重要的问题。

人工智能伦理:安全与自由

2022 年出现的最大辩论是安全与自由之间的矛盾。人工智能应该交给大众随心所欲地使用,还是为了安全而需要一个监管方?

像 OpenAI 这样的公司认为,必须有一个 gatekeeper 来保护社会免受人工智能的潜在不良影响,OpenAI 把自己的模型围起来,用户需要申请,才能使用,直到最近。OpenAI 被批评为有选择地确定访问权限,以及它的一些审查决定。OpenAI 认为,这些措施对于防止人工智能被滥用非常重要。

另一方面,像 Stability 这样的公司,把自己比作普罗米修斯给人类带来的火种。Stability 认为,虽然人工智能可能是危险的,但对社会来说,允许一个未经选举的 gatekeeper 控制谁可以使用该技术以及如何使用,更危险。Stability 认为,技术被滥用是不可避免的,政府的适当角色是规范使用,而不是限制使用。

对于人工智能领域的领军人物来说,AI 技术的伦理和社会影响是他们工作的驱动力。OpenAI 的明确自己的使命是为了人类而推进人工智能发展,OpenAI 的首席执行官,兼联合创始人 Sam Altman,提到过,AI 的社会影响也是驱动他前行的主要动力。Stablility AI 的创始人 Emad Mostaque 在开始使用人工智能技术研究自闭症时,开始对人工智能感到兴奋,他坚信人工智能将成为贫困国家教育儿童阅读和写作的关键。

当然,鉴于人工智能的优势和弊端,基于这些的讨论才刚刚开始。

为了领先于这些「和人类相关的伦理问题」,已经有人工智能公司正在雇用内部法律团队,开始思考道德层面的政策和考量。

HuggingFace 聘请了 Margaret Mitchell 作为其首席伦理科学家。哈佛大学的高级研究员 Joaquin Candela 领导了 Facebook 的「负责任的 AI 人工智能」。为人工智能建立一个强大的法律和监管框架对于长期应用人工智能至关重要,这需要公共和企业部门领袖之间的合作。

人工智能会抢走人类的工作吗?

在人工智能领域经常被问到的第二个「大问题」是「人工智能会夺走我的工作吗?」很长时间以来,人们相信人工智能会取代人类的手工劳动。

令人惊讶的是,第一个发展起来的人工智能应用,针对的是艺术等创造性工作,而不是像呼叫中心自动化这样更普通的任务。但这些应用案例也引发了争议,包括艺术家的反击,他们认为用人工智能生成艺术是「作弊」。

当涉及到知识工作时,我们希望人工智能成为一种补充技术,赋予现有工人权力,而不是完全取代他们的工作。例如,Gong 使用人工智能为销售代表提供超强支持。据该公司称,Gong 帮助销售代表节省了 20% 的时间,每个销售代表的收入增加了 27%。像 PhotoRoom 这样帮助电子商务商家快速编辑产品照片的公司,因为减少了繁琐的工作而获得了很多零售商的青睐。

对于制造业、建筑业和呼叫中心等行业来说,人工智能可能是应对人口老龄化挑战的一个重要解决方案。美国今天严重的劳动力短缺,因 COVID-19 而加剧,是人工智能可以帮助解决的另一个紧迫问题。正如英伟达 CEO 在 2018 年 Coatue 会议上指出的那样,人工智能的最大优势可能是将富裕世界的经济体从其人口命运中拯救出来。这种观点在今天很流行,因为美国在关键行业挣扎于劳动力短缺,这可能是支持人工智能兴奋度回升的又一个因素。

人工智能已经在成为广泛应用的助手型工具,这也可能是它在推动广泛共享的生产力改进方面的早期契机。如果 GitHub Copilot 通过编写 40% 的代码加速了软件工程师的工作,那么它能为其他人做什么?我们每天遇到的许多新的公司都在研究如何将这种模式应用于各种不同场景的工作,从安装太阳能板(Aurora Solar)到维护能源网(Weavegrid)

互联网并没有提高人类的生产力,那么,人工智能呢?

资料来源:《Tech productivity》,AI Next Unlock。

通用人工智能(AGI)

许多人工智能领域的领先公司,包括 OpenAI 和 InflectionAI,都把创造通用人工智能(AGI)作为自己的主要目标。对许多人来说,AGI 这个词唤起了对未来的科幻想象,即人工智能模型可以接近甚至超过人类智能。

虽然这是一个偏向未来主义的目标,但现实是,通用人工智能这个话题已经在普通大众中引起了很多困惑。因为许多人将人工智能与通用人工智能混为一谈,大家很难理解我们在过去五年中取得的进展,或者人工智能图像生成器如何融入更广泛的人工智能轨迹。

最有可能的是,随着我们进入人工智能的另一个喧嚣的周期,关于通用人工智能的讨论将再次增多。事实上,谷歌最近解雇了一名公开宣称其人工智能模型是有生命的员工(谷歌说它自己的人工智能模型没有生命)。

重要的是要认识到我们离真正的通用人工智能还很遥远。虽然我们取得的进展值得关注,而且人工智能现在可以理解人类的语言、图像和其他真实环境,这很棒,但在人工智能能够解决更复杂和可通用的任务之前,我们还有很长的路要走。

大家都觉得人工智能只是处于初期,未来还有更多的事情要发生,虽然我们目前可能高估了未来一到两年内的变化,但我们很可能低估了人工智能在未来二到三十年内的影响。


6.结论:接下来会发生什么?


我们向 StableDiffusion 提了一个问题,它是这么写的:

随着深度学习和基础模型的兴起,我们已经跨越了人工智能旅程中的另一道鸿沟。就在过去的几个月里,我们看到了人工智能应用的寒武纪爆炸,从它们在博客文章和艺术中的应用到电影等等。随着人工智能离开研究实验室,进入现实世界,更多的东西正在到来。未来几年,人工智能将改变众多垂直行业的许多业务。我们将看到好莱坞、农业,以及两者之间的一切变化。

人工智能的机会是巨大的。它有望实现实体经济的自动化,推动人类生产力的阶梯式提高。它还承诺了一个新的创造性的飞跃,人工智能艺术提供了一个探索人类经验本身的新途径。还有这么多工作要做。我们正处于人工智能革命的第一波。规模化运行的机器学习、个性化的模型、多元宇宙 -- 还有很多事情要做。最聪明的人正在引领潮流,他们建立的新公司将定义未来十年及以后的发展。

本文链接:https://www.8btc.com/article/6787338
转载请注明文章出处

评论
登录 账号发表你的看法,还没有账号?立即免费 注册
下载
分享
收藏
阅读
评论
点赞
上一篇
下一篇