返回首页  设为首页  加入收藏  今天是:
网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人
相关文章
 人工智能数据争夺战拉开序幕…
 ChatGPT:介绍未来世界中使用…
 行业研究报告网2022年06月29…
 盘前必读:发改委6月第2周全…
 盛大电子书
 智能生成目录 万兴PDF全新功…
 2023年ChatGPT人工智能与AIG…
 2023年欧式家具十大品牌排行…
 全球家具品牌排行榜前十名 受…
 十大现代时尚家具品牌:那里…
 床垫十大名牌排行榜公布梦洁…
 2016年十大实力家具品牌排行
 6大品牌18款机型 500-5000元…
 五百元左右的手机你最喜欢哪…
 500元老年机市场华米OV勿近
 便宜又好用6款500左右的智能…
 500元左右的手机哪个好 2017…
 HUAWEI WATCH四大功能揭秘 为…
 华为手表功能介绍大全
 智能监测手表有哪些功能
 华为张炜:未来人人可拥有一…
 2022智能手表市场规模分析 智…
 哈尔滨外来务工人员申请保障…
 微信应用号怎么申请 微信公众…
 微信订阅号如何申请?微信订…
 25日起哈市主城6区符合条件家…
 申请公众号流程及注意事项
 颀中科技:上半年营业收入68…
 颀中科技上半年营收689亿元 …
 颀中科技2023年半年度董事会…
 电视盒子哪款好?2023年8月电…
 智能家居的未来之选:探索OL…
 1000km续航智几汽车在蔚来的…
 智己汽车首次亮相贵阳
 一个大家都可能没听说过的牌…
 智己汽车首发品牌“IM智己”
 上汽发布智几汽车国资车企集…
 国内首款女机器人上线功能齐…
 日本女机器人诞生外形逼真网…
 “女性机器人”走红一上市就…
 “日本”女性机器人诞生外形…
 日本女性机器人火了内部结构…
 西岸社区app
 法头条app
 央视慢直播安卓版下载
 PecUliUm官网
 SwissBorg官网
 大数据产业发展
 2021年中国大数据产业市场现…
 利用大数据提升宏观经济治理…
专题栏目
网络
您现在的位置: 智能制造网 >> 人工智能 >> 正文
高级搜索
人工智能数据争夺战拉开序幕版权官司激增OpenAI等都成了被告
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/8/27 14:25:02 | 【字体:

  怪物猎人ol答题最新崛起的生成式人工智能热潮需要超大模型的支持,而大模型又需要接受海量数据的训练,因此数据变得越来越宝贵。

  研究人员认为,对数据的需求将会急剧增加,可用于训练大模型的高质量文本数据或会在2026年耗尽。一场数据争夺战正在拉开序幕。

  在美国,已经有许多针对模型构建者发起的侵犯版权案件,OpenAI、Stability AI、Midjourney以及Meta都成了被告。

  人工智能公司正在开拓新的数据源,包括与其他公司签署数据版权协议,通过用户与他们工具的互动来收集数据,并在尝试利用企业客户内部的数据。

  就在不久前,分析师们还公开猜测,人工智能(AI)是否会导致面向创意人士的软件开发商Adobe衰落。像Dall-E 2和MidTrik这样的新工具,可以根据提示文本生成相应的图片,它们似乎让Adobe的图像编辑功能变得多余。就在今年4月,金融新闻网站Seeking Alpha还发表了题为《人工智能会是Adobe杀手吗?》的文章。

  但在现实中,事实距离分析师们的假设尚远。Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件,名为Firefly。该公司高管达纳·拉奥(Dana Rao)表示,自3月份发布以来,Firefly已被用于创建超过10亿张图像。通过避免像竞争对手那样在互联网上挖掘图像,Adobe避开了目前困扰着整个行业的、日益加深的版权纠纷。自Firefly推出以来,Adobe股价已经上涨了36%。

  Adobe干翻所谓“末日杀手”的胜利表明,在快速发展的人工智能工具市场上争夺主导地位具有更广泛的意义。为最新一波所谓的“生成式人工智能”提供动力的超大模型依赖于海量的数据。此前,模型构建者多数时候从互联网抓取数据(通常是未经许可的)。现在,他们正在寻找新的数据来源来维持这种疯狂的训练模式。与此同时,拥有大量新式数据的公司正在权衡如何最好地从中获利。一场数据争夺战正在拉开序幕。

  人工智能模型的两个基本要素就是数据集和处理能力,系统在数据集上接受训练,模型通过处理能力检测这些数据集内外部之间的关系。在某种程度上,这两大基本要素可以相互替代:一个模型可以通过吸收更多数据或增加更多处理能力加以改进。然而,在专业人工智能芯片短缺的情况下,后者正变得越来越困难,这导致模型构建者加倍专注于寻找数据。

  研究机构Epoch AI认为,对数据的需求将会急剧增加,以至于可用于训练的高质量文本可能会在2026年耗尽。据悉,谷歌和Meta这两家科技巨头的最新人工智能模型已经接受了超过1万亿个单词的训练。相比之下,在线百科全书Wikipedia上的英语单词总数约为40亿个。

  重要的不仅仅是数据集的大小。数据越好,利用其进行训练的模型表现也会越好。数据初创公司Scale AI的拉塞尔·卡普兰(Russell Kaplan)指出,基于文本的模型的理想训练对象是篇幅够长、文笔良好、事实准确的作品。输入这些信息的模型更有可能产生类似的高质量输出。

  同样,当被要求一步一步地解释它们的工作时,人工智能聊天机器人会给出更好的答案,这也增加了对教科书等资源的需求。专用的信息集也变得更有价值,因为它们允许对模型进行“微调”,以适应更小众的应用。微软在2018年以75亿美元收购了软件代码存储库GitHub,并利用其开发了一种编写代码的人工智能工具。

  随着对数据需求的增长,获取数据缺变得越来越棘手,内容创作者现在要求对被人工智能模型吸收的材料给与补偿。在美国,已经有许多针对模型构建者发起的侵犯版权案件。包括喜剧演员莎拉·西尔弗曼(Sarah Silverman)在内的一群作家,正在起诉人工智能聊天机器人ChatGPT开发商OpenAI和Facebook母公司Meta。此外,一群艺术家也同样起诉了Stability AI和Midjourney,这两家公司致力于开发文本转图像的工具。

  所有这一切导致的结果是,随着人工智能公司竞相获取数据源,出现了一连串的交易。今年7月,OpenAI与美联社签署了一项协议,以获取该机构的新闻档案。最近,该公司还扩大了与图片库提供商Shutterstock的协议,Meta也与后者达成了协议。

  8月初有报道称,谷歌正在与唱片公司环球音乐(Universal Music)进行谈判,希望后者授权艺术家的声音以用于帮助开发歌曲创作人工智能工具。资产管理公司富达(Fidelity)表示,许多科技公司曾与该公司接洽,要求获取其财务数据。有传言称,人工智能实验室正在接洽英国公共广播公司(BBC),以获取其图像和电影档案。另一个受关注的目标是JSTOR,这是一个学术期刊的数字图书馆。

  这些信息持有者正在利用他们更大的议价能力。论坛Reddit和备受程序员欢迎的问答网站Stack Overflow都提高了访问其数据的成本。这两个网站都特别有价值,因为用户会给喜欢的答案“点赞”,帮助模型知道哪些是最相关的内容。社交媒体网站X(前身为推特)已经采取措施,限制机器人抓取该网站信息的能力,现在任何想要访问其数据的人都要付费。X老板埃隆·马斯克(Elon Musk)正计划利用这些数据建立自己的人工智能业务。

  因此,模型构建者正在努力提高他们已经拥有的数据的质量。许多人工智能实验室雇佣大量的数据注释者来执行标记图像和评级答案等任务。其中一些工作很复杂,甚至需要招聘拥有生命科学专业的硕士或博士求职者。但其中大部分工作都很普通,而且正在外包给肯尼亚等国的廉价劳动力。

  人工智能公司也通过用户与他们工具的互动来收集数据。其中,许多工具都有某种形式的反馈机制,由用户指出哪些输出是有用的。Firefly的文本转图像生成器允许用户从四个选项中做出选择。谷歌的聊天机器人巴德(Bard)同样提供了三个答案。

  当ChatGPT回复查询时,用户可以给它竖起大拇指点赞。这些信息可以作为输入反馈到底层模型中,形成创业公司Contextual AI联合创始人杜威·基拉(Douwe Kiela)所说的“数据飞轮”。他补充说,衡量聊天机器人回答质量的一个更强的信号是,用户是否复制文本并将其粘贴到其他地方。分析这些信息有助于谷歌迅速改进其翻译工具。

  然而,有一个数据来源在很大程度上仍未被开发,即存在于科技公司企业客户内部的信息。许多企业往往在不知不觉中拥有大量有用的数据,从呼叫中心记录到客户支出记录等。这些信息特别有价值,因为它可以帮助微调特定商业目的模型,比如帮助呼叫中心的工作人员回答客户的问题,或者帮助业务分析师找到提振销售的方法。

  然而,利用这种丰富的资源并不容易。咨询公司贝恩的分析师罗伊·辛格(Roy Singh)指出,从历史上看,大多数公司很少关注那些将被证明对训练人工智能工具最有用的庞大但非结构化的数据集。这些数据通常分布在多个系统中,隐藏在公司服务器中,而不是在云端。

  解锁这些信息将有助于企业定制人工智能工具,以更好地满足他们的特定需求。亚马逊和微软这两家科技巨头现在都提供工具,以帮助其他企业更好地管理非结构化数据集,谷歌也是如此。数据库公司Snowflake的克里斯蒂安·克莱纳曼(Christian Kleinerman)说,随着客户希望“打破数据孤岛”,该领域正在蓬勃发展。

  初创公司也正在蜂拥至这个新领域。今年4月,专注于人工智能的数据库公司Weaviate融资5000万美元,估值达到2亿美元。仅仅一周后,其竞争对手PineCone就以7.5亿美元的估值筹集了1亿美元资金。本月早些时候,另一家数据库初创公司Neon也获得了4600万美元的融资。显然,对数据的争夺才刚刚开始。(文/金鹿)

人工智能录入:admin    责任编辑:admin 
  • 上一个人工智能:

  • 下一个人工智能: 没有了
  •  
     栏目文章
    普通人工智能 人工智能数据争夺战拉开序幕版权官司激增Open… (08-27)
    普通人工智能 ChatGPT:介绍未来世界中使用的最新人工智能技… (08-27)
    普通人工智能 西岸社区app (08-27)
    普通人工智能 法头条app (08-27)
    普通人工智能 央视慢直播安卓版下载 (08-27)
    普通人工智能 PecUliUm官网 (08-27)
    普通人工智能 SwissBorg官网 (08-27)
    普通人工智能 当人工智能越来越强 人类未来该何去何从 (08-26)
    普通人工智能 AI立法进行时⑦:游戏产业是人工智能最好的练… (08-26)
    普通人工智能 AI概念股走强人工智能ETF涨1% (08-26)
    普通人工智能 智能的本质与强人工智能的实现(1):序篇 (08-26)
    普通人工智能 强观察|人工智能赛道“发令枪”已响各地有哪… (08-26)
    普通人工智能 限时概率UP!《梦幻新诛仙》珍稀魅灵羽灵降世 (08-26)
    普通人工智能 诛仙剑苍穹官网在哪下载 最新官方下载安装地址 (08-26)
    普通人工智能 梦幻新诛仙69服装备打造太爽了!超高属性双特… (08-26)
    普通人工智能 诛仙七夕壁纸曝光官方明确张小凡陆雪琪是一对… (08-26)
    普通人工智能 00后大学生将人工智能技术带进贵州山区25万只… (08-26)
    普通人工智能 今天给大家聊一聊AI换脸 (08-25)
    普通人工智能 可怕!AI人工智能“换脸”让你防不胜防有人10分… (08-25)
    普通人工智能 AI换脸技术已经成为了一种新型骗局 (08-25)