颠倒乾坤之南朝崛起开源倡议组织(OSI)是一个存续已久的机构,旨在定义并“管理”所有开源相关事物,今天发布了其开源人工智能定义(OSAID)的 1.0 版本。这是与学术界和工业界合作数年的成果,OSAID 旨在提供一个标准,任何人都能据此判定人工智能是否属于开源——或者不属于。
您可能会像这位记者一样心生疑惑——为何对于开源人工智能的定义达成共识如此重要。嗯,OSI 执行副总裁斯特凡诺·马富利(Stefano Maffulli)说,一个很大的动机是让政策制定者和人工智能开发者达成一致。
“监管机构已经在关注这一领域,”马富利告诉 TechCrunch,并指出诸如欧盟委员会之类的机构已经谋求对开源予以特别认可。“我们明确地向各种各样的利益相关者和社区进行了宣传——不仅仅是科技领域的常见参与者。我们甚至试图联系那些最常与监管机构交流的组织,以获得他们的早期反馈。”
依据 OSAID,若要被视作开源的人工智能模型,就必须提供有关其设计的充足信息,以便一个人能够“实质性地”重新创建它。该模型还必须披露有关其训练数据的任何相关细节,包括来源、数据如何处理以及如何获取或获得许可。
“开源人工智能是一种让您能够完全了解它是如何构建的人工智能模型,”马富利说。“这意味着您可以访问所有组件,例如用于训练和数据过滤的完整代码。”
OSAID 还阐明了开发人员对于开源人工智能应享有的使用权利,例如可以出于任何目的使用该模型,并在无需任何人许可的情况下对其进行修改。“最重要的是,您应该能够在此基础上进行构建,”马富利补充道。
OSI 没有任何可提及的执行机制。它无法迫使开发人员遵守或遵循 OSAID。但它确实有意标记那些被称作“开源”但实则不符合定义的模型。
“我们期望当有人企图滥用这个术语时,人工智能社区能表示:‘我们不认为这属于开源。’随后使其得到纠正,”马富利说。从历史上看,这产生了好坏参半的结果,但并非完全没有效果。
许多初创公司和大型科技公司,其中最为突出的是 Meta,均使用“开源”一词来描绘其人工智能模型的发布策略——但很少有符合 OSAID 标准的。例如,Meta 要求月活跃用户超过 7 亿的平台申请特殊许可证才能使用其Llama模型。
马富利一直公开指责 Meta 将其模型称作“开源”的这一决定。他说,在与 OSI 讨论后,谷歌和微软同意不再对不完全开放的模型使用该术语,但 Meta 没有。
长期将其模型宣传为“开放”的 Stability AI ,要求营收超过 100 万美元的企业获取企业许可证。
而法国人工智能新起之秀 Mistral 的许可证禁止某些模型和输出在商业企业中使用。
去年 8 月,Signal 基金会、非营利的 AI Now 研究所以及卡内基梅隆大学的研究人员所进行的一项研究发现,许多“开源”模型基本上只是徒有开源之名。
训练模型所需要的数据是保密的,运行它们所需要的计算能力超出了许多开发者的能力范畴,微调它们的技术复杂得让人望而却步。
该研究的作者得出结论:这些“开源”项目不仅没有让人工智能民主化,反而倾向于巩固和扩大集中权力。
事实上,Meta 的 Lllama 模型已经获得了数亿次的下载量,Stability 声称其模型为所有人工智能生成的图像中的 80%提供了支撑。
不出所料,Meta 不同意这一评估,并且对所写的 OSAID 提出了异议(尽管参与了起草过程)。
一位发言人为公司的 Llama 许可证进行辩护,称这些条款——以及随之而来的可接受使用政策——起到了防止有害部署的防护栏作用。
Meta 还表示,随着像加利福尼亚州的培训透明度法这类法规的发展,它在分享模型细节(包括培训数据的细节)方面采取了“谨慎的办法”。
“我们在许多事情上与我们的合作伙伴 OSI 意见一致,但我们和整个行业的其他人一样,不同意他们的新定义,”这位发言人说。“没有单一的开源人工智能定义,定义它是一个挑战,因为以前的开源定义没有涵盖当今快速发展的人工智能模型的复杂性。我们将 Llama 免费公开提供,我们的许可证和可接受使用政策通过设置一些限制来保障人们的安全。无论技术定义如何,我们将继续与 OSI 和其他行业团体合作,以负责任的方式使人工智能更易获取和免费。”
这位发言人指出了其他为“开源”人工智能进行规范制定的努力,例如 Linux 基金会建议的定义、自由软件基金会对于“免费机器学习应用程序”的标准以及其他人工智能研究人员的提议。
颇为矛盾的是,Meta 是资助 OSI 工作的公司之一——与亚马逊、谷歌、微软、思科、英特尔和 Salesforce 等科技巨头一起。(OSI 最近从非营利的 Sloan 基金会获得了一笔赠款,以减少对科技行业支持者的依赖。)
Meta 不愿透露训练数据,这可能与其以及大多数人工智能模型的开发方式有关。
人工智能公司从社交媒体和网站上抓取大量的图像、音频、视频等,并在这些通常被称为“公开可用数据”上训练他们的模型。在当今竞争激烈的市场中,一家公司收集和提炼数据集的方法被视为一种竞争优势,公司将此作为不披露的主要原因之一。
艺术家们已经提起诉讼,指责 Stability 抓取他们的作品并且在未署名的状况下进行复制,他们把这种行为视作盗窃。
不难发现,OSAID 对于那些试图顺利解决诉讼的公司而言可能存在问题,特别是当原告和法官觉得这个定义足够有说服力并在法庭上加以运用的时候。
要是您非得支付数千美元才能够检查模型创建者付费许可的私人图像存储,这还能算“开放”吗?
“要具备实际价值,特别是对于企业来讲,任何开源人工智能的定义都需要合理保障所许可的能够按照组织使用的方式获得许可,”安蒂加对 TechCrunch 说道。
由于忽略了训练数据的许可问题,OSI 留下了一个很大的漏洞,这会让条款在判定 OSI 许可的人工智能模型能否在实际情形中被采用时的效果大打折扣。
在 OSAID 的 1.0 版本里,OSI 同样没有解决跟人工智能模型有关的版权问题,还有授予版权许可是否足以保证模型符合开源定义。
但倘若法院判定可行,OSI 提议或许需要新的“法律手段”来恰当地让受知识产权保护的模型实现开源。
马弗利同意该定义需要更新——也许尽早为好。为此,OSI(开放源代码促进会)已经成立了一个委员会,负责监测 OSAID(某种特定的标识符,具体名称需根据上下文确定)的应用情况,并为未来版本提出修订建议。
“这不是地下室里孤独天才的工作,”他说。“这是在公开场合与广泛的利益相关者和不同的利益集团一起完成的工作。”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
最“抠门”爸爸给女儿取名,姓+名一共3笔,连老师都惊叹:没有一笔是弯的!!!
星辰大海你的体育老师是冠军是一种怎样的体验?来,看看四川天府新区教师共享中心的宝藏老师和课程
数字化赋能整本书阅读!中国教师报课改中国行(广州海珠)公益师训会来啦!
荣耀 Magic7 Pro 专业影像套装公布:提供补光灯、遮光罩、滤镜
荣耀CEO赵明:今年没有手机颜值能超过Magic7 包括华为Mate 70、小米15
史无前例!14小时!狂抢1064轮,三亚诞生新地王,楼面价21191元/㎡
|