哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI 训练提供合法数据

xxn 阅读:56042 2024-12-13 10:02:17 评论:0

近日消息显示,哈佛大学与谷歌宣布联合推出了一项引人注目的计划,即发布100万本公共领域书籍,以供人工智能(AI)训练数据集使用。

要进行AI训练,需要大量数据支持,这对于那些财力雄厚的科技公司来说并非易事。出于这一考虑,哈佛大学计划发布一个庞大的数据集,其中包含大约100万本公共领域的书籍,这些作品涵盖了各种类型、语言和作家,包括那些已经不再受版权保护的经典作家,比如狄更斯、但丁和莎士比亚等,因为这些作品的版权已经随着时间的推移而过期。

图源 Pexels

尽管这个新数据集尚未正式发布,具体的发布方式和时间尚不明确,但它源自于谷歌的长期项目——谷歌图书(Google Books)。因此,谷歌将积极参与这一宝贵资源的广泛发布。

根据IT之家的了解,早在今年3月,哈佛大学就曾经透露过其“机构数据计划(IDI)”,旨在为AI提供“合法数据的可信通道”。直到正式启动后,该计划才确信得到微软和OpenAI的资金支持。

该计划的执行董事Greg Leppert表示,该数据集的目标是“实现公平的竞争环境”,通过向研究机构和AI初创公司等各种机构开放这一巨大的数据集,为他们训练大型语言模型提供帮助。

广告声明:文中包含的对外链接仅供参考,点击可获取更多信息。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容