近日,哈佛大学携手谷歌在AI领域迈出了重要一步,他们宣布将联合发布一个规模庞大的数据集,包含约100万本公共领域的书籍。这一举措旨在为AI训练提供丰富且合法的数据源。
据悉,AI训练所需的数据成本高昂,往往让资金有限的机构望而却步。然而,哈佛大学此次推出的数据集,将覆盖多种类型、语言和作者的作品,其中包括许多经典作家的名著,如狄更斯、但丁和莎士比亚等人的作品。这些作品的版权已随时间流逝而过期,因此可以被自由使用。

值得注意的是,早在今年3月,哈佛大学就已透露了其“机构数据计划(IDI)”,旨在构建一个合法且可信的数据通道,以支持AI的发展。该计划直到正式启动后,才确认了微软和OpenAI的资金支持。
作为IDI的执行董事,格雷格·莱佩特表示,这一数据集的目标是让AI领域的竞争环境更加公平。通过向研究机构、AI初创公司等各类机构开放这一庞大的数据集,他们将有更多机会训练出大型语言模型,从而推动AI技术的进一步发展。
浪潮KaiwuDB V3.0发布
在物联网技术迅猛发展的当下,数据呈现出爆炸式增长态势,数据类型日益丰富多样,应用场景不仅复杂多变且更新迭代迅速。在此背景下,一款真正优秀的数据库需具备强大的适应能力与持续进化能力,从架构设计到性能优化全方位提升,以契合物联网时代的数据管理需求。
2025-11-13
中国互联网5G用户超11亿
在2025年世界互联网大会乌镇峰会上,由中国网络空间研究院主导编撰的《中国互联网发展报告2025》与《世界互联网发展报告2025》蓝皮书正式对外发布。这两份报告系统梳理了全球及中国互联网发展的最新态势,为行业提供了权威数据与趋势分析。
2025-11-10
掌握这些技能,IT桌面外包人员高效服务客户的秘诀在此
在安装过程中,要根据客户的硬件配置和使用需求,选择合适的操作系统版本,并进行正确的分区、格式化等操作。在安装过程中,要确保软件与操作系统兼容,并进行正确的配置。 综上所述,IT桌面外包需要掌握硬件知识与维护、…
2025-11-08