谷歌、OpenAI训练AI偏爱新闻内容，媒体版权问题引关注-科技业界-发现者网

近日，Ziff Davis公司公布了一项新研究，揭示了谷歌、OpenAI及meta等AI行业领军企业在训练大型语言模型时，对知名新闻源内容的高度依赖。

该研究深入探讨了AI训练数据集的构成，发现这些数据集主要由新闻和媒体网站的高质量内容组成。这表明，在人工智能技术的发展过程中，主流AI企业已将新闻内容视为训练模型的关键要素。

据悉，Ziff Davis的首席AI律师George Wukoson和技术官Joey Fortuna主导了这项研究。他们详细检查了多个AI公司公开承认使用的数据集，包括Common Crawl、C4、OpenWebText及OpenWebText2。

这一发现不仅揭示了新闻媒体内容在AI训练中的核心价值，同时也引发了关于内容版权和付费问题的讨论。Ziff Davis指出，新闻媒体内容被AI公司无偿使用，这可能导致出版商失去重要的许可收入。

此前，已有出版商对OpenAI提起诉讼，称其未经许可使用内容训练模型。尽管一联邦法官驳回了Raw Story和AlterNet对OpenAI的诉讼，但《纽约时报》提起的相关案件仍在审理当中。同时，OpenAI也已与多家顶级媒体公司达成了许可协议。