为应对AI开发者对维基百科内容的抓取行为,维基媒体基金会推出了一项新的举措。该机构宣布与Kaggle合作,发布了一个专为机器学习优化的结构化数据集,涵盖英文及法文维基百科内容。这一数据集旨在通过提供易于机器读取的文章信息,简化AI模型训练流程。
据4月15日数据显示,该测试版数据集包含研究摘要、简短描述、图片链接、信息框数据及文章章节等内容,并采用开放许可协议以促进学术与技术创新。维基媒体希望通过此举减少开发者对原始页面的爬虫抓取行为,同时为AI开发提供可靠的数据源。
值得注意的是,这一举措体现了维基媒体在保护知识资源的同时,也在积极探索与技术社区的合作模式,以应对未来的挑战。