虎嗅晚报-国家统计局发布6月份分年龄组失业率;特朗普称若当选不再...
2024年7月17日 - 虎嗅网
这些公司使用了一个由第三方提供的数据集,其中包含从YouTube上抓取的大量视频字幕文本,违反了YouTube禁止从平台上未经许可抓取内容的规定。报道指出,这些科技公司在训练AI模型时都使用了一个名为“YouTubeSubtitles(YouTube字幕)”的数据集,大小为5.7GB,包含4.89亿个单词,来自Youtube上超过4.8万个频道中的17.35万个...
详情
这些公司使用了一个由第三方提供的数据集,其中包含从YouTube上抓取的大量视频字幕文本,违反了YouTube禁止从平台上未经许可抓取内容的规定。报道指出,这些科技公司在训练AI模型时都使用了一个名为“YouTubeSubtitles(YouTube字幕)”的数据集,大小为5.7GB,包含4.89亿个单词,来自Youtube上超过4.8万个频道中的17.35万个...