...新基准,清华发布移动音源仿真平台SonicSim,含950+小时训练数据

2024年10月31日 - 36氪

训练集包含62个场景,验证集19个场景,测试集9个场景。2.大规模:SonicSet整合了来自LibriSpeech数据集的360小时语音音频,结合来自FSD50K的环境噪声和FMA数据集的音乐噪声,提供了丰富多样的音频素材。3.高质量:通过模拟不同材料的声音反射和衍射,SonicSet生成的合成音频的房间冲激响应更接近真实环境,从而产生更高质...

详情

北大对齐团队独家解读:OpenAI o1「后训练」时代强化学习新范式

2024年9月16日 - 百家号

AlphaGo是强化学习在围棋领域中的一大成功，成功击败了当时的世界冠军。早在去年，Deepmind的CEODemisHassabis便强调用TreeSearch来增强模型的推理能力。根据相关人士推测，o1的模型训练数据截止到去年十月份，而有关Q*的爆料大约是去年11月，这似乎展示o1的训练中也用到了TreeSearch的技巧。...

详情

利用未标记数据的半监督学习在模型训练中的效果评估

2024年9月15日 - 网易

自训练(Self-training):首先在标记数据上训练分类器,用于预测未标记数据的标签。在后续迭代中,另一个分类器在标记数据和高置信度的未标记数据预测结果上进行训练。此过程重复进行,直到没有新的高置信度标签被预测或达到最大迭代次数。标签传播(LabelPropagation):构建一个图结构,其中节点表示数据点,边表示它们之间...

详情

一块显卡理解一部完整电影!智源联合多所高校推出小时级的超长视频...

2024年10月28日 - 腾讯新闻

在预训练阶段,Video-XL使用Laion-2M数据集优化视觉语言连接器。在微调阶段,Video-XL充分利用了MLLM在各种多模态数据集上的能力。对于单图像数据,使用了Bunny695k和Sharegpt-4o的57k张图片。对于多图像数据,使用了从MMDU提取的5k个数据。对于视频数据,收集了不同时长的视频样本,包括来自NExT-QA的32k样本,Share...

详情

70B大模型训练秘方 :数据集创建与评估

2024年8月28日 - 腾讯新闻

01Imbue预训练了一个70B参数的模型,并在多选推理基准上进行了微调,微调模型超越了GPT-4ozero-shot表现。02该团队发布了用于模型评估的数据集,包括11个公共数据集的高质量子集,以及一套用于代码理解的原始问题。03他们发现,当仅在高质量、无歧义的问题上进行评估时,开源和闭源模型在某些数据集上的准确率几乎达到...

详情

马斯克:将开放 Grok;OpenAI 将建立「安全」的 AI 训练数据集;传...

2023年11月11日 - 极客公园

OpenAI希望与机构合作建立新的AI训练数据集OpenAI今天宣布了「数据伙伴关系」(DataPartnerships)计划,该计划旨在与第三方机构合作,建立用于人工智能模型训练的公共和私有数据集(www.e993.com)2024年11月4日。OpenAI在一篇博文中表示,数据合作伙伴关系旨在「让更多组织能够帮助引导人工智能的未来」,并「从更有用的模型中获益」。

详情

北大最新多模态大模型开源:混合数据集训练,图像视频任务直接用

2023年11月29日 - 网易

第一,因为独特的建模方法,Chat-UniVi的训练数据集可以是图片与视频的混合版,并且无需任何修改,就可以直接应用在图片和视频任务上。第二,多尺度表征能帮助Chat-UniVi对图片和视频进行更到位、更全面的理解。这也导致了Chat-UniVi的任务适应性更强,包括使用高层次特征进行语义理解,以及利用低层次特征生成详细描述。

详情

一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针...

2024年10月28日 - 站长之家

模型训练数据在预训练阶段,Video-XL使用Laion-2M数据集优化视觉语言连接器。在微调阶段,Video-XL充分利用了MLLM在各种多模态数据集上的能力。对于单图像数据,使用了Bunny695k和Sharegpt-4o的57k张图片。对于多图像数据,使用了从MMDU提取的5k个数据。对于视频数据,收集了不同时长的视频样本,包括来自NExT-QA的32k...

详情

GPT-4o的中文词元训练数据被发现受到垃圾信息和色情内容的污染

2024年5月18日 - 网易

问题在于,有时标记符号生成器和实际的LLM是在不同的数据集上训练的,而标记符号生成器数据集上的流行词在LLM数据集上由于某种原因并不存在。其结果是,虽然标记符号生成器能识别出它经常看到的某些词,但模型却没有对它们进行充分的训练,因此无法完全理解这些"训练不足"的标记符号的含义。在_SolidGoldMagikarp...

详情

曾真|论大模型预训练数据的信息披露

2024年2月20日 - 澎湃新闻

以行为论,未经授权或者破坏性的抓取,当然可以认定违法;但若以结果论,由于“数据集是支撑整个大数据产业、人工智能的基础”,考虑到技术发展带来的整体社会效益远大于数据持有者承受的不利益,可能就要否定为模型训练而抓取数据的违法性。由此,在竞争利益和公共利益之间应当如何权衡,将完全取决于行政或者司法部门的决断,缺少...

详情

查看更多

UCI数据集是什么意思
二分类数据集是什么意思
公开数据集是什么意思
gse数据集是什么意思
coco数据集是什么意思
数据集标注是什么意思
可见数据集最大数量是什么意思
数据集未物化是什么意思
MNIST数据集是什么意思
数据集打开错误是什么意思