全国首个!北数所发放3D具身智能数据集登记证书
天娱数科3D具身智能数据集包含了丰富的三维场景信息、物体的物理属性及与环境的交互细节,对训练能处理复杂任务的具身智能大模型至关重要,通过提供大规模和多样化的数据,不仅增强了机器人在多样化环境和任务中的适应性和决策智能,也为实现更高级别的自动化和智能化,实现空间智能提供了数据支撑。天娱数科首席数据官吴邦毅...
智源研究院发布中文互联网语料库CCI3.0 包含1000GB数据集
智源研究院发布中文互联网语料库CCI3.0包含1000GB数据集在2024北京文化论坛上,北京智源人工智能研究院(BAAI)宣布正式发布新一代中文互联网语料库CCI3.0(ChineseCorporaInternet),进一步推动数据共建共享。CCI3.0包含1000GB的数据集及498GB的高质量子集CCI3.0-HQ,是继2023年11月首次开源CCI1.0和2024年4月发布CCI2.0...
ECCV‘24论文提出跨域小样本物体检测新数据集
研究人员研究了CD-FSOD任务下的三个影响跨域的数据集特性:Style,ICV,IB;提出了一个CD-FSOD算法评测数据集,该数据集包含多样的style,ICV,IB;对现有物体检测器进行了广泛研究,揭示了CD-FSOD带来的挑战。NewCD-ViTOMethod为了回答问题2,即进一步提升基础DE-ViT在CD-FSOD下的性能,研究团队...
一键部署Phi 3.5 mini+vision!多模态阅读基准数据集MRR-Benchmark...
Tecnalia高光谱数据集包含来自电机和电子设备废物的不同有色金属部分,如铜、黄铜、铝、不锈钢和白铜,图像在光谱范围[415.05纳米,1008.10纳米]内包含76个均匀分布的波长。该数据集包含10k张行车记录仪的图像,所有图像均来自100KDashcam视频。图像以5秒为间隔从视频中分离出来,作为单独的帧,数据集...
...德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
MIMIC-CXR是一个包括377,110张胸部X光片和277,835个放射学报告的大型数据集。作者基于MIMIC-CXR构建了Medical-CXR-VQA数据集。传统基于规则构建的方法的一种途径是将数据集构建过程分为两步,第一步是从原始文本信息中提取出结构化的关键信息,例如疾病的位置,类型,级别,存在可能性等等;第二步是基于所提取的关键信...
70B大模型训练秘方 :数据集创建与评估
02该团队发布了用于模型评估的数据集,包括11个公共数据集的高质量子集,以及一套用于代码理解的原始问题(www.e993.com)2024年10月23日。03他们发现,当仅在高质量、无歧义的问题上进行评估时,开源和闭源模型在某些数据集上的准确率几乎达到100%。04为此,他们计划发布清洗过的公开数据集、私有数据集、一个用于识别问题质量的微调过的Llama370B...
医学多模态数据集MedTrinity-25M:包含2500万张医学影像
来自UCSC-VLAA团队的“MedTrinity-25M”大规模多模态数据集正式发布。这个数据集包含2500万张医学影像及详细注释。在医学领域中可谓是一次重要的创新,它拥有多粒度的注释,可以帮助研究人员更好地理解和应用医疗数据,用于训练医疗多模态大模型。MedTrinity-25M的构建过程相当复杂,团队经过精心的数据处理,提取了从...
【五号雷达-数据快讯】包含数百万真实点击标签的网页数据集
MSMARCOWebSearch是微软发布的一个大规模、信息丰富的网页数据集。该数据集包含约10亿个高质量网页,源自ClueWeb22,这些网页不仅包括纯文本,还有视觉元素、HTML结构、语义标注等,覆盖207种语言,同时包含1000万个独特查询和数百万带有相关标签的查询-文档对,这些数据来自微软Bing搜索引擎的搜索日志。MSMARCOWebSear...
艾伦AI推出业界最大文本数据集,包含3万亿Tokens,超过Llama 2
总之,艾伦AI研究所(AI2)发布的Dolma数据集是目前最大的开放文本数据集之一,包含了3万亿个Tokens,用于训练大型语言模型。AI2希望通过公开透明化其数据集及之后的大模型,帮助更多的研究者在此基础上进一步进行研究和开发等工作。AI2还计划创建一个开放的生成语言模型AI2OLMo,预计于2024年初完成,拥有700亿级别的...
Together AI 发布 RedPajama v2:包含 30 万亿 token 数据集,用于...
据站长之家11月6日报道,AI初创公司TogetherAI发布RedPajamav2,这是一个包含30万亿token的数据集,旨在支持大型语言模型的研究和开发。研究人员从CommonCrawl和其他公开可用的网络数据中提取了原始文本数据,其中包括40多个质量注释和去重集群。他们计划