全国首个!北数所发放3D具身智能数据集登记证书

2024年10月17日 - 东方财富网

天娱数科3D具身智能数据集包含了丰富的三维场景信息、物体的物理属性及与环境的交互细节,对训练能处理复杂任务的具身智能大模型至关重要,通过提供大规模和多样化的数据,不仅增强了机器人在多样化环境和任务中的适应性和决策智能,也为实现更高级别的自动化和智能化,实现空间智能提供了数据支撑。天娱数科首席数据官吴邦毅...

详情

智源研究院发布中文互联网语料库CCI3.0 包含1000GB数据集

2024年9月25日 - 站长之家

智源研究院发布中文互联网语料库CCI3.0包含1000GB数据集在2024北京文化论坛上,北京智源人工智能研究院(BAAI)宣布正式发布新一代中文互联网语料库CCI3.0(ChineseCorporaInternet),进一步推动数据共建共享。CCI3.0包含1000GB的数据集及498GB的高质量子集CCI3.0-HQ,是继2023年11月首次开源CCI1.0和2024年4月发布CCI2.0...

详情

ECCV‘24论文提出跨域小样本物体检测新数据集

2024年10月2日 - ZAKER

研究人员研究了CD-FSOD任务下的三个影响跨域的数据集特性:Style,ICV,IB;提出了一个CD-FSOD算法评测数据集,该数据集包含多样的style,ICV,IB;对现有物体检测器进行了广泛研究,揭示了CD-FSOD带来的挑战。NewCD-ViTOMethod为了回答问题2,即进一步提升基础DE-ViT在CD-FSOD下的性能,研究团队...

详情

一键部署Phi 3.5 mini+vision!多模态阅读基准数据集MRR-Benchmark...

2024年9月6日 - 腾讯新闻

Tecnalia高光谱数据集包含来自电机和电子设备废物的不同有色金属部分,如铜、黄铜、铝、不锈钢和白铜,图像在光谱范围[415.05纳米,1008.10纳米]内包含76个均匀分布的波长。该数据集包含10k张行车记录仪的图像,所有图像均来自100KDashcam视频。图像以5秒为间隔从视频中分离出来,作为单独的帧,数据集...

详情

...德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

2024年9月3日 - 网易

MIMIC-CXR是一个包括377,110张胸部X光片和277,835个放射学报告的大型数据集。作者基于MIMIC-CXR构建了Medical-CXR-VQA数据集。传统基于规则构建的方法的一种途径是将数据集构建过程分为两步,第一步是从原始文本信息中提取出结构化的关键信息,例如疾病的位置,类型,级别,存在可能性等等;第二步是基于所提取的关键信...

详情

70B大模型训练秘方 :数据集创建与评估

2024年8月28日 - 腾讯新闻

02该团队发布了用于模型评估的数据集,包括11个公共数据集的高质量子集,以及一套用于代码理解的原始问题(www.e993.com)2024年10月23日。03他们发现,当仅在高质量、无歧义的问题上进行评估时,开源和闭源模型在某些数据集上的准确率几乎达到100%。04为此,他们计划发布清洗过的公开数据集、私有数据集、一个用于识别问题质量的微调过的Llama370B...

详情

医学多模态数据集MedTrinity-25M:包含2500万张医学影像

2024年8月12日 - 站长之家

来自UCSC-VLAA团队的“MedTrinity-25M”大规模多模态数据集正式发布。这个数据集包含2500万张医学影像及详细注释。在医学领域中可谓是一次重要的创新,它拥有多粒度的注释,可以帮助研究人员更好地理解和应用医疗数据,用于训练医疗多模态大模型。MedTrinity-25M的构建过程相当复杂,团队经过精心的数据处理,提取了从...

详情

【五号雷达-数据快讯】包含数百万真实点击标签的网页数据集

2024年5月16日 - 网易

MSMARCOWebSearch是微软发布的一个大规模、信息丰富的网页数据集。该数据集包含约10亿个高质量网页,源自ClueWeb22,这些网页不仅包括纯文本,还有视觉元素、HTML结构、语义标注等,覆盖207种语言,同时包含1000万个独特查询和数百万带有相关标签的查询-文档对,这些数据来自微软Bing搜索引擎的搜索日志。MSMARCOWebSear...

详情

艾伦AI推出业界最大文本数据集,包含3万亿Tokens,超过Llama 2

2024年1月17日 - 百家号

总之，艾伦AI研究所（AI2）发布的Dolma数据集是目前最大的开放文本数据集之一，包含了3万亿个Tokens，用于训练大型语言模型。AI2希望通过公开透明化其数据集及之后的大模型，帮助更多的研究者在此基础上进一步进行研究和开发等工作。AI2还计划创建一个开放的生成语言模型AI2OLMo，预计于2024年初完成，拥有700亿级别的...

详情

Together AI 发布 RedPajama v2:包含 30 万亿 token 数据集,用于...

2023年11月6日 - 腾讯新闻

据站长之家11月6日报道,AI初创公司TogetherAI发布RedPajamav2,这是一个包含30万亿token的数据集,旨在支持大型语言模型的研究和开发。研究人员从CommonCrawl和其他公开可用的网络数据中提取了原始文本数据,其中包括40多个质量注释和去重集群。他们计划

详情

查看更多

数据集的主要作用是
数据集的内容
数据集包含什么信息
数据集由什么组成
数据集包括什么
数据集是干嘛的
数据集的含义
数据集包含什么集
数据集有哪些内容
数据集的类型有哪几类