腾讯公司申请基于人工智能的样本增广方法专利,能够提升数据样本的...
专利摘要显示,本申请提供了一种基于人工智能的样本增广方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;方法包括:获取第一数据样本;其中,第一数据样本包括第一样本图像以及对应的图像标签;对第一样本图像进行图像描述生成处理,得到第一样本图像的图像描...
「LLM-数学」MathScale: 用于数学推理的指令调优扩展方法
应对这一挑战的一种有效方法是利用前沿LLM(如GPT-3.5和GPT-4)扩充现有的高质量数学数据集。例如,WizardMath引入了一系列操作,供GPT-3.5生成复杂程度更高的数学题目。MetaMat通过答案增广、问题重述、自我验证和FOBAR问题,对GSM8K和MATH中的题目进行了引导。这些方法生成的新示例与训练集中的原始示例存在大量相似...
ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
数据增广:数据增广强度增加,会使得labelingerror增大(图5(b)),但同时使不同样本之间的交叠部分增加,即增广图的连通性增强(增大)(图5(c))。因此当数据扩充提升数据规模从而提供了足够的图的连通性时,为了进一步减小下游泛化误差,可以减弱数据增广强度从而使得减小。反之数据规模比较小时,则需要更强的数...
硝烟里的大模型,求变的机器视觉:「数据」决定天花板,「平台架构...
比如对一个产品进行质检,其维度包括整体产品数据、瑕疵数据、产品履历、不同制程段的检测结果等各个方面,既有图像数据又有文本数据,有结构化数据和非结构化数据。但需要注意的是,并非所有数据都有价值,数据的标准化过程,需要舍弃那些永远无人关心的沉默数据,留下有用的数据。“数据的标准化是一个系统性的问题,对...
“大模型”检测“大模型”缺陷,从错误中高效学习
注:PAIR(红队攻击方法),self-instruct(最常用的数据增广方法之一),OPRO(迭代搜索方法)问:AutoDetect能够生成什么问题,发现了LLM的哪些缺陷?答:发现了以下缺陷:LLM在同一任务中的不同子类上性能差距非常明显(数学任务中应用题做的不错,但是几何题性能较差);...
Chronos: 将时间序列作为一种语言进行学习
Chronos是通过使用分类交叉熵损失函数将预测作为分类问题来训练时间序列数据(www.e993.com)2024年8月6日。模型在表示量化时间序列数据的标记化词汇表上预测分布,并将该分布与真实分布之间的差异最小化。与距离感知度量不同,这种方法不直接考虑箱之间的接近程度,而是依赖于模型从数据中学习箱关系。这样就有两个优势:与现有语言模型体系结构和训练方法...
从“通用”到“应用”,大模型落「向下」扎根工业制造
此外,为了提高数据增广的有效性,微亿智造在数据仿真和可视化交互方面也做了许多工作,主要包括面向工业异常数据的可编辑内容生成、数据分布可视化等。在可编辑内容生成方面,针对缺陷样本收集难、数据标注成本高等问题,微亿智造通过自研贴图和合成工具“神笔马良”,利用可编辑的AI内容生成来精确生成不同位置和形状的高仿真...
「大模型」检测「大模型」缺陷,从错误中高效学习
注:PAIR(红队攻击方法),self-instruct(最常用的数据增广方法之一),OPRO(迭代搜索方法)问:AutoDetect能够生成什么问题,发现了LLM的哪些缺陷?答:发现了以下缺陷:LLM在同一任务中的不同子类上性能差距非常明显(数学任务中应用题做的不错,但是几何题性能较差);...
上海交大王亚飞副教授团队:“露天矿山无人驾驶运输系统”助力矿山...
研发团队还以多尺度障碍物在矿山多场景下的目标特征为对象,构建了覆盖全生产场景的目标检测数据集,并针对扬尘等恶劣场景进行了数据增广,研发了具备全尺度和多场景适应性的轻量化目标检测技术。通过采用该技术建立了满足复杂矿山场景应用的新型神经网络模型,提升了矿山复杂场景目标检测跟踪的效率。提出的检测算法可同时滤除...
ICCV 2023 | 小鹏汽车纽约石溪:局部上下文感知主动域自适应LADA
3)设计了PAA模块,以克服查询数据规模较小的问题,并逐步以类别平衡的方式使用置信样本来增广有标记目标域数据。二、本文方法2.1问题定义在主动域自适应(ADA)中,有一个带有标记数据的源域和一个带有未标记数据的目标域。同时,用户可以主动选择少量目标域样来查询其标签,标记查询预算通常远小于目标域数据...