腾讯公司申请基于人工智能的样本增广方法专利,能够提升数据样本的...
专利摘要显示,本申请提供了一种基于人工智能的样本增广方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;方法包括:获取第一数据样本;其中,第一数据样本包括第一样本图像以及对应的图像标签;对第一样本图像进行图像描述生成处理,得到第一样本图像的图像描...
CVPR 2023 | 数据驱动的解释对分布外数据具有鲁棒性吗?
混合(Mixup)[6]是一种数据增广的技术,其已被在实践中证明能够大幅提高预测鲁棒性。如图2所示,与原始的随机混合样本和标签的混合方式不同,我们将来自不同分布但有相同真值标签的样本进行混合,即。同时,我们用相同的参数混合各样本的解释,即。我们用混合解释与混合样本的解释之间的一致性来实现直观上,混合解释作...
「LLM-数学」MathScale: 用于数学推理的指令调优扩展方法
指令调优是一种有效释放LLM某些能力的方法。不幸的是,这种方法受到目前可用的数学推理数据集规模有限的制约。例如,最流行的数学数据集GSM8K(Cobbe等,2021年)和MATH(Hendrycks等,2021年)的训练示例只有大约7,500个。应对这一挑战的一种有效方法是利用前沿LLM(如GPT-3.5和GPT-4)扩充现有的高质量数学数据集。例...
ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
数据增广:数据增广强度增加,会使得labelingerror增大(图5(b)),但同时使不同样本之间的交叠部分增加,即增广图的连通性增强(增大)(图5(c))。因此当数据扩充提升数据规模从而提供了足够的图的连通性时,为了进一步减小下游泛化误差,可以减弱数据增广强度从而使得减小。反之数据规模比较小时,则需要更强的数...
硝烟里的大模型,求变的机器视觉:「数据」决定天花板,「平台架构...
寻找共性,是增广样本数量一个较为常用的办法。有一些缺陷,在某几个行业是相通的,比如中框、结构件的外观检测和手机整机的外观检测,再比如锂电和光伏的外观缺陷检测等,都存在一定的相通性。“凌云光建立了拥有500万样本的专用工业数据集,可以对缺陷的机理进行研究,再加上深度学习和人工智能算法平台F.Brain,能够使得...
“大模型”检测“大模型”缺陷,从错误中高效学习
注:PAIR(红队攻击方法),self-instruct(最常用的数据增广方法之一),OPRO(迭代搜索方法)问:AutoDetect能够生成什么问题,发现了LLM的哪些缺陷?答:发现了以下缺陷:LLM在同一任务中的不同子类上性能差距非常明显(数学任务中应用题做的不错,但是几何题性能较差);...
精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023
对于第i个类别,输入视觉示例v_i,其首先和目标图像以增广其表示能力,而后每个类别文本t_i会和对应类别的视觉示例进行交叉注意力得到融合,得到当前层的输出,之后通过一个门控模块gate将原始文本t_i和视觉增广后文本进行交叉注意力(X-MHA)得到...
MetaMath:新数学推理语言模型,训练大模型的逆向思维
方法MetaMathQA包含四种数据增强的方法:1.AnswerAugmentation(答案增强):给定问题,通过大语言模型生成能得到正确结果的思维链作为数据增广。Question:Jamesbuys5packsofbeefthatare4poundseach.Thepriceofbeefis$5.50perpound.Howmuchdidhepay?
从“通用”到“应用”,大模型落「向下」扎根工业制造
此外,为了提高数据增广的有效性,微亿智造在数据仿真和可视化交互方面也做了许多工作,主要包括面向工业异常数据的可编辑内容生成、数据分布可视化等。在可编辑内容生成方面,针对缺陷样本收集难、数据标注成本高等问题,微亿智造通过自研贴图和合成工具“神笔马良”,利用可编辑的AI内容生成来精确生成不同位置和形状的高仿真...
上海交大王亚飞副教授团队:“露天矿山无人驾驶运输系统”助力矿山...
研发团队还以多尺度障碍物在矿山多场景下的目标特征为对象,构建了覆盖全生产场景的目标检测数据集,并针对扬尘等恶劣场景进行了数据增广,研发了具备全尺度和多场景适应性的轻量化目标检测技术。通过采用该技术建立了满足复杂矿山场景应用的新型神经网络模型,提升了矿山复杂场景目标检测跟踪的效率。提出的检测算法可同时滤除...