博士被同门举报数据造假,Cell 论文惨遭撤稿;基金委发文:目前资助...
加州大学圣地亚哥分校成立临时委员会调查,确认Brigidi博士对数据伪造或篡改负责,包括篡改图像、合并伪造数据等。最终,作者决定撤回论文,并向科学界致歉。该博士后研究员最终承认了自己的行为,并向相关机构提交了《研究不端行为承认书》,其行为涉及多篇论文及多项国家卫生研究院(NIH)的资助申请。信息来源:pubpeer公...
AI数据不够,论文来“凑”?
AI数据不够论文来“凑”人工智能大模型发展的三大要素是数据、算法、算力随着AI技术的快速发展对训练数据的需求日益旺盛有媒体称2021年末正在训练GPT-4的OpenAI遇到一个棘手的问题其训练已耗尽互联网上可靠的英文文本资源当时为了处理这个问题OpenAI用Youtube平台的视频音频转录成大量的对话文本之后...
技术之辩 | Dario Amodei:Scaling Law 还没遇到上限
现在比较普遍的一种观点是,我们可能会面临数据不足的限制。我们的确有可能会用完数据,因为网络上的数据量是有限的,数据质量也是个问题,虽然网络上有数百亿的词汇量,但其中很多都是重复的,或者是为了SEO而产生的内容,甚至未来可能是AI自己生成的文本。所以我认为通过这种方式获取的数据是有限的。不过,我们正在...
数据库国际顶会ICDE 2024发榜,阿里云PolarDB新技术获最佳论文
阿里云数据库创新不断,在云原生、智能化、HTAP、安全可信等前沿技术方向硕果累累。此前,阿里云与浙江大学关于数据库漏洞检测新方法的论文,斩获SIGMOD2023最佳论文奖,是SIGMOD历史上首次由中国大陆研究团队摘得最佳论文奖。截至目前,阿里巴巴120余篇数据库相关论文被国际顶级会议和期刊收录,数量及质量均居国内科技企业第...
第十五届全国X射线衍射与新材料学术大会暨国际衍射数据中心(ICDD...
1)新材料;2)结构分析;3)薄膜与界面;4)小角散射;5)织构与应力;6)X射线衍射教学;7)X射线衍射在工业中的应用;8)ICDD粉末衍射数据库与软件;9)中子衍射与电子衍射;10)新方法与新技术;11)科普、教学;12)其它。2.会议摘要、论文要求论文摘要或全文均可,摘要篇幅不超过1页A4纸;全文篇幅不超过4页...
沈向洋院士:AI算力年均增长400%,讲卡伤感情、没卡没感情|钛媒体AGI
为了让大家对这些数据规模有更直观的认识,我举几个例子:1万亿token的数据量大约相当于500万本书,或20万张高清照片,或500万篇论文(www.e993.com)2024年11月28日。从人类历史的角度来看,至今为止创造的所有书籍大约包含21亿token,微博上有38亿token,而Facebook上约有140T的数据。不过社交媒体上的数据质量普遍不够高...
获奖论文展播 | 数据犯罪刑事规制的挑战与出路—以数据法益为中心
(二)数据的法益保护从静态向动态不断扩张随着数字经济,数字化生产方式变革推动数据成为独立的法益保护对象,数据的生产要素价值更体现为在收集、存储海量原始数据的基础上,经过算法清洗、脱敏、加工、计算、聚合等技术处理而形成的系统的、可读取的、有价值的结构化数据[6],能够为业务决策或行动提供多渠道的数据支撑、...
小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zip...
目前,新一代Kaldi项目主要由四个子项目构成:核心算法库k2、通用语音数据处理工具包Lhotse、解决方案集合Icefall以及服务端引擎Sherpa,方便开发者轻松训练、部署自己的智能语音模型。新一代kaidi项目:httpsgithub/k2-fsa论文解读摘要...
Nature曝惊人内幕:论文被天价卖出喂AI,出版商狂赚上亿,作者0收入
多模态数据不够,arXiv来凑事实上,庞大的arXiv论文库中,可以利用的不止文本数据。ACL2024接收了一篇来自北大和港大学者的论文,他们尝试利用这些论文中的图文构建高质量多模态数据集,取得了非常不错的效果。项目主页:httpsmm-arxiv.github.io/
弱智吧竟成最佳中文AI训练数据?中科院等:8项测试第一,远超知乎...
具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分。没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:...