粤语语料库建设与大模型评测重点实验室在广州大学启动
以广州为基地,推动广东、香港、澳门的学术团体以及互联网企业,共建共享粤语语料数据库。(完)想爆料?请登录《阳光连线》、拨打新闻热线0531-66661234或96678,或登录齐鲁网官方微博提供新闻线索。齐鲁网广告热线0531-81695052,诚邀合作伙伴。
智源人工智能研究院林咏华:建中文语料库让AI说中国话
一方面我挺开心,我们3.0的语料库跟其他已有的中文开源语料库相比,训练之后得到的模型在中文质量上能力上更优;另一方面,我们也觉得很难一家去把整个问题解决,最好是出现更多的高质量中文语料库,让不同的企业可以去做更多的选择。读+:还有一种说法,语料库爬取的都是网页,但实际上近10年来,中国互联网很多数据是在...
要让AI“讲中国话”,必须建好中文语料库
一方面我挺开心,我们3.0的语料库跟其他已有的中文开源语料库相比,训练之后得到的模型在中文质量上能力上更优;另一方面,我们也觉得很难一家去把整个问题解决,最好是出现更多的高质量中文语料库,让不同的企业可以去做更多的选择。读+:还有一种说法,语料库爬取的都是网页,但实际上近10年来,中国互联网很多数据是在...
微信版知乎,不愿做下一个百度知道
搜索自然成为打开微信内容库的钥匙,通过人找信息,与推荐形成互补,进行有效的信息分发。作为微信生态的一环,问一问让更好和更合适的内容、服务,跟用户之间产生更精准的连接。推出问一问,一方面可以增加用户使用停留时长;另外一方面,由于公众号发文、视频号发视频都具有一定时效滞后性,操作步骤繁琐,采用更轻量化的问...
微信要在搜索框里复制出一个“知乎”?
从这些动作来看,问一问对于微信的意义,就不只是在搜索框里复制出一个“知乎”了。如果再结合大模型的语境,“问一问”也是另外一种形式的语料库,也可能演绎出新的商业变现形式。当然,这是另外一个故事了。我是唐辰同学,关注互联网科技及商业故事。原创内容,未经许可,谢绝转载。
腾讯刚出的这个App,要彻底掏空微信
属于是语料库找不到正确答案,开始胡言乱语了(www.e993.com)2024年11月18日。所以腾讯元宝这回加强深度搜索能力。机哥根本是无法拒绝的。毕竟在此之前,还没有哪家AI助手,能把时效性和准确度的平衡点拿捏得比较好。至于元宝的AI搜索,在时效性和准确度的表现如何。说再多也没用,测一测就知道了。机哥先继续问了元宝同一个问题:“7月份有什么...
AI应用进入新阶段
结合国家政策支持以及各大企业的积极投入,智能体技术将不断进步,特别是在算力快速增长的背景下,AIAgent的发展前景更加可期。多模态智能体的出现,将进一步推动各行业智能化应用的升级,智能体的商业化将迎来新的突破。投资机会AI内容应用、语料库、大模型企业有望受益...
中文数据为什么成了“互联网孤岛”?
最终,无论是OpenAI还是Meta,在训练AI大模型时都基于这个名为CommonCrawl的数据集。《大模型训练数据白皮书》中介绍了美国最著名的数据开源组织之一EleutherAI开发的825GB高质量英文语料库ThePile,其数据集中有227GB由CommonCrawl内容构成,占比27%。
Nature子刊 | ChineseEEG: 一个基于中文语料刺激的高通道EEG数据集
探讨脑机接口领域话题,实时跟踪脑机接口前沿。加微信群:添加微信:RoseBCI备注:姓名+行业/专业。欢迎来稿1.欢迎来稿。投稿咨询,请联系微信:RoseBCI点击投稿:2.加入社区成为兼职创作者,请联系微信:RoseBCI一键三连「分享」、「点赞」和「在看」不错每一条脑机前沿进展~...
张小龙缺席公开课,微信的生态逻辑却更清晰了
如果开发者感到官方内置的语料库无法完全满足需求,微信对话开放平台还提供技能商店,让开发者可以自行上传问答语料,定制化智能问答,上传到技能商店后可以开放给其他开发者使用。或许在当下,微信生态圈的价值尚未彻底爆发,但我们已然从其不断拓宽的生态边界看到了奇迹。