外语专业培养高级人才少,如今“降温”给学科改革带来哪些启示?

2024年9月20日 - 网易

另一方面,外语专业具有工具性、人文性和科学性等属性。其中,工具性是指外语专业培养学生具备外语综合应用能力的属性;人文性是指外语专业传授不同国家的历史背景、文化传统和文化差异等,对学生进行人文教育,培养学生的人文素养和人文精神;科学性是指外语专业向学生传授如何使用科学方法探索人类语言文化发展的奥秘,培养学生的...

详情

学术前沿 | 进步对齐:让AI跟上人类道德的脚步

2024年9月30日 - 网易

·脚手架(Scaffolding):在LLM上构建额外的结构或框架,指导其生成符合目标价值观的内容。·发展方法:在模型训练过程中,注入对道德进步的考虑,使模型在预训练阶段就具备对道德演化的敏感性。案例研究:基于预测建模的方法作为一个案例,我们来考察基于预测建模的进步对齐方法,即通过历史数据和模型,预测未来的道德进步...

详情

开学季|常备经典工具书:夯实基础,开阔思维,助力学习

2024年8月31日 - 百家号

7.《古代汉语词典》（第2版）：畅销20余年，累计销量500万册，荣获第三届国家辞书奖；文言文学习的常用工具书，语文教师、中学生、文字工作者案头常用品牌辞书推荐年级：初中、高中收录单字约14200个（包括繁体字和异体字），复音词约28000条。第1版收单字10000个，复音词24000条。此次修订，在释义和书证以及书写...

详情

文生图大型实践:揭秘百度搜索 AIGC 绘画工具的背后故事!

2023年11月15日 - 腾讯新闻

DiscoDiffusion的目标主要是landscape等风景类创作,风景类场景是一个容错率比较高的场景,并结合了富有视觉冲击的色彩,极具艺术质感,这在2021年底至2022年初,是一个很大胆、很惊艳的一个尝试。直到2022年2月,Midjourney发布了v1版本。v1的整体效果相当令人吃惊,但在生成人像方面还差强人意。

详情

万字综述:大语言模型将为神经科学带来哪些前所未有的机会?| 追问...

2024年3月4日 - 腾讯新闻

大语言模型(LLMs)是机器学习领域中用于处理和生成自然语言文本的新工具。该文提供了对该建模技术的属性定义,并反思LLMs如何被用来重新构建经典的神经科学问题,以提供新的答案。我们认为LLMs有潜力(1)通过添加如高级文本情感分析等有价值的元信息来丰富神经科学数据集;(2)总结大量信息来源,以克服孤立的神经科学社群...

详情

特约文章丨大语言模型的知识冲突:成因、根源与展望

2024年9月25日 - 网易

首先是对预训练数据质量的优化,包括删除重复数据、剔除过时、错误及虚假信息,从根源上避免模型内化矛盾知识,鉴于现有的预训练语料库规模庞大,目前的研究主要采用简单的启发式(www.e993.com)2024年11月6日。规则来选择和过滤数据。其次,在通用语言模型的基础上,引入特定领域的高质量语料对其进行微调,使模型逐步完善相关知识的表示,有效地获取新领域的...

详情

彼得·霍莫基等|大型语言模型及其在法律中的可能用途

2024年9月2日 - 上观

大型语言模型可以帮助工具更好地依赖文本语料库中特定词语的上下文信息进行筛选(情景化嵌入),并将人类提出的问题更准确地转化为术语,从而得到更精确的搜索结果。虽然大型语言模型可以回答经过预训练的问题,而且预训练中包含了数量惊人的法律文本,但这种方法在法律上不太实用。首先,当前GPT模型的预训练是在2021年9月...

详情

如何提升用词的准确度提高雅思写作分数

2024年7月2日 - 中国教育在线

语料库工具是对词典的延伸。在平时的写作练习中我们不可避免的会遇到一些不太明确的表达,这种表达在词典上找不到相应的例证。这时候我们就可以通过语料库或者谷歌来进行一个验证。这里推荐一个常用语料库:美国当代英语语料库。美国当代英语语料库(CorpusofContemporaryAmericanEnglish,简称COCA)是目前最大的免费英...

详情

“用AI打败AI,用魔法打败魔法”应对大模型带来的数据安全风险

2024年5月9日 - 南方都市报数字报

今年中关村论坛年会期间,在另一场“数据安全治理与发展”的平行论坛上,清华大学计算机科学与技术系教授黄民烈提到,过去做数据处理时,可以将有害信息过滤、清洗干净;但现在生成式AI会通过训练组合生成新内容,它们不存在于原有语料库里,而且可能涉及有害信息。

详情

从数字人文视角看“近代中国的精英、网络与权力”

2024年3月28日 - 澎湃新闻

具体而言,人名录及其他语料库(corpus,指具有一定格式的大量文本)中的各类命名实体,如姓名、年龄、字号、出生地名等,可运用特定功能包(如分词包),将其从文本中分离并分类建表,最终依此建立基于某一参数的网络,如同乡网络等。基于RStudio平台,团队目前开发出两大可视化运用平台:HistText与MCBD。

详情

查看更多

建立语料库的原则
如何建立语料库语言学
建立语料库的常用工具包括哪些方面
语料库创建的具体实施步骤
搭建语料库
语料库建立过程
建立语料库用什么软件
建立语料库的常用工具包括哪些内容
组建一个语料库需要哪些预备条件
建立语料库的注意事项