大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索
2024年2月10日 - 新浪
向量相似度可以采用L1、L2或余弦相似度,比如采用余弦相似度,需要设置一个阈值,通常在0.8或0.9左右,然后匹配出TopN条语义最相关的Facts。(5)Prompt优化将匹配出的TopN条Facts,和用户的问题一起作为Prompt输入给模型。为了提供尽可能真实的回答,需要确保问题的回答是准确的,如果无法回答问题,我...
详情
【机器学习】深入探讨,为什么要做特征归一化/标准化?
2021年9月8日 - 网易
除以长度相当于把长度归一化,把所有样本映射到单位球上,可以看成是某种长度无关操作,比如,词频特征要移除文章长度的影响,图像处理中某些特征要移除光照强度的影响,以及方便计算余弦距离或内积相似度等。稀疏数据、outliers相关的更多数据预处理内容可以参见scikitlearn-5.3.Preprocessingdata。从几何上观察上述方法的...
详情
2021年4月下旬, 百度机器学习/数据挖掘/NLP算法工程师实习面试8道
2021年4月1日 - 网易
余弦相似度:用两个向量夹角判断其相似程度;向量夹角越大,距离越远,最大距离就是两个向量夹角180°;向量夹角越小,距离越近,最小距离就是两个向量夹角0°,完全重合。所以余弦相似度越大,向量越相似;计算公式:求余弦相似度方法:Numpy:Pytorch:Sklearn:问题3:验证二叉搜索树(BST)二叉搜索树具有如下特...
详情
产品经理的知识图谱入门实操
2019年7月28日 - 网易
当两个集合A和B交集元素的个数在A与B的并集中所占比例,称之为jaccard系数,jaccard值越大说明相似度越高,如果完全一致的两个集合则相似度为1。类似的余弦相似度也可以用来计算集合类型的数据。如果是整篇文档类型的数据,可以线通过TF-IDF算法找出文档的关键词,再通过余弦相似度计算关键词集合的相似度,以此判断文档...
详情