当前位置首页 >> 百科新闻 >> 正文

同义词(近义词)算法总结(附代码)

更新时间: 2025-07-05 16:30:25

阅读人数: 697

本文主题: 三体 百度百科

同义词挖掘一般有三种思路,借助已有知识库,上下文相关性,文本相似度。

可以借助已有知识库得到需要同义词,比如说《哈工大信息检索研究室同义词词林扩展版》和 HowNet,其中《词林》文件数据如下。

以上两个知识库是人工编辑的,毕竟数量有限,我们还可以借助众包知识库百科词条获取同义词,比如百度百科,如下图所示,在百度百科搜索“凤梨”,我们可以看到在返回页面结果中的 info box中有一个属性为“别称”,别称中就是凤梨的同义词。除此之外,在百科词条的开头描述中,有如下描述“又称”、“俗称”也是同义词,我们可以利用爬虫把这些词爬下来。

百度搜索和谷歌搜索等搜索工具一般都有重定向页,这也可以帮助我们去挖掘同义词。

使用知识库挖掘同义词的优点是简单易得,而且准确率也高,缺点就是知识库覆盖率有限,不是每个细分领域都有。对于金融、医疗、娱乐等领域都需要各自的知识库。

利用上下文相关性挖掘同义词也比较好理解,如果两个词的上下文越相似的话,那么这两个词是同义词的概率就越大。使用词向量挖掘同义词是比较常见的做法,比如使用word2vector训练得到词向量,然后再计算余弦相似度,取最相似的top k个词,就得到了同义词。

word2vector是无监督学习,而且本质上来说它是一个语言模型,词向量只是它的副产品,并不是直接用来挖掘同义词。有篇paper发明了弱监督的同义词挖掘模型DPE,也取得了不错的效果。DPE模型流程如下图,一共分为两个阶段,第一阶段跟word2vector差不多,也是训练词向量,只不过DPE是一种graph embedding的思路,首先从语料中构建语义共现网络,然后通过对网络的边采样训练词向量。第二阶段通过弱监督训练一个打分函数,对输入的一对词判断属于同义词的概率。感兴趣的可以看看这篇paper

基于上下文相关性的同义词挖掘方法的优点是能够在语料中挖掘大量的同义词,缺点是训练时间长,而且挖掘的同义词很多都不是真正意义上的同义词需要人工筛选。这种方法对于词频较高的词效果较好。

对于这一对同义词“阿里巴巴网络技术有限公司”和“阿里巴巴网络公司”直接去计算上下文相似度可能不太有效,那一种直观的方法是直接计算这两个词的文本相似度,比如使用编辑距离(Levenshtein distance)或者 LCS(longest common subsequence),如果两个词的文本相似度大于阈值的话我们就认为他们是同义词的关系。在这里推荐一个计算文本相似度的Java开源项目,基本上文本相似度算法应有尽有。

基于文本相似度同义词挖掘方法的优点是计算简单,不同于word2vector,这种方法不需要使用很大的语料,只要这个词出现过一次就可以发现同义词关系。这种方法的缺点是有时候不太靠谱,会挖掘出很多错误的同义词,尤其是当两个词比较短的情况下,比如“周杰伦”和“周杰”,就可能会被认为是同义词。所以这种方法适用于一些较长的文本,特别是专业词汇,术语。

在这个github项目中实现了4种同义词挖掘的方法:

觉的有用同学记得点star~~

代码示例(synonym_detection/source/main.py)

2.2 word2vector

在这里使用《三体》小说作为训练语料,使用以下10个词作为输入,从语料中挖掘这10个词的同义词。后面几个方法使用相同的输入。

2.2 语义共现网络的节点相似度

语义共现网络本质是根据上下文构建的图,图中的节点是词,边是这个词的上下文相关词。对于语义共现网络的两个节点,如果这两个节点的共同邻居节点越多,说明这两个词的上下文越相似,是同义词的概率越大。例如,对于《三体》小说中的两个词“海王星”和“天王星”,在《三体》语义共现网络中,“海王星”和“天王星”的邻居节点相似度很高,则说明两个词是同义词的可能性很高。如下图所示:

可以看出基于语义共现网络得到的同义词与word2vector结果类似,甚至在某些词上效果更好。

2.4 Levenshtein距离

同义词(近义词)算法总结(附代码)

解读你不知道的《三体》

《三体》是作家刘慈欣创作的长篇科幻小说,讲述了地球人类文明和三体文明的信息交流、生死搏杀及两个文明在宇宙中的兴衰历程。随着刘慈欣创作的科幻小说《三体》的面市,并且荣获了第73届雨果奖最佳长篇小说奖后,越来越多的人开始关注三体、开始关注科幻。 《三体》的出彩之处就是具有可读性的同时,又涉及了极高深的现实与想象相互交融的科学内容。可惜的是,对于像我这样,不知道三体为何物,也没有看过什么科幻、科学类书籍的人,并不在少数。那么,该如何去了解三体,该如何去了解三体延伸出来的科学,则成了最重要的问题。我们除了查询网络百科的解释,以及网络上零零散散的讲解外,似乎有点儿无从下手。 《三体导读》一书,是从作者眼中的作家刘慈欣开始讲述,正如文中所说:觉得蛋好吃,自然就想看看生蛋的鸡,作者想了解真实的刘慈欣,就好比我们看一部电影电视剧,觉得演员演得好,就想在生活中亲眼见一见这个演员,二者的心情是相似的。只是,当你发现这个人的真实生活不如想象中那般完美的时候,就会产生一些失落,在大部分人的眼中,天才都是不食人间烟火的,天才的生活也都是轰轰烈烈的。 《三体》不仅仅是一本科幻小说,其中也蕴含着人性与人类生存的反思,如同“圣母”程心和“暴君”维德,在正常的生活环境下,或许程心是对的一方,以爱、善良、包容去待人,但涉及到生命安全的时候,如果一味地“圣母”、善心,只会让自己和他人一起走向死亡。 《三体》虽是科幻小说,却也蕴含着不少科学知识。科幻文学和科学技术,实则并不冲突,而是紧密相连的。首先,科技活动是科幻文学的源文化,科幻文学的产生是建立在科学知识上的。其次,科幻文学与公众的科学素养关系密切,只有公众的科学素养的不断提高,才有可能创作出高质量的科幻小说作品,才能吸引更多的喜爱科幻类小说的书迷。 每一部小说推出的时候,总会遇到不少的质疑声。《三体》也不例外,这些质疑声大多来自于书中涉及的那些区域的佼佼者们,比如科学家、哲学家,通常会针对书中提到或引用的理论进行分析和反驳,而文学家或文科生、文学爱好者则是对小说的文学性提出质疑…… 通过《三体导读》看《三体》,从文学内涵到文学意义,再从背景设定到科学设定,最后到学科略览,不同角度的剖析和解读,会让你发现一个不一样的、更接地气的刘慈欣,同时,也开阔了眼界,发现一个不一样的科幻新领域。既了解了《三体》中涉及的自然科学知识,也了解了书中所包含的包括心理学、哲学、伦理学、政治学、宗教学等在内的十一个领域的知识。当然,除了这些知识以外,本书也讲述了在《三体》面市以后,遇到各种各样的问题,例如,读者对于作品本身的质疑,对于作家的质疑等等。不过,事情总有两面性,有质疑说明公众对于科幻类小说寄予厚望,希望作品的质量更上一层楼,爱之深才会责之切。                                                                           ※ 特此鸣谢【拾光书屋】友情赠书 ※

© 本文版权归作者   所有,任何形式转载请联系作者。

三体百度百科(三体百度百科人物介绍)

《三体》主要讲述了地球人类文明和三体文明的信息交流、生死搏杀及两个文明在宇宙中的兴衰历程。一伙儿外星人的母星有三个太阳,由于某种原因这个三体系统无法稳定,于是他们准备换个地方住。

《三体》作品讲述了地球人类文明和三体文明的信息交流、生死搏杀及两个文明在宇宙中的兴衰历程。军方探寻外星文明的绝密计划“红岸工程”取得了突破性进展。但在按下发射键的那一刻,历经劫难的叶文洁没有意识到,她彻底改变了人类的命运。

作品讲述了地球人类文明和三体文明的信息交流、生死搏杀及两个文明在宇宙中的兴衰历程。主要人物 汪淼:(《三体》)物理学教授,经由申玉菲进入科学边界,并开始了解“三体”游戏里虚拟的文明,领导研究的纳米材料还为地球防卫军获得ETO情报提供了技术支持。

1、《三体》是刘慈欣创作的系列长篇科幻小说,由《三体》《三体Ⅱ·黑暗森林》《三体Ⅲ·死神永生》组成。其中《三体》经美籍华裔科幻作家刘宇昆翻译后获得了第73届雨果奖最佳长篇小说奖。《三体III:死神永生》获得2017年轨迹奖最佳长篇科幻小说奖。

2、《三体》是作家刘慈欣创作的一部科幻小说。小说主要讲述了军方探寻外星文明的绝秘计划“红岸工程”取得了突破性进展。但在按下发射键的那一刻,叶文洁没有意识到,她彻底改变了人类的命运。

3、三体是长篇科幻小说。作者是刘慈欣,本书由《三体》、《三体Ⅱ·黑暗森林》、《三体Ⅲ·死神永生》组成,第一部于2006年5月起在《科幻世界》杂志上连载,第二部于2008年5月首次出版,第三部则于2010年11月出版。 作品讲述了地球人类文明和三体文明的信息交流、生死搏杀及两个文明在宇宙中的兴衰历程。

4、《三体》是刘慈欣创作的系列长篇科幻小说,由《三体》、《三体Ⅱ·黑暗森林》、《三体Ⅲ·死神永生》组成,第一部于2006年5月起在《科幻世界》杂志上连载,第二部于2008年5月首次出版,第三部则于2010年11月出版。

1、《三体》系列是由刘慈欣创作的科幻小说,包括《三体》、《三体Ⅱ·黑暗森林》、《三体Ⅲ·死神永生》三部作品。该系列讲述了地球文明与三体文明的首次接触,以及随后的冲突与对抗。

2、《三体》是刘慈欣创作的系列长篇科幻小说,由《三体》、《三体2:黑暗森林》、《三体3:死神永生》组成,第一部于2006年5月起在《科幻世界》杂志上连载,第二部于2008年5月首次出版,第三部则于2010年11月出版。

3、《三体》三部曲(又名“地球往事“三部曲)是2006年至2010年连载、出版的硬科幻小说系列,作者是刘慈欣。该系列由《三体》、《黑暗森林》、《死神永生》三部小说组成,均已出版。《三体》三部曲被誉为迄今为止中国当代最杰出的科幻小说,是中国科幻文学的里程碑之作,将中国科幻推上了世界的高度。

4、该系列第一部名字叫《三体》。《三体》是刘慈欣创作的长篇科幻小说系列,由《三体》《三体2:黑暗森林》《三体3:死神永生》组成,第一部于2006年5月起在《科幻世界》杂志上连载,第二部于2008年5月首次出版,第三部则于2010年11月出版。第一部经过刘宇昆翻译后获得了第73届雨果奖最佳长篇小说奖。

5、面对这场前所未有的危机,人类世界陷入了一片大恐慌中。三体的小说主要讲的内容《三体》具体讲述了地球文明人类与三体星球三体人的相互交流,相互敌对,生死搏杀的历史同时展现了三体文明在宇宙恶劣的环境中从挣扎生存的艰辛历程。

1、三体集数为:18集。《三体》是三体宇宙及艺画开天联合出品的网络动画作品网络动画片《三体》改编自刘慈欣创作的同名科幻小说,是bilibili、三体宇宙和艺画开天联合出品的动画,2022年完成制作并在bilibili上线。《三体》动画共三季,分别是《三体·持剑》《三体·破壁》《三体·面壁》,每季6集,共18集。

2、电视剧《三体》一共30集,是小说《三体》的第一部。电视剧《三体》于2023年1月15日在央视八套播出,并在腾讯视频、咪咕视频同步播出。是由杨磊执导,张鲁于和伟、陈瑾、王子文、林永健、李小冉等主演的一部科幻剧。

3、《三体》电视剧30集,动画片18集。《三体》是由杨磊执导,张鲁于和伟、陈瑾、王子文、林永健、李小冉等主演的科幻剧。该剧于2023年1月15日在央视八套播出,并在腾讯视频、咪咕视频同步播出,一共30集。

黑米吧

欢迎來到黑米吧指南,我们致力于提供全方位的日常生活健康知识,涵盖了各方面的科学知识,是值得信赖的社区。

猜你喜欢