- +1
开源专利分析工具有哪些(中)
原创 丑丑姐姐 专利分析可视化
本文节选自WIPO Manual on Open Source Patent Analytics (2nd edition),主要介绍了可用于专利分析的开源工具。
本文所介绍的工具可以分为八个种类:通用工具、数据清理工具、数据挖掘工具、数据可视化工具、网络数据可视化工具、信息图制作工具、地理数据可视化工具、文本挖掘工具。上期文章介绍了前面四种,本期文章介绍网络数据可视化工具、信息图制作工具,下期文章介绍最后两种。
PART 5
网络数据可视化工具
网络数据可视化能够将科学和技术领域的研究人员以及他们之间的关系进行直观展示。在专利分析中,网络数据可视化能够展示以下信息:
(1)展示在一个特定技术领域中申请人或发明人之间的网络关系。例如,下面的这张网络图以期刊文献的作者信息为分析基础,展示了合成生物学领域大约2000位文献作者的合作研究关系。

图片来自:Synthetic Biology: Mapping the Scientific Landscape,相关链接:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0034368
(2)展示某一技术领域中各个IPC或者CPC分类号之间的技术聚类及关联关系。
WIPO在其2014年发布的动物遗传资源专利分析报告中就展示了这种信息。

图片来自:Patent Landscape Report on Animal Genetic Resources,相关链接:https://www.wipo.int/edocs/pubdocs/en/wipo_pub_947_3.pdf
上图梳理了上万项在文献中出现了农场养殖动物名称(例如牛、猪、羊等)的专利文献,从这些文献中找出各IPC分类号或CPC分类号在同一文献中出现的情况,并用网络图把这些分类号在同一文献中共存在的关系展示出来。图中的每一个节点表示一个分类号。节点之间距离越近,说明这些分类号在同一文献中出现的次数越多,由此表示这些分类号之间的技术相似度越高,而这些关系紧密的分类号所涉及的文献的技术关联度也就越高。而距离相隔较远的节点代表的文献技术关联度则较低,比如烹饪设备和动物的住房,这些集群中的文献就可以更快速地被排除。
(3)将专利文献中的关键词及其与其他术语之间的联系进行网络数据可视化,从而帮助分析人员探索和完善相应的分析工作。
也是在上述的动物遗传资源专利分析项目中,该报告的作者将词干相同的词语聚集在一起以了解与动物育种有关的动物新品种有哪些。

图片来自:Patent Landscape Report on Animal Genetic Resources,相关链接:https://www.wipo.int/edocs/pubdocs/en/wipo_pub_947_3.pdf
因此,网络数据可视化既能够帮助我们对感兴趣的主题进行深入分析,又能够展示最终的分析结果。
5.1 Gephi
Gephi(https://gephi.org/)是一个基于Jave的开源网络图形生成软件。Gephi能够处理大量数据并生产强大的网络图,不过这个数据量到底能够多大量还是要取决于你电脑的性能。

当安装Gephi时可能需要面临的一个问题是,Gephi会提醒你安装正确的Java版本。不过在最新发布的Version 0.9版本中已经解决了这个问题。
在R中可以尝试使用rgexf包(https://cran.r-project.org/web/packages/rgexf/index.html)和实例代码创建.gexf格式的网络图文件。
5.2 NodeXL

对于Excel的死忠用户,NodeXL(https://nodexl.com/)是一个很好用的插件,可以用来生成网络图。
5.3 Cytoscape

Cytoscape(www.cytoscape.org/what_is_cytoscape.html)是另一个能够实现网络可视化的程序,它最初是为了展示生物的网络和交互关系而设计,但是与许多其他的用于生物信息学的工具一样,Cytoscape也可以被应用于其他领域的数据可视化。
我们可能更多的使用Gephi来制作网路图,不过Cytoscape真的值得一试。Cytoscape可以适用于Windows、Mac和Linux系统。
5.4 Pajek

Pajek(http://mrvar.fdv.uni-lj.si/pajek/)是最早创立的免费网络图制作工具,并且只适用于windows系统。它广泛用于文献计量学,可以处理大量数据。相比后来出现的Gephi,Pajek没有那么灵活,但是Pajek在精确性、易于复制性和易于保存性方面更具优势。而在上述方面,Gephi则稍有欠缺。
对于那些更喜欢Gephi制作的网络图的外观和感觉的用户,也可以将数据从Pajek导入到Gephi。
5.5 VOS Viewer

VOS Viewer(https://www.vosviewer.com/Home)是由Leiden University开发,其功能类似于Gephi和Cytoscape,但是其网络图的样式与前两者不同,主要是节点及其边缘的视觉效果不同。其最新的版本与Gephi和Cytoscape都能够互相读懂对方的数据格式。如果想要尝试不同的网络数据可视化的样式,VOS Viewer值得一试。并且VOS Viewer还能够读取Web of Science和Scopus数据库中的著录项目数据。
5.6 Hive Plots

我们并不是十分清楚Hive Plots(http://www.hiveplot.net/)是如何制作的,但是我们非常认同Hive Plots对网络数据可视化目的的认识,即网络数据可视化的目的是为了将复杂数据清晰化,而不是“看,我做了一个看起来非常像意大利面的东西”(尽管通常这也属于我们在制作网络图中的一个过程)。所以,我们认为由BC癌症机构基因组科学中心的Martin Krzywinski开发的Hive Plots非常有趣。
作为大型网络图的制作工具,在Python中有pyveplot(https://pypi.org/project/pyveplot/)包和hiveplot(https://github.com/ericmjl/hiveplot)包,可用于Hive plots。
5.7 The R Graph Gallery和ThePython Graph Gallery

关于网络图的话题,值得推荐的网站还有The R Graph Gallery(https://r-graph-gallery.com/)和The Python Graph Gallery(https://www.python-graph-gallery.com/)。这两个网站中给出了非常多的利用R或Python制作不同可视化图表的代码,感兴趣的小伙伴可以尝试一下。当你需要增进可视化技巧或是寻求一些创新的想法时,这两个网站不容错过。
其他可用于制作网络图的资源可以参考FlowingData(http://flowingdata.com)和Visual Complexity(http://www.visualcomplexity.com/vc/),以获得一些灵感。
这些网络图在上述工具中制作好之后都需要输入图片,这就需要一些能够处理图片的软件。开源工具中,The GNU Image Manipulation Program(GIMP)(https://www.gimp.org/)都是很容易上手的图片处理工具。
PART 6
信息图制作工具
信息图在信息交流中占据了越来越重要的地位。信息图能够将一些复杂的研究结果用易于理解但又丰富的形式展示出来。WIPO的专利分析报告就已经发布了很多信息图。

信息图的大受欢迎见证了越来越多的在线信息图制作网站的产生,包括很多免费的网站。但是免费的网站会有一些使用上的限制,比如icon数量有限等。但是,作为一个正在不断成长的领域,这些缺陷都会慢慢地被弥补。下面列出了一些免费的、值得去探索的制作信息图的网站。
6.1 Piktochart.com
https://piktochart.com/

6.2 Canva.com
https://www.canva.com/create/infographics/

6.3 Infogr.am
https://infogram.com/pricing

6.4 Visme
https://www.visme.co/

6.5 Easel.ly
https://www.easel.ly/infographic-templates

6.6 Genia.ly
https://genial.ly/

6.7 Venngage
https://venngage.com/

6.8 Snappa
https://snappa.com/

6.9 Mind the Graph
https://mindthegraph.com/
用于科学数据的在线可视化工具。

6.10 Kartograph
https://kartograph.org/

像Cool Infographics(https://coolinfographics.com/)这样的网站对于寻找一些其他的可视化资源、可视化领域的流行趋势、教程和如何避雷都是非常有用的。
原标题:《开源专利分析工具(中) | The WIPO Manual on Open Source Patent Analytics》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2026 上海东方报业有限公司




