本帖最后由 liyuanhe211 于 2017-7-16 18:18 编辑
用一般软件搜索群聊Q&A记录的时候需依次查看检索结果,相关检索不容易实现(如检索“原子电荷”和“弥散”在同一次讨论中出现的记录就不太容易)。故写了一个用于检索以往群聊Q&A记录的程序,程序很短、也没什么高端搜索算法,但基本够用→_→
程序在此处下载:【链接: https://pan.baidu.com/s/1hs9OSxY 密码: jqu8】,仅在Windows上测试过。
程序里自带了一个较旧的记录。要检索新记录请在使用前在如下板块(http://bbs.keinsci.com/forum.php ... r=typeid&typeid=224)下载聊天记录的既往全文,放到程序(.exe文件)所在的目录下。既往全文不定期上传,请适时更新。
使用很简单,直接输入关键词、回车就可以了。
支持 空格 表示前后关键词需都存在,“or” 表示其两侧的关键词存在其一即可,“-” 表示去除某关键词。不支持嵌套逻辑。
“-” 、“or”、“或” 前后须有空格与关键词分离。
如下图的关键词可有效搜索关于碘该用什么基组的回答
减号主要用于排除一些中文分词造成的问题,比如想搜金元素的基组,但“金”会搜出含有“金属”一词的结果,故“金 - 金属”关键词的结果就比较好。
已知的问题:
程序第一次加载新的聊天记录时较慢,需几秒钟,是在从文本文档建Python对象,暂时没空优化。
不支持依次加载,如果搜了某个会有几千条结果的关键词(比如“Gaussian”,比如作为标志的“Q:”、“A:”)会卡着很长时间,换个更“专一”的关键词重来就是了。
Highlight的时候没做分词,比如搜Au的时候会把Gaussian也给highlight,不影响搜索结果,只是显示问题。
做文字高亮会消耗一点时间,所以弄了个Without Highlight按钮,如果不想等这几秒钟可以不用回车,而是去点这个按钮就可以了。
|