生死书整站全文索引建立方法
【本文转帖,有所修改。原作者:异尘行者】
请先下载生死书整站,并解压缩。
DocFetcher 快找文件档案内文的轻巧桌面搜寻器,支援中文索引
当您电脑中的档案文件愈积愈多,即使您有做好非常完善的分类目录管理,但人的记忆力有限,到最后您一定无法清楚记得每个档案里面拥有哪些文字内容。而这时候如果您要找出印象中出现在某个文件档案里面的资料内容,即使找对资料夹,却还是免不了要一个一个文件打开来翻找的麻烦。
于是“桌面搜寻工具”这时候就可以派上用场。例如非常有名的GoogleDesktop,它的口号是“资讯桌面找,所想即所得”,这款免费软体会帮您的整个系统档案建立内文索引,涵盖了Office文件档案、PDF档案、电子邮件内容、网路浏览记录等等资讯,以后您只要输入关键字搜寻,就可以找出某一封电子邮件、某一个word档案中符合关键字的文字段落。
不过Google Desktop虽然在功能与支援度上都非常强大,但相对的也是一款颇耗资源的软体,老实说用户并不一定会常常需要使用到那么强大的功能。因此,今天要推荐的就是一款同样免费,不过功能较少却效能较优,甚至还有免安装版的桌面搜寻替代工具:DocFetcher。
- - DocFetcher:http://docfetcher.sourceforge.net/en/index.html
- - DocFetcher下载页面:http://docfetcher.sourceforge.net/en/download.html
- - 可选安装版或免安装版,支援Windows、Linux系统。
- - 需要先安装Java。
我之前有推荐过一款速度超快的搜寻器:“Everything 取代 Windows 内建搜寻,超快速档案检索工具”、“如何让 Everything 从远端电脑搜寻下载本机档案?并整合到 Firefox 搜寻列?”。不过Everything只能用来搜寻“档案名称”,如果您想搜寻档案内文的话就没辄了;而DocFetcher刚好相反,它无法搜寻档案名称,但是却可以搜寻非常多种档案类型的“内文”,而且速度也很快,刚好可以和Everything做一个搭配使用。
01.
来到DocFetcher的档案下载页面,您可以下载Windows或Linux版本的安装档,也可以选择“portable”下载免安装版。
02.
启动软体后,您必须先建立档案内容索引资料库,这样DocFetcher才能够找出这些档案的内容文字。
首先我们可以看到软体主介面左上方有一个“File Type”栏位,您可以在这里勾选想要建立内容索引的档案类型。对生死书整站进行内容索引,只选取 HTML(html,htm,..)即可,也可再选上PDF Document(pdf)。
DocFetcher支援查找的资料格式有:Office、Office2007、OpenOffice的各种文件、表格、简报档案,也可以搜寻PDF档案、RTF档案,当然一般的TXT档案也没有问题。而且,最重要的,DocFetcher能够检索中文内容!
03.
勾选好档案类型后,到左下方的“Search Scope”栏位里的空白处点选右键,选择【Create Index】,然后会弹出一个视窗,询问您要索引哪个资料夹。这里则是生死书整站下载解压后的 www.fosss.org 目录。
DocFetcher在说明档里面提到,如果说Google Desktop的目标是索引整颗硬碟的资料(不过也是可以自订检索范围),那么DocFetcher的设计目的是让您针对特定资料夹分别建立索引,软体作者建议用户只要索引自己有需要的文件资料夹即可。
04.
接着在建立索引的设定对话盒中,直接点选〔Run〕,就能够开始建立索引了。您可以在DocFetcher中为不同资料夹建立多个内容索引任务。
另外值得一提的是,在这个设定画面中,有一个“Text extensions”和一个“HTML extensions”的栏位,这里的意思是说“您要把哪些档案格式当做txt或html来解读”。例如您可以打上ini,这样DocFetcher就会把ini档案当做txt来建立内容索引,让您以后可以查找这些特殊程式档案的内文(对于程式设计者来说应该会有用)。
05.
DocFetcher的建立索引速度颇快,我的测试中检索了428个档案,其中有4个档案无法建立索引(可能该档案有特殊内容格式),整个索引的时间大概只有36秒就建立完毕。
06.
建立好一个索引任务与资料库后,回到软体主介面,在最上方的搜寻栏位输入任何关键字,按下〔Enter〕,就会帮您找出索引资料夹中拥有相同内文的档案。而且还提供了预览视窗功能,点选档案后可以在预览视窗中查看整份文件内容(纯文字),关键字出现之处会用黄色底色标明。
07.
在我简单的测试中,包含docx(Office2007的特殊格式)、PDF等档案格式,也都可以很顺利的查询到里面的中文内容。
另外DocFetcher的搜寻指令基本上跟网页搜寻一样,除了直接输入单一关键字外,您也可以使用复合关键字(or)、组合关键字(+)、排除关键字(-)等等不同的指令来让搜寻结果更精准。
08.
如果一篇文件的内容很长,您可以利用预览视窗右上方的跳转箭头,直接跳到关键字出现的地方。
09.
因为DocFetcher的索引建立速度很快,所以其实您不需要常驻执行DocFetcher,每次打开DocFetcher时还会自动帮您更新已经建立的索引资料;而如果您选择常驻执行DocFetcher,软体也会帮您在资料夹档案有变更时自动更新索引内容。
但是如果您担心更新不够即时的话,也可以直接在索引任务上点右键,选择【Update Index】来手动更新资料。或者您也可以在这里删除任务。
- 小结:
以我这次测试所检索的400多个文件档案,大约500MB的档案容量,而DocFetcher大概整个索引资料库只需要使用1.5MB即可,对于一般用户来说,DocFetcher不会出现因为建立索引而导致占用太多硬碟空间的问题。
当然,如果真的要比较功能,那么Google Desktop绝对是大大的胜出。但是重点就在于,我们是否用得到那么多功能?更何况那是需要消耗非常多效能来满足强大功能的?所以,如果您和我一样只是偶尔想要快速找出拥有某些关键字的文件档案内文,那么DocFetcher虽然功能较少,但已经可以满足我们的需求,而且它建立索引与搜寻关键字的速度都很快,查询中文内容的效果也非常好,相信可以成为工作上一款很有帮助的档案查找工具。