搜索引擎中的中文分词技术
信息爆炸式增长的时代,百度、Google、yisou、中搜等大型搜索引擎成为获取最新资讯的重要工具,搜索市场价值因此持续攀升。阿里巴巴的商机搜索、8848的购物搜索等垂直引擎相继涌现,搜索引擎技术自然成为技术焦点。
中英文书写方式迥异,但得益于核心技术——中文分词(Chinese Word Segmentation)的发展,国内搜索引擎效果已与国际水平接近。
一、 中文分词与搜索引擎的核心关联
英文以空格分隔单词,如“I am a student”。中文则不同,它以字为基本单位,句子由连续汉字构成含义,如“我是一个学生”。计算机能轻松识别“student”是一个词,却难以自动判断“学”与“生”组合才表达“学生”一词。将汉字序列精准切分为有意义的词,正是中文分词的核心任务。
搜索引擎的价值,并非在于从上百亿网页中找出所有结果(这既不现实也无必要),而在于将最相关的结果优先呈现,即相关度排序。这里,中文分词的准确性直接且显著地影响搜索结果的相关度排序效果。
二、 主流中文分词技术剖析
如何让计算机像人一样理解词语边界?这依赖分词算法。现有技术主要分为三类:
1. 基于词典匹配的分词(原:基于字符串匹配):
此方法依据预设词典进行字符串匹配。常用策略包括:
正向最大匹配法:从左向右扫描,优先匹配最长词。
逆向最大匹配法:从右向左扫描,优先匹配最长词(实践中,其精度常略优于正向匹配,错误率约1/245 vs 1/169)。
最少切分法:追求整体切分出的词数量最少。
实践中常组合策略,如双向匹配(结合正向与逆向)以发现歧义。但仅靠词典匹配远不能满足需求,它通常作为初分手段。系统性优化策略包括:

分词与词性标注一体化:利用词性信息辅助分词决策,并在标注过程反馈校验、调整切分结果。
2. 基于理解的分词:
此方法模拟人类理解过程,在分词时同步进行句法、语义分析以消歧。它依赖分词子系统、句法语义子系统和总控部分的协同。然而,汉语知识的复杂性与机器可读形式的组织难度,使得这类系统目前仍主要处于试验阶段,实用化面临挑战。
3. 基于统计的分词:
核心思想是:稳定共现的字组合更可能成词。通过统计语料中字组合的共现频率(如计算互信息),评估其结合紧密度。超过阈值则视为候选词。此方法又称无词典分词。
局限性在于:易抽取出高频非词字串(如“这一”、“我的”),且对常用词识别精度不高,时空开销大。因此,实际系统多采用混合策略:结合基本词典匹配保障效率与基础词识别,辅以统计方法应对未登录词和上下文消歧,扬长避短。
目前尚无单一算法绝对最优。成熟的分词系统普遍采用“复方”策略,如同中药复方组合不同药材,综合运用多种算法处理不同挑战。
三、 中文分词的核心挑战
即使算法成熟,中文的复杂性仍带来两大难题:
1. 歧义识别难题:
交集歧义(组合型歧义): 如“表面的”可切为“表面/的”或“表/面的”。类似,“化妆和服装”有“化妆/和/服装”或“化妆/和服/装”两种可能。计算机缺乏人类知识,难以抉择。
组合歧义(交集型歧义): 同一字串在不同语境中是否成词需整体判断。例如,“把手”在“门把手坏了”中是词,在“请把手拿开”中则不是;“中将”在“任命中将”中是词,在“三年中将增长”中则不是。
真歧义: 即使人类,脱离上下文也可能无法判定切分。如“乒乓球拍卖完了”既可理解为“乒乓/球拍/卖/完了”(卖球拍),也可理解为“乒乓球/拍卖/完了”(拍卖会结束)。
2. 未登录词识别难题:
未登录词(OOV)指未收录于词典却实际成词的字符串,主要包括:
人名: 如“王军虎”。收录所有人名工程浩大,且存在边界模糊问题(如“王军虎头虎脑”中“王军虎”是否仍是人名?)。
地名/机构名: 如“李家庄”、“联合国”。
专业术语/品牌名/新涌现词汇: 如“给力”、“山寨”、“GDP”。
这些词恰恰是用户高频查询词,故未登录词识别精度已是评价分词系统性能的关键指标之一。