预处理指将关键词进行字符转化、删除、截断处理方便后续进行分析。其目的是转化和简化关键词,更好的理解用户意图,以提供更合适的搜索结果。
预处理具体分为以下几种能力:
1)拼音转文字
输入拼音时可转化为文字进行结果查询,如:输入“chanpinsheji”,将转化为“产品设计”进行搜索。就从个人日常使用搜索功能而言,常会忘记切换输入法直接输入了拼音,此时提供该能力也能进行有效搜索时是能带来体验上的惊喜感。
功能虽好,但也不一定产品内所有搜索功能都需要加上拼音转文字能力,这个也是需要结合当前搜索场景和用户行为具体分析是否为一个高ROI功能。
如:在一些B端 CRM系统中客服人员会通过搜索客户名称进行资料录入,此时的搜索场景大多是在IM聊天窗口中复制客户名称再粘贴到搜索框中从而完成搜索行为。此时的搜索大多不会牵扯到手动输入,此时拼音转文字能力作用也不大。
2)大小写转换
大写字母转换为小写字母进行结果查询,即不论用户输入大写或小写字母都能查询到对应结果。
如:输入“f6”,能搜索出大写“F6”的内容。

该能力适用于带有字母的结果数据。举个例子,在ERP系统中有大量的企业物资信息,其中对于一些固定资产通常会以“楼层+设备名+设备编号”来进行命名,如:“F6-iMac-7842”,字段为大小写字母混排,存在较高的输入成本。若提供大小写转换,则直接输入“f6-imac-7842”也能出现对应结果。
3)繁简体转换
将繁体字转化为简体字进行搜索,该能力则适用于涉及到繁体字使用习惯地区用户,本次就不再赘述。
4)无意义字符移除
无意义字符包括特殊符号(emjio、表情符号、连续的空格符等)和无意义字符(“的”、“了”、“么”、“哈”等语气组词)。无意义字符会打包成一个《停用词库》作为搜索配置库存在,且目前有大量的开源《停用词库》可直接调用,所以具体停用哪些字符可基于开源词库的内容再结合业务诉求进行增删。
举个例子,在飞书文档中输入“会议”且中间插入多个空格,依旧能搜索出带“会议”的文档。
注意看输入框下方第一行文字“在高级搜索中查看 ‘会 议’”,将“会 议+6空格”缩短成“会 议+1空格”,仅保留了一个空格作为分词符,去掉了多余的空格符。
