ASO优化组词方法

标签：

　　组词看似简单，但涉及搜索引擎的分词和检索的基础知识，如果对这些不清楚，就经常会产生如“支付宝”和“宝贝”能否组合成“支付宝贝”这样的疑惑。因此，本文就首先简要介绍下组词和分词和搜索的基本知识。

　　组词方法

　　因为搜索系统是以“词”为基础单位进行检索的，因此，首先需要对关键词进行“分词”。然后就是具体的“组词”过程了。

　　“组词”就是一个分组的过程，我们利用的是机器学习中的“在线聚类”技术，其实就是把字符串中有相同子串的词组合在一起，然后不断循环，直到没有重合的词出现。组词过程中，我们考虑到苹果的规则，一个“词”不能过长，否则可能会被认为是关键词堆砌，因此，我们限制了组词的最大个数，就是最多组合5个词。

　　分词技术

　　现代搜索引擎，都是以“词”为基础单位进行设计的。词是最小的有意义的语言成分。英语等字母语言，其单词天然按照空格隔开，但中文等东亚语种，其词之间并没有明显的分隔符，因此就产生了“分词”的需求。“分词”就是把一个汉语字符串分成一个个词的过程。

　　分词的例子如“腾讯新闻”的分词为：“腾讯 | 新闻”，“网易新闻” 的为“网易 | 新闻”。

　　由于中文分词经常会有“歧义”现象，如“兵乓球拍卖完了”可切分为“乒乓球 | 拍卖 |完了”又可以切分为“乒乓球拍| 卖 | 完了”，针对这种情况，搜索系统一般会把两种分词形式都记录下来，以供搜索时使用。

　　搜索的基础：词袋模型(word of bag)

　　“词袋模型”是搜索引擎中的一种简单假设，其不考虑词的“顺序”，认为一个文本就是

　　是一堆词的“集合”。也就是如两个文本“腾讯新闻”、“新闻腾讯”，对搜索引擎而言，是完全一样的。这种假设也是我们能够进行组词的基础。

想了解更多的ASO优化方案点击这里“北京ASO优化”

数字营销