分词

乱弹某家的分词

作为一个严肃的 IT 民工, 对于某家退出这事还是挺关注的, 最近两天比较好玩的一个是 “你妈逼”, 一个是 “美少女战士”, 外行看热闹, 内行看门道, 我们也来乱弹下这里面的门道.

早几年在某家实习的时候, 大概瞄过几眼分词结果, 由于这个内容算是比较敏感的东西, 当时也傻乎乎的对这个没兴趣, 所以没有去看具体怎么做的, 只是觉得怎么这么挫, 分词出来切的这么碎, 你说把 “山谷歌曲” 这样的切开也就算了, 但是自家公司名单独输入时也切开, 这个有点说不过去吧. 后来在搜索结果中看多了, 觉得应该不是这样的, 只是我们都在自作聪明觉得自己很牛叉, 实际上, 最后他应该还是用了很强的方法将其重新粘结起来, 所以效果和更懂中文那家比起来, 应该也是伯仲之间. 下面我们用黑盒测试来分析看看.

回到第一段那两个情况, 第一个由于是粗口, 我们就还是不分析了吧? 还是大家觉得就这种才刺激? 在这个情况里, 真实的原因绝不是因为 “妈” 和 “逼” 两个字是被过滤的而导致只搜出 “你”, 而是 “妈逼” 这个词被过滤, 不信大家分别搜 “你妈逼”, “妈逼”, “妈”, “逼”, “妈了个逼”, 可以发现只有 “妈逼” 俩字挨一起出现才会被过滤, 其他情况都不会. OK, 这里我们得到结论一, 安全搜索里提示的切词结果并不是他们家最终的切词结果, 充其量只能算是最细力度的基本词, 回头他会拼回去的, 而这个拼接功能非常强大.

一上来就拿粗口一句来做样例, 实在是有辱斯文啊, 罪过罪过. 再来看 “美少女战士”, 关于为什么 “美少女战士” 会被提示 “美” “少女” “战士” 被过滤, 而 “少女战士” 等就不会的原因, 见上一段分析, 这里我们分析另一个维度, 请大家去试试看 “美少女戰士”, 是不是什么状况都没发生? 而右上角还是提示我们安全搜索是打开的, 这可以得到结论二, 某家不做简繁转换, 简体就是简体, 繁体就是繁体, 当两种语言来对待, 而且简繁过滤词表不一样.

我刚很犯贱的想去试试看 “胡萝卜”, 结果直接就被盾了, 我真想说功夫网的中文处理能力真的有待提高啊…

OK, 等了一会, 恢复后我们继续. 来看看某家在浸淫输入法也好几年后对中文纠错的情况, 先来个简单的, “开心网”, 没错, 一切正常, 那 “开星网” 呢? 会提示我们是不是 “开心网”, 不过很奇怪, 为什么只有前面两个字飘红了? 再试了下 “开星”, 能纠成 “开心”, 看来是按纠错词来给出建议的, 只标记纠错的部分? 为了验证这一想法, 再试了下 “开心不开星” 这样的纠结查询, 果然. 但是回头当我用 “kaixin”, “kaixing”, “kaixinwang” 再实验的时候, 感觉这个又不是很确定了. 今天在某群里, 一群无聊的人在试各种各样奇怪的查询, 比如 “小泽玛利亚”, 华丽丽的被提示每个字都是屏蔽字, 有了前面分析的结论一, 我们知道这其实是因为这五个字有机结合的时候才被屏蔽的, 但是纠错呢? “小泽玛莉亚” 就丝毫没事, 也不提示我们正确的写法, 抑或这种译名某家也没有说确定哪一个才是正确的? 再试试看 “xiaozemaliya” 呢? 也还是不提示, 仔细看了下, 我用的确实还是简体中文的 .com.hk, 按理应该跟 .cn 逻辑一样啊, 也不给纠错提示, 太失望了, 难怪某家占有率一直上不去, 这种淫民大众的基本需求都满足不了. 但是 “小澤瑪利亞” 这个, 却能飘红 “玛利亚”, 这个让我表示比较理解困难, 同理, 用 “小澤玛丽亚” 会提示 “小澤玛利亚” 并标红 “玛利亚”, 而且搜出来的结果中大多也是简体 “小泽玛利亚”, 这个同样理解困难, 某家的拼接术太强了.

后记, 这些乱七八糟的分析足以见得 IT 民工们都是多么的无聊和猥琐, 连测试用例都这么的圈圈叉叉. 不过另一方面来说, 优秀的 IT 民工还是应该刨开口水战, 去分析看看真正的技术细节是怎样的, 今天发了个搜 “百度” 出 “www.google.cn/sh2009” 的广告截图发出来, 那些喷子们却又一个都不敢说话了, 果然只是一群不值一提的喷子. 截图见 http://att.newsmth.net/att.php?p.26.804632.482.jpg, 怎么弄出这个效果各位自行分析 :)