Month: 3 月 2010

每日愤一句: 愚人节快到了

Posted on 2010年3月28日 by snoopy

今天看很多人转了那个不配合强奸而被判刑的新闻, 第一反应是无语, 然后笨狗一起加入脑残队列默默鄙视了派对很久后, 突然有人指出, 2009/02/31 是哪一天? 玛雅历还是?

所以说, 从某种角度上来说, 我还是支持土共的言论控制的. 天朝子民对谣言完全没有任何分辨能力, 太容易成为不明真相的群众.

土狗这次也很脑残的成了一把不明真相的群众, 同时土狗认为, 散播这种言论的, 不管是在哪个国家, 都够蹲监狱了吧? 这种 Joke 就算放到愚人节也还是恶劣的, 愚人节不意味着什么都可以乱来, 言论自由也不意味着就可以随便造谣.

为什么我对谷歌退出完全没感觉 (谷歌非 Google)

Posted on 2010年3月26日 by snoopy

首先说明, 这篇文字完全是个人看法, 里面包含了非常多的个人偏见在里面, 我无法代表任何其他人或组织, 并无法指定任何其他人或组织对此文负责, 我同时无耻的表示不对此文任何内容负责.

谷歌走了, 网络上顿时又热闹了好多, 有被扣五毛的人在兴高采烈奔走相告, 有被扣七美分的人在如丧考妣痛心疾首, 笨狗其实是有那么一点高兴的, 但是也有不少忧虑, 好不容易确定下来自己人格分裂到底是因为啥, 回头发现已被扣帽子无数. 于是笨狗觉得春天都已经来了, 这么多帽子带着还是很影响视野的, 加上帽子被扣这么多顶, 而不管是五毛还是七美分都没见到一张, 很是忿忿不平, 于是想嚎叫两句提醒下编制内的人也拉编制外的人一把.

扯淡结束, 回归主题. 先还是明确几点, 如果讨论的基础都不一样, 那讨论就只能是毫无意义的对骂, 我的出发点如下:
1. 谷歌将服务器撤出中国大陆, 转而在香港地区为中国大陆提供服务
2. 撤离的是谷歌, 即 Google.cn, 而非 Google, 即 Google.com 及其他

之所以强调 Google 不是谷歌, 是因为看起来虽然是一家, 但是这两边提供的服务还是太不一样. 就比如反对网络审查的人指出的, 谷歌有自我审查机制, 而 Google 没有, 再比如只在 .cn 上与第三方合作提供的音乐, 问答, 来吧等服务. 有自我阉割的谷歌退到了大陆以外, 似退实进, 因为现在不用自我审查了, 而且又还能提供那些 Google 全球没有的特色服务, 在某些敏感词上被盾就被盾, 反正在大陆也要被阉掉, 还不如让盾掉, 反正真心想找的人, 翻墙或遁地技术绝对都能过去.

今天看到一个分析说西方政治和中国政治的导向不一样的帖, 里面有一点提到是: 西方都是精英领导民众, 民众渴望被精英认可, 而我天朝是草根引领潮流, 领导必须对大众妥协. 我无意掺和太高深的东西, 只是从工程师的角度来看这个, 也觉得很有意思. 不管是外面的报道, 还是我自己的亲身体验, Google 都是一个工程师推动的企业, 非常多的产品或新特性, 都是由聪明绝顶的工程师们想出来再向大众推广, 大众里的精英接受后再继续推广开来, 这一点上表现最明显的就是 Gmail, 最早的邀请机制保证了参与人的质量, 并通过这些人对高阶功能的使用而让产品品质快速迭代, 然后再逐步开放给那些用什么邮箱都无所谓的普通用户. 相比之下, 大陆的那些成功产品, 比如百度贴吧, 知道, 无不是工程师们向广大网民妥协的结果, 而非工程师强势引导民众跑步前进. 回到谷歌身上, 当年李开复先生宣布谷歌这个名字之时, 就应该是考虑过在大陆的妥协性战略方向, 所以会有后来的输入法, 有天涯问答和来吧, 以及 g.cn 的域名, 265 导航, 以及我非常喜欢的谷歌音乐, 但是妥协并不能违背原则, Google 之所以经常被当作正义一方, 很重要的一个原因是其 “不作恶” 这一句话.

但是在大陆的谷歌是否能和 Google 一样, 维持 “不作恶” 呢? 关于这个问题, 我是持否定态度的. 姑且不说所谓的输入法词库抄袭事件啥的, 就看看谷歌收入, 看看有多少收入是不干净的, 有兴趣的可以去搜搜看 “新蛋”, 如果不出意外, www.360buy.com 这个网站是会出现在广告位置的, 而且默认应该是在左侧第二位, 对此笨狗表示笑而不语. 如果不出意外, 不少看客这时候会立马给我扣一顶五毛的帽子, 然后说百度那么多垃圾广告你怎么就看不见. 笨狗的观点只是: 如果你一直坚持自己是清白的, 那就应该一直清白下去, 不能因为别人一直不清白就可以让自己偶尔不清白下. 这句话说的再难听点, 就是, 立了牌坊就不要做婊子. 可惜的是, 谷歌在大陆一次又一次的突破自己的底线, 最后终于表示忍无可忍无须再忍直接跑路了, 就无须再忍跑路一事, 只要是正常人都会叫好, 但是如果扯上说忍无可忍, 笨狗就觉得比较扯淡了, 如果真的坚持原则坚持底线, 那就应该在第一次最痛的时候大叫出来, 而不是这么多次后突然觉得不爽了要抽身离开, 而且就算这时候走, 也就不用再装的跟个雏一样.

前面说不满, 后面说希望. 谷歌离开大陆, 在很多大是大非上就可以很坚定的坚持原则了, 虽然有被盾的危险, 但是比起在国内被要求自我阉割, 显然可以理直气壮的说我不作恶, 作恶的是万恶的功夫网. 这样做, 减少了自我阉割的工作量, 即让产品做的简洁高效, 又能占领道德制高点, 何乐而不为, 而且撞墙本来就是小概率事件, 我 diang 还不至于让大部分正常的请求都撞墙上的, 毕竟墙也不一定扛得住. 至于某些人担心的说以后我 diang 将 Google 全部盾掉, 个人觉得应该不会, 只要把那些不听话的盾掉就可以了, 而且 Google 又不傻, 除去我 diang 那些无理取闹的要求, 大部分事情就算我 diang 不要求, 他们自己也会做包括暴力/色情等自我审查和过滤的. 盾掉 YouTube, Twitter, Facebook 这些对普通群众影响真的不大, 我们有 youku, 新浪微博和开心/校内, 但是正如大多数人指出的, 盾掉 Google 会使得学术界和技术领域很受伤, 而国内的百度等搜索引擎完全无法提供一个端的上台面的英文或其他外语搜索服务.

最后还是扯开一下, 笨狗非常不理解那些有二分类嗜好的人的想法, 为啥每次一扯到 Google 就一定要拉上百度, 如果 Google 利益受损, 那百度一定在后面干了手脚从中得利, 如果有人反对 Google, 哪怕是一直支持, 只在某些特定事件上反对 Google, 那一定是百度的走狗. 到底是真的大脑部分受损或只是为了逞一时口快乱骂一通? 是不是这些人也被我 diang 教育的很好, 不是好人的一定就是坏人, 不是坏人的就一定是好人. 电影里共军打日军打国军, 所以共军是好人而日军国军都是坏人, 那沪松保卫战血战台儿庄的国军呢? 他们面对日军时是好人还是坏人? 生活… 真的不是一个二分类问题.

乱弹某家的分词

Posted on 2010年3月25日 by snoopy

作为一个严肃的 IT 民工, 对于某家退出这事还是挺关注的, 最近两天比较好玩的一个是 “你妈逼”, 一个是 “美少女战士”, 外行看热闹, 内行看门道, 我们也来乱弹下这里面的门道.

早几年在某家实习的时候, 大概瞄过几眼分词结果, 由于这个内容算是比较敏感的东西, 当时也傻乎乎的对这个没兴趣, 所以没有去看具体怎么做的, 只是觉得怎么这么挫, 分词出来切的这么碎, 你说把 “山谷歌曲” 这样的切开也就算了, 但是自家公司名单独输入时也切开, 这个有点说不过去吧. 后来在搜索结果中看多了, 觉得应该不是这样的, 只是我们都在自作聪明觉得自己很牛叉, 实际上, 最后他应该还是用了很强的方法将其重新粘结起来, 所以效果和更懂中文那家比起来, 应该也是伯仲之间. 下面我们用黑盒测试来分析看看.

回到第一段那两个情况, 第一个由于是粗口, 我们就还是不分析了吧? 还是大家觉得就这种才刺激? 在这个情况里, 真实的原因绝不是因为 “妈” 和 “逼” 两个字是被过滤的而导致只搜出 “你”, 而是 “妈逼” 这个词被过滤, 不信大家分别搜 “你妈逼”, “妈逼”, “妈”, “逼”, “妈了个逼”, 可以发现只有 “妈逼” 俩字挨一起出现才会被过滤, 其他情况都不会. OK, 这里我们得到结论一, 安全搜索里提示的切词结果并不是他们家最终的切词结果, 充其量只能算是最细力度的基本词, 回头他会拼回去的, 而这个拼接功能非常强大.

一上来就拿粗口一句来做样例, 实在是有辱斯文啊, 罪过罪过. 再来看 “美少女战士”, 关于为什么 “美少女战士” 会被提示 “美” “少女” “战士” 被过滤, 而 “少女战士” 等就不会的原因, 见上一段分析, 这里我们分析另一个维度, 请大家去试试看 “美少女戰士”, 是不是什么状况都没发生? 而右上角还是提示我们安全搜索是打开的, 这可以得到结论二, 某家不做简繁转换, 简体就是简体, 繁体就是繁体, 当两种语言来对待, 而且简繁过滤词表不一样.

我刚很犯贱的想去试试看 “胡萝卜”, 结果直接就被盾了, 我真想说功夫网的中文处理能力真的有待提高啊…

OK, 等了一会, 恢复后我们继续. 来看看某家在浸淫输入法也好几年后对中文纠错的情况, 先来个简单的, “开心网”, 没错, 一切正常, 那 “开星网” 呢? 会提示我们是不是 “开心网”, 不过很奇怪, 为什么只有前面两个字飘红了? 再试了下 “开星”, 能纠成 “开心”, 看来是按纠错词来给出建议的, 只标记纠错的部分? 为了验证这一想法, 再试了下 “开心不开星” 这样的纠结查询, 果然. 但是回头当我用 “kaixin”, “kaixing”, “kaixinwang” 再实验的时候, 感觉这个又不是很确定了. 今天在某群里, 一群无聊的人在试各种各样奇怪的查询, 比如 “小泽玛利亚”, 华丽丽的被提示每个字都是屏蔽字, 有了前面分析的结论一, 我们知道这其实是因为这五个字有机结合的时候才被屏蔽的, 但是纠错呢? “小泽玛莉亚” 就丝毫没事, 也不提示我们正确的写法, 抑或这种译名某家也没有说确定哪一个才是正确的? 再试试看 “xiaozemaliya” 呢? 也还是不提示, 仔细看了下, 我用的确实还是简体中文的 .com.hk, 按理应该跟 .cn 逻辑一样啊, 也不给纠错提示, 太失望了, 难怪某家占有率一直上不去, 这种淫民大众的基本需求都满足不了. 但是 “小澤瑪利亞” 这个, 却能飘红 “玛利亚”, 这个让我表示比较理解困难, 同理, 用 “小澤玛丽亚” 会提示 “小澤玛利亚” 并标红 “玛利亚”, 而且搜出来的结果中大多也是简体 “小泽玛利亚”, 这个同样理解困难, 某家的拼接术太强了.

后记, 这些乱七八糟的分析足以见得 IT 民工们都是多么的无聊和猥琐, 连测试用例都这么的圈圈叉叉. 不过另一方面来说, 优秀的 IT 民工还是应该刨开口水战, 去分析看看真正的技术细节是怎样的, 今天发了个搜 “百度” 出 “www.google.cn/sh2009” 的广告截图发出来, 那些喷子们却又一个都不敢说话了, 果然只是一群不值一提的喷子. 截图见 http://att.newsmth.net/att.php?p.26.804632.482.jpg, 怎么弄出这个效果各位自行分析 :)

每日愤一句: 很多事并不是非对即错的 [1]

Posted on 2010年3月25日 by snoopy

最近互联网很热闹, 帽子也很多, 鉴于某狗向来喜欢凑热闹又喜欢插嘴, 帽子更是被扣了一顶又一顶

主流的逻辑有这么一条: 反对 Google 的一定就是五毛, 一定支持 GFW 和网络审查

这个是不是有点太偷换概念了? 我喜欢 Google, 但是不爽 Google 这次的行为, 反对 GFW, 支持有限度的网络审查 (比如现在谷歌在香港的安全搜索, 屏蔽色情和暴力), 那我算啥? 到底是五毛还是七美分?

为啥这个世界上很多事情明明不是二分类的要被逼成二分类? 这又不是非对即错, 又不是试卷上的判断题, 而且就算是一个判断题, 比如是否支持谷歌退出中国大陆这一个问题上我选择支持, 那又如何? 你怎么知道我为什么支持他走?

ps. 诚心求五毛或七美分编制, 本人长期从业 IT 相关, 曾在 Google 和百度实习, 可以爆更多猛料

淫诗一首

Posted on 2010年3月20日 by snoopy

从前有座山
山上起个坡
坡间插把伞
伞面洞儿破

仅此献给有道贵公司的 Sempr

碎碎念 2010/03/19

Posted on 2010年3月20日 by snoopy

0x00. 半天能搞定的事情做了两天, 终于做完了, 那啥, 与啥斗其乐无穷来着
0x01. 其实大家都可怜, 大家都缺人手, 看着四个 OP 给我们四十几个人上东西, 还这么快的迭代策略, 也难为他们了
0x02. QA 老大昨天跑过来溜达, 大家互相诉苦, 期间某人突然来一句 "我要插一个模块去测试", 那一瞬间, 我分明看到了 QA 老大眼里飙出的浓浓杀意
0x03. 很多看起来毫无联系的事情, 其实是有联系的, 比如武广高铁开通和武大的樱花节, 据说现在很多珠三角的人跑去武大看樱花了, 所以为了避免过多无痛的人流, 是不是应该把门票加贵点, 让人流们都痛一下? 不然珞珈山樱花园人实在是忒多了点
0x04. 3/14 其实还是另一个神奇的数字和日子, 不知道做 WOJ 的人是否还记得 TLE 会超多少, 那就是第一个写内核的人的生日, 哈哈哈哈 (不是我)
0x05. 更新了下星际大脚, 现在改 AI 做的很自动化了嘛, 还能选族, 不就跟单机版差不多了, 只是地图少了点
0x06. 江南此时应该早就春暖花开了, 而北国还是一片荒芜, 前几天晴了下, 这两天又都灰蒙蒙的了, 据说有沙尘暴?
0x07. 暖气似乎也该被停了? 还好现在天气已经暖和, 晚上睡觉一定要关门啊, 不然有暖气也还是冷了点
0x08. 无聊理工男们总还是能从无趣的工作中找到无尽的萌点的, 唉, 生活还是要这样穷开心下, 不然过的也忒惨了
0x09. 看了下那个 81 年的美女漫画家夏达, 果然是太震撼了, 素颜时也还是很萝莉的嘛…
0x0a. 还有天涯上那个飞屋, 直接导致小强反思其生活没有目标, 做的太华丽了, 所以我昨天去把 SketchUp 又下载下来并装上, 今天跟原作者要到飞屋的 .skp 和 .skb, 做的还是很赞, 我还是先看看能不能把现在住的这个房子给建模吧
0x0b. 昨天跟同组的同学吃饭, 被问说实习赚这些钱都去哪了, 想了下, 好像也没干啥, 没玩啥大的, 也没买啥大件东西, 就这样交点学费, 自己生活费花花就没了
0x0c. 还是说实习, 说这样过的是不是太累了… er. 这个我能说啥呢, 其实我还是懒人一个, 只不过, 起跑线就这样了, 也只能笨鸟先飞笨狗先跑了吧
0x0d. PayPal 这个流氓, 注册居然都要收 1$, 然后验证卡又是 1.95$, 最可恨的是招行还是没给我在系统里生成对应的账单, 虽然邮件里有, 但是就是没找到 PayPal 说的那四位验证码
0x0e. 一定要把 TopCoder 上那几毛钱要回来, 不能进行无谓开销了, 然后 TopCoder 的人也不理我, 无语
0x0f. 又会是一个加班的周末, 不过还好, 终于能踏实点睡懒觉了
0x10. 大家周末愉快, 春暖花开正是春心萌动好季节, 出门看能否碰上那个 TA, 或者牵上你那个 TA 出去玩吧

碎碎念 2010/03/16

Posted on 2010年3月17日 by snoopy

0x00. 两个星期了, 终于有一个实验结果是正向的了, 泪流满面, 虽然这个结果最后会因为别的因素还是会被砍掉
0x01. 昨天跑去和 zouyu 吃饭, 顺便参观 IW, 结果饭间被老大电话殴, 说上线都没上完怎么就跑了… 那个明明是都做了无数次的操作了, 而且两个单合一起, 我都找人托管了
0x02. 连 IW 的电脑都比我们的好, 泪奔啊
0x03. 可怜的熊被 IW 三人轮流洗脑… 要不下次把 zouyu 拉过来被我们洗一把?
0x04. 昨天上午都在很纠结的写邮件, 给人发好人卡也还是一挺纠结的事… (此处被发卡的不是自然人…)
0x05. 然后答应给人 MM 介绍 BF… 看我多么一助人为乐的好青年
0x06. 周日称重, 终于回到 65kg 以内了, 希望 fm 家的秤不是有问题的
0x07. 食欲回归, 淡而无味的心情终于过去, 少纠结多干活, 能吃能睡能干活才是王道
0x08. 一个人住确实还是懒了很多, 回去后太安静所以都很晚回去, 然后继续说自己没时间搞卫生, 洗衣机漏水的毛病想过也没弄, 加湿器不出雾也没去再折腾
0x09. 周日下雪, 周一就晴空万里, 如果我不睡那么晚, 清晨的阳光还是多美好的, 只是现在都是明晃晃的把我从梦里照醒
0x0a. 我度股价直有甩开 GOOG 的态势, 可喜可贺, 可惜现在新员工还是一股都没, 不然给个 100 股都快够首付了
0x0b. 很 ws 的说去给 g.cn 献上五毛一张, 后来还是觉得不如拿去坐公交更有实际意义, 作罢
0x0c. 最近几个日子都很有意义, 3.12 植树节, 我们写下一颗二叉树… 3.14 没有情人的宅男们好好过 Pi 节, 3.15 居然能发现用 HP 本的人所在宿舍一般蟑螂会比较多, 3.16 实名制五年?
0x0d. 貌似如果还在武大, 这时候已经开始疯狂腐败了吧? 吃饭的高峰期要来了, 啥时候还是去趟南京或者上海? 哥们几个再去搓几顿?
0x0e. 据说武大的樱花要开了, 不知道为啥, 突然就想起来东邪西毒里说桃花的那一段
0x0f. 只可惜一直到在武大最后一年, 也没能在入夜后的橘黄路灯下, 能有人携手在樱花大道缓步而过, 看落樱缤纷, 看人面桃花更羞媚
0x10. 装纯情完毕, 回归死宅男, 打的回家, 洗澡睡觉去

碎碎念 2010/03/14

Posted on 2010年3月15日 by snoopy

0x00. 今天 Pi 节, 3.141592653589793, 只能背到这里了
0x01. 今天白色情人节, 貌似也没人给我送巧克力
0x02. 今天出门时间不到十分钟, 就下楼买了几个鸡蛋和青椒
0x03. 连续五天没上班, 心玩野了很多
0x04. 感觉还是很对不起某 HR 的, 出去白吃白喝白玩… 虽然事先说好了这事和另一事无关
0x05. 大家终于都从前段时间那个大坑里跳出来了, 不过确也不知道接下来做啥了, 大量的前期调研都是负向结果, 好伤心
0x06. 跟胡杨一起觉得某人好腹黑… 大家都被表象骗了
0x07. 昨天下午一句话就跑飞鼠家去三国杀和杀人了, 半夜两点走人回家, 人少了杀人还是不好玩
0x08. 过了这么久, 再跟 feli 同居一室, 居然还能半夜扯到三点多, 而且都没有任何 ws 的话题
0x09. 认识了很多很有意思的新朋友, 再次强烈鄙视某掌公司今年的校招政策, 放走了多少有潜力的人啊
0x0a. 不过跟不少人说过自己的纠结后, 大部分人还是觉得我这样的情况应该留在某掌
0x0b. 昨天半夜写周报时才发现, 似乎上周啥事都没做成, 只上了两天班, 其中有一天还是在不断的谈人生谈理想中度过的, 剩下一天做的事情全部负向结果
0x0c. 北京又是大雪, 还好周五回来洗澡之前看了天气预报, 英明神武的继续穿着保暖内衣, 不然明天早上就傻叉了
0x0d. 系统还是总有点奇奇怪怪的小毛病, 在考虑是不是找个良辰吉日重装算了
0x0e. 小强是个勤俭节约的好人, 居然让我把北京的路由寄去上海… 虽然说我也只有电脑要上网, 但是拖根网线明显要不爽很多…
0x0f. 响应号召写满 0x0f
0x10. 无聊进一位玩玩

碎碎念 2010/03/09

Posted on 2010年3月10日 by snoopy

0x00. 北京下了一天大学后立马变成晴空万里, 含冤得雪?
0x01. 貌似要干一件非常伤 RP 的事情…
0x02. 今天一天基本上就是在跟各个老大谈人生谈理想… 好困
0x03. 又来 "你看你当年就不该回去读研的" -______-||
0x04. 最近一两周的工作很不顺心, 感觉是那种奇怪的瓶颈阶段, 想法都不奏效, 也没别的好的 idea 出来
0x05. 所以可以安慰自己出去散心换个环境思考下问题也是个不错的选择
0x06. 开始觉得一个人的孤单, 了无人气自己会不会变得越来越孤僻?
0x07. 睡眠不足?
0x08. 缺乏锻炼, 周末去游一次泳, 大部分时间都只是泡着而已了, 体力明显不行加上怕抽筋
0x09. 我是永远向着远方独行的浪子

统计学时代

Posted on 2010年3月6日 by snoopy

// 友情提示, 本文又意识流了, 不喜欢这种风格, 不想大脑被打结的请绕行

昨天跟着一群无聊的人一起看腾讯 QQ 在线超过一亿, 峰值大概是 103.29M 的样子, 又是一个新的统计学时代的标记.

一亿同时在线, 意味着什么? 就算我们考虑上那些无聊开 N 个 QQ 挂着的, 就算考虑上那些开着 QQ 但是人不在电脑前面的, 就算加上越南版南非版等大部分人闻所未闻的奇怪版本, 这个数字还是异常夸张的. 同时还可以看到 QQ 游戏最高有 625 万同时在线, QQ Live 最高有 301.9 万同时在线. 在对特殊个体提供服务的同时, 很多策略都更多的是考虑大部分人的需求了. 拥有这么大的用户群, 真的是插根筷子都能发芽, 竖根扁担就能开花. 看看 QQ 影音, QQ 拼音等产品现在的装机量, 再想想现在腾讯还在憋的那些产品, 包括已公开的包括影像医生, 和只是招聘信息里泄漏出来的杀毒产品, 真的只能感慨以后除了微软, 是不是整个桌面都会交给腾讯? 至少目前, 我的机器上的绝大部分都被这两家占据了, 操作系统用 Windows7, 办公软件用 Office 2010, 杀毒用 MSE, 听歌用 WMP, 沟通用 TM, 输入用 QQ 拼音, 看电影用 QQ 影音, 下东西用 QQ 旋风, 管理软件用 QQ 软件管理器, 为了应付大陆太过猖獗的流氓软件而用 QQ 医生, 不多的非 M 非 T 的有 Chrome (虽然我也同时用 IE8), SecureCRT (这个没找到好的替代品), WLM/Hi/LibFetion 几个 IM, Adobe Reader, 7zip, 金山词霸 (这个其实用的少了, 只是装着)

前面那些都是没有联系和实际意义的感慨, 真的感慨是在实际的数据上做了这么久的数据挖掘和机器学习后改变的世界观. 以前总以为学习应该是攒够感性认识后再积淀抽象成理性认识这样的过程, 而经典的知识大部分确实都是这样得来的, 而以前所谓的量变引起质变, 说的大概也就是这么一回事. 但是在信息爆炸数据狂潮里, 要想再这样从感性认识提升到理性认识这个过程实在是太慢了, 我们需要大规模的数据挖掘和机器学习方法来加速这个学习过程, 而这个过程给我的感觉更多是不可控的 :( 并不是说我不明白里面的原理, 特征, 拟合方法等完全看不懂, 而是在海量数据上, 直观感觉往往并不靠谱了, 加上数据分布和数据噪声可能远不是我们想象的那样, 直观上的感觉在最后只会错的更离谱.
按照官方的报告, 中国大陆网民已接近四亿, 其中百度的用户有 80%, 那么保守估计一天里会有至少一亿独立用户会访问百度并进行搜索, 这里说的是一亿的独立用户, 他们的搜索行为绝对远不止一亿, 那么在这一点上, 每天积累的用户数据也是难以想象的海量. 互联网发展到现在, 包括信息检索等技术发展了这么久, 很多直观的规则系统都已经被几乎榨干了潜力, 再想提升就只能去分析用户们各种行为下暗流涌动的奇怪特性, 从而提供更贴近大多数人需求的服务. 这里有一个比较有意思的点, 正如最前面说腾讯的时候说道的, “大多数人需求”. 到了这样一个统计学意义上, 除非一些特别恶劣的特殊情况需要保证一定要纠正, 剩余的已经不能拿抽样来很好的说明问题了, 除非抽样能足够大, 而且抽样后的评估也能完全模拟千奇百怪的网民行为, 否则抽样并不能很好的说明问题, 而最终反应在统计层面上的使用率等才有参考意义.

刨开那些简单的用规则和用机器学习实现没区别的简单特性, 在超大规模的数据下, 越来越觉得机器学习的不可控性越来越大, 很多直观的想法一经实现都会发现只有负面效果, 而很多无心插柳的改进都很不好从前往后推, 只能从结果来分析原因. 我讨厌这种不可控的感觉, 虽然很多时候可以解释成我们的想法太 geek 太高端, 虽然说我们已经努力降低 IQ 下限去站在最广大网民的角度去思考问题但是还是不够, 但是, 在一直出现与预期相差甚远的结果时, 总还是会有那么一点抓狂那么一点沮丧. 虽然还是坚信这个世界总是可以通过可以描述的规律来解释其运转的, 但是发现这样的规律已经越来越飘渺, 越来越不被我等凡人所能理解和掌控.

在互联网这个用户可以完全放心用鼠标和键盘投票的地方, 好和坏还是很容易区分的. 在把基于规则的经典方式做到极致后, 只能通过引入基于学习的方法来提升效果, 而在极致上再做调整, 任何的扰动可能都会带来无法想像的后果. 一直认为, 企业如果需要建立在海量用户上, 那么用户信息便是一个绕不开的巨坑, 此用户信息不一定是用户的具体隐私信息等, 而只是一些使用习惯或其他的行为统计数据, 而且这些数据应该是非特定指向的, 即里面的每条信息的置信度大致一样 (由于需要处理作弊等特殊情况, 不能说完全同等置信度, 或者说经过数据清洗后, 置信度会完全一样). 像 Google 百度这样有传统的搜索引擎很难撼动就在于其拥有的用户数据太多, 很多可能带来扰动的因素都已经被他们纳入机制内, 而后来者如果需要追赶, 也只能是走一样的路, 但是在市场已经有领头羊, 这些数据是否还能有同等置信度就很难说了. 比如谷歌中国累积的那么多数据, 是否就能推广到 80% 以上的中国网民上? 用大多数是受过高等教育, 且学术和政治倾向明显的用户产生的数据来推广, 也只能在同类用户群上获得更好的效果吧?

把视野放开来, 在 SNS 上如果进行充分的数据挖掘和学习, 最终对用户的反馈到底会是怎样? 是会由少部分的先进生产力带动整体, 还是大多数的白痴会传染以致整体越来越白痴? 不过应该还好, 他们的一些基本规则还能在机制里生效, 很多底线最好还是不要过的好. 在桌面软件领域, 如前所说, 腾讯的那么多用户可以一直很快乐的做小白鼠, 在给腾讯提供足够的直接反馈的同时也在统计意义上给出更多的功能取舍选择, 微软和 Google 经常说取消某功能的理由也是 “绝大多数用户不用而且这个功能确实没太多用”, 在这样的迭代速度下后起之秀们估计很难壮大起来了, 毕竟现在技术壁垒已经越来越低, 而用户和数据壁垒越来越高, 而且只要有壁垒的一方不自杀, 那这个壁垒只会继续高下去, 而丝毫不会降低.

就在写到这里的时候, 抽开去看了下说 “360 安全恐吓” 的无敌招数, 这个也算是一个学习和规则并存的产物吧, 看多了 QQ 群里 “xxxx 就送 10 QB” 这样的骗子自然知道是骗子, 但是就这种雉还是会越来越多, 那么从统计意义上这个方式就还能继续生效, 然后只要对这样的方式进行微调, 也许又可以推广到别的领域继续兴风作浪 (比如 360 的安全恐吓?).

在用户的整体素质没得到提高之前, 统计意义上为贴近用户的改进大多还是只能让用户的整体素质越来越低, 做的越好用户则越脑残, 而研发人员只能跟着越来越脑残, 因为统计只能统计过去, 无法预测将来. 而只有在新规则推动下才可能带来革命性的进步, 比如在 iPhone 之前触摸操作为什么就没法这么普及? 比如 Gmail 出现前为什么邮件就必须是一封一封的组织而不是会话模式? 还有 Tag 之类的功能, 无法仔细考究谁提出谁推广. 一般的企业会在已有规则上墨守成规最后把自己做死, 稍好的会在已有规则上用统计学习去让已有规则领域做到极致, 而真正能长盛不衰的企业应该是用新规则去开拓新领域, 等把开荒的暴利赚够后把这个领域扔给后面的二三流企业跟进, 自己再去开辟新时代. 做技术做科研同理, 在攒够二三流能力之后还是需要去努力创新开辟新领域, 这才是傲视群雄的霸气. 以上, 与君共勉.

笨狗又一窝

笨狗的自留地, 闲适时涂鸦撒野, 严肃时讨论技术