阴谋论

CSDN 这个杯具带倒了整个茶几

最近几天要是哪个 IT 民工没有关注 csdn 密码这个事情, 估计要么是被抓去封闭开发了, 要么是死了. 如果还需要回顾下, 具体的事情经过可以参考 http://csdn.aspx2.com/, 按我能统计到的资料, wooyun 的 http://www.wooyun.org/bugs/wooyun-2010-03523 应该是最早的公开信息源, 具体的下载链接我还是不发了, 自己找吧.

csdn 那个库的真实性还是挺高的, 至少周围有不少人能验证上, ACRush 和 Matrix67 都被爆了, 而且被爆的很难看. 但根据网络消息和 scat 等人的人肉分析, 那个库的泄漏时间应该在 09 年. 其他库的真实性存疑, 至少传闻的人人库应该也是 08 或 09 年的数据, 那时候人人还叫校内吧? (刚查了下, 改名是 09 年 8 月的事) 而且密码有效率比较低, 很多能登陆的帐号也都是僵尸号, 没什么内容, 倒是有可能就是以前恶意注册的一堆水号资料被注册的人不小心弄丢了. 而且今天继续流出的新浪微博那个文件 (weibo.com_12160.dbh) 和人人库 (xh-2.txt) 几乎是一样的.

问了人人安全组的人, 以及和人人网黄晶的一些状态互动, 我还是相信人人应该不至于干明文存密码这么弱的事情. 不过从 wooyun 上 http://www.wooyun.org/bugs/wooyun-2010-03337 这个漏洞的回复, 和今天人人上某好友用 HttpFox 检查的结果来看, 这个漏洞很可能是真实存在的, 但是我把这个 bug @黄晶 的时候被否定了, 求有时间的人去验证下. 这种浏览器明文传输密码的事情在 KO 和 littleken 他们做 WOJ 第一版 (Noah) 的时候就被人搞过, 后来通过 SHA1+salt 加密密码, 并在浏览器提交数据前就加密, 才搞定这事.

更多的跟进消息可以见 aspx2 的那个页面, 分析上我个人比较赞同 http://www.36kr.com/p/71020.html 里面的说法, 主要的问题是 1) 新人不懂; 2) 脑残需求; 3) 历史遗留; 4) 政府要求; 5) 站点私心. 问题一个比一个严重, 而且越来越难修复. 一般来说新人不懂还是可以很快学习到, 脑残的需求还是可以被有理想的程序员拍回去, 这两个还算简单, 解决起来也容易. 历史遗留的问题一般大家都不敢动, 能用的系统你没事去改什么改? 又不算 KPI, 再说了, 改挂了谁负责? 而且很多程序员对公司并没有那么大的认同感, 都抱着 “反正过多久我就不在这了, 只要不在我手上出事” 的念头干活, 也难怪现在的很多产品烂成那样. 政府要求这种真的是一朵奇葩, 不过我倒是觉得与其明文存密码, 还不如给政府提供超级通道, 让他可以直接进来, 这样虽然都是被强奸, 好歹也算戴了个套, 痛是必然的, 好歹不会得病和怀孕啊. 站点私心这种完全就是流氓行径了, 小站还有这样可能, 做大了的站应该就不用靠这个赚钱了吧, 还是说这样来钱还是要快很多, 大家还是想赚快钱? 话说开个色情网站用来收密码好像是个挺不错的想法?

目前我看到对此事件的阴谋论包括: 1) robbinfan (csdn 那个头) 得罪了人; 2) csdn 和黑帽价格没谈拢; 3) 反抗政府实名制. 前两个都是就是论事, 听起来也很有道理, 09 年的库现在才爆发, 中间应该在黑市上已经流通很久了, 事实上这么一想, 很可能还有别的新库正在黑帽们手里流通着呢, 而我们还傻乎乎的说还好这次没被爆掉. 反抗政府实名制, 其实也有道理, 让大家看看网络到底多不安全, 还实名个腿, 下次漏的可能就是身份证号和家庭住址了, 再愚昧的民众也会起来反对的. 我个人对反抗实名制这个阴谋论还是挺满意的, 让民众开化最好的方式就是革命, 而革命必然会很痛, 这次痛的人多了点.

一些趣闻八卦

  • CSDN 杯我最喜欢的密码, CSDN 杯程序员最喜欢的邮箱等活动真是大大锻炼了大家的脚本处理能力, 挺好的技术普及活动. (话说为什么我的角度总这么奇怪?) 今天上午面别人就顺手拿这中间的活动所需技术当面试题给出去了, 不过结果不太让我满意 :(
  • 很多爱情段子, 算是本次惨痛的茶几颠覆 (一地杯具) 事件为数不多让人感到温暖的地方.
  • csdn 有两个比较难理解的高频密码, 一个是 dearbook, 这个我猜到都是 “第二书店”, 就是 csdn 的一个业务; 另一个 xiazhili, http://www.guokr.com/ask/item/81227/ 的 12 楼真的太牛逼了…  (正解答案: xiazhili 是 csdn 下载频道 09 年上传比较多的一 MM 会员, 众多程序员意淫的对象, 故 xiazhili 作为密码不足为奇)
  • 类似 “ppnn13%dkstFeb.1st” (娉娉袅袅十三余,豆蔻梢头二月初) 的密码, 果然是文艺到家, 其实我猜这是某百度员工的杰作? 因为百度的很多密码就是唐诗宋词中的某一段变换而来, 连内网给的好密码样例都是 “Hhzstsla!” (黄河之水天上来啊!), 而用过的类似密码更是不计其数. 话说 MySQL 好像也是个好密码? (明月三千里, 好冷…)

有关密码安全机制, 我自己的密码一直是分级的, 目前来看还算安全. 数字密码有一个纯 6 位数字应对脑残的只能用数字做密码的场合 (比如某些电信业务), 有一个好点的 6 位数字密码拿来给银行卡用. 网络密码有一个 6 位弱密码用来注册那些我不甚信任或无所谓的网站, 丢就丢吧, 反正也不是多大个事, 有一个 8 位的大小写字母加数字做一般强密码 (有些地方不然用特殊字符), 最后有 8-12 位的强密码来把关最后的核心业务 (gmail, 网银, 支付等, 且跟钱有关的都分开设定).

设定密码的方式其实用中文拼音转换就挺好的, 很多字符做下变化就模糊掉了, 比如 {数字 1, 大写字母 I, 小写字母 l, 特殊字符 !} 就是个很好的互换集合, 类似的还有 {数字 0, 大写字母 O, 小写字母 o} 等等. 做个样例: “不怕猪一样的对手” -> “bpzyydds” -> “bPz!yDd5”, 这样就又安全又好记了.

我个人建议密码还是学我那么去保存, 或用一个开源的密码管理器来管理, 开源的意思是至少自己信得过这个东西, 不然这一丢更惨, 所有的都没了.

辟点谣, 传点谣

首先, 我不能代表任何人, 请不要拿我的发言去揣测其他人的想法

其次, 我只是从转载消息的角度出发提供如下信息, 不代表本人赞成, 反对, 或对其中的内容有什么想法

辟谣部分

1. 为什么不用手机通知被撞的两个车司机

a) 乘务出勤时, 不允许使用手机 (技规)
b) 动车上配的就是 GSM-R 通讯设备, 原理同 GSM 手机, 只是铁路用了一个单独的频段, 149 号段
c) 当时雷击范围内移动/联通/电信基站也大面积短暂不可用

2. 被撞的车定员

a) 前车 D3115 当天是 CRH1B 型 046 号执行, 被撞的 15 号车厢 (车厢编号 104615) 是一等座, 满载 72 人, 不卖站票, 16 号车厢 (车厢编号 104600) 是一等座, 满载 64 人, 不卖站票
b) 后车 D301 当天是 CRH2E 型 139 号执行, 原为动卧, 本次执行时部分车厢卧代座, 1 号车厢 (头车, 车厢编号 213901) 是二等座, 满载 55 人, 另有司机 1 人 (单司机, 在宁波换的), 2-4 车厢 (车厢编号 213902, 213903, 213904) 原为动车软卧, 每节车厢 10 个包厢, 每个包厢 4 个铺位 (对面上下铺), 实行卧代座后, 实际最大发售 60 张二等座票 (每张下铺坐 3 人, 上铺不允许使用)
c) 综上, 当天六节车厢满载 372 人 (算司机), 根据 D3115 基本满座, D301 全车实际 300~500 人的上座率推算, 那六节车厢实际有 220~260 人的样子

3. 车辆制造和材料结构

a) 执行前车 D3115 的 CRH1B 046 由南车青岛四方和庞巴迪的合资企业 BST 生产, 钢结构, 原型车为加拿大庞巴迪公司为欧洲部分国家生产的城际高速地铁, 1B 是 16 节长编组型号, 最高运营速度 250km/h
b) 执行后车 D301 的 CRH2E 139 由南车青岛四方集团生产, 铝合金结构, 原型车为日本川崎重工生产的 E2-1000 系列高速动车组, 2E 是 16 节长编组动卧型号, 最高运营速度 250km/h

4. 有关刘志军其人

a) 铁道部前部长刘志军, 以跨越式进步口号推动中国铁路六次大提速, 动车化, 高铁化, 并因其任内开行的直达特快一开始的专用车头 DF11G 上的跨越口号而得名刘跨越
b) 刘志军同志的生活作风等方面有多种传闻, 未知可信度如何, 但是不管哪边的人, 都承认其是个工作狂, 一年大约有一半时间会在车上或一线, 每次提速和冲高速实验, 他都站机车或动车司机室, 铁路内部也有叫他刘疯子的
c) 此处必须插一句个人感情, 做车迷做成这样那真是圆满了, 这货在被调查前的这个春节, 连续把国内所有的高铁路线都跑了个遍, 添乘动车司机室和检查一线工作, 包括刷当时还没运营的京沪高铁, 让我这个只坐过京津城际的伪车迷情何以堪

[传谣部分开始]

纯小道消息,我这么一说你这么一听
是不是真的自己分析,没必要过多讨论,也别太走脑子
当然我也没走脑子,哈哈

消息来源:某中央机关爱打听事儿的人士

1.中央早有拆分铁道部的打算,初步的想法是运营和监管分开,成立中央级铁路企业,现铁
道部改为运营监管部门,并入交通部

2.这种想法在还撤跨越之前就在酝酿中,撤他换光祖还是为了削弱铁路帝国的实力,光祖只
是上来接最后一棒的,这个在当初任命时就有交代

3.此次事故后,宣传口压制乏力,主要是因为海里那个主管宣传的1/9接到了某种授意,在
现阶段不刻意扭转舆论方向,让拆分铁道部、改为公司化运营的声音从媒体和民间发出

4.从事实层面看,这种放任达到了预期的目的:王勇平答记者问被直播,并且反复重播;央
视等主要中央媒体强烈质疑铁道部存在的合理性;各地方媒体开始有步骤地深挖高铁参建单
位高管的铁路系统任职经历;救援报道不再恪守正面宣传口径,尤其是对最后救出的小女孩
的命运作强力渲染;网络媒体出现大量乘客控诉视频,微博发文不受限制

[传谣部分结束]

[脑残不解释] 悄悄开启毁灭的魔盒

全文请见
http://bigfools.com/2010/10/10989.html

摘录如下

被无视的反对声

____ 年春节前,当千家万户沉浸在阖家团圆的幸福气氛中,一位老人孤独地躺在北京医院的病床上,在弥留之际反复重复着一句话:“____,一定不要 ___……____,一定不要___……”两天后,他留下了最后一句:“如果非要____,至少一定要_____…………”便与世长辞。

这 位老人,是______教授。在中国的_____热潮面前,_____是为数不多保持着谨慎、理性的学者。经过全面、细致的研究,他得出 “中国 _____________”的结论。认为由于中国(人)特殊的___结构,_____将导致中国(人)的____不规则___加剧,而一旦成功 ______,将陷入万劫不复的深渊。在人生的最后几年,他一直致力于劝导_____________人员,曾多次向____部和国务院写信表明自己的担 忧,却屡屡遭到无视。而现在,随着____________________________,_______教授的警告正在渐渐地不幸变为现实。

揭密______不为人知的隐患

__________, 是二十世纪二十年代美国著名诺贝尔获得者,美国哈佛大学______系的_________教授发现的。_______年轻时师从于著名____学家 _________,通过对导师精神分析理论近三十年的冥思苦想,________托发现了著名了________,并于_______年获得了诺贝尔 ______奖。____________理论认为,________________________________________根本原因。 __________________________________内在动力。 __________________________________________作 用,______________________________________________________情结。________分析对后来 __________学的发展起到了指导作用。

________通过对美国及 ______________________分析发现,当____________________________________ 时,__________实际上已相当于_________________________,不受_____________________的影响。 ____________认为,____________________之间形成一种关系,以________为核心,根据 ____________________分析理论,______________________________;_____________理论告 诉我们,此时_____________________________________时期,所以 _________________________相对减轻,而__________________________在增加,此时的 ___________________就产生了。通过计算得出,______________________对_____________没有实质的 影响,几乎不影响_________________。

_______________的提 出,引起了____________教授的注意。___________________一直在质疑一个问题,为什么自从 ___________________开始,中国______________________事件发生次数以惊人的幅度在增 加,__________________________,_________________________,__________________________ 危害性在不断增加。_____________教授查阅了________________的论文,得出了一个让他自己都不敢相信的结论——这些 ____________________事件的产生,正是由于_______________。

________ 教授在他的论文《___________________》中写到,____________、 _______________________________,虽然不对___________产生影响,但对于_____________,特别是 ___________________产生严重影响,因为这里是_______________区域。___________教授计算得 出,_________________,将刺激_______________________。千万不要 ___________________,__________________________________________________________。 为什么其他国家不明显呢?________教授解释说,这个道理很简单,正态分布曲线告诉我们,中间最大,__________________对于 ___________影响最大(_______________________________),特别是中国(中华民 族),_________________。

_________危害之大是西方的科研人员不曾 遇到过的。_______年,当__________在国外学术论坛谈_________成功经验时,美国业界同行以近乎傻气的严谨提醒 到:“____________________________________带来的风险?”这种善意的提醒,却被_____________当作了 耳边风。

有心无力的智者

_____ 年起,_______多次带着自己的报告和数据上北京,希望能向相关部门的领导陈述_____________背后的隐患,却始终无法如愿。最 后,_______把希望寄托于他心中的底线,__________________________,这对于额外___冲动减少,是非常明显的。而今天 __________风潮,则会给________________带来火上浇油的效果。________年底,劳苦奔波的________终于支持不 住,病倒了,这一病就再也没有起来。

潘多拉之盒已经慢慢开启

在____年以前,中国的_____规模还不大,_____少;然而_________的新改革,___________________________,__________________________。

多 年以来中国政府大力支持____________________,而___________也变成一件必须的事情。这些突然越来越多的________ 事件冥冥中仿佛有一种必然,与___________究竟有着怎样的联系,也许只有逝去的_________教授能告诉我们。

每日愤一句: 不存在的阴谋论解谜者

这个系列很久没写了, 其实也都没成系列, 今天看到铺天盖地的分享那啥高铁才是地震罪魁祸首的帖, 实在是忍不住了…

且不说贵天朝地质结构各地不一样, 根本不可能说天朝所有地方不能盖高铁, 而日本这些地方的地质条件就比天朝好这类明显脑残的问题, 连有渣无渣轨道居然都能被分析成这样, 真是服了.

我不扯任何专业知识, 大家去百度, Google, 维普资讯, 中国知网等搜索引擎和学术搜索引擎搜搜看 张拾迈 这个名字, 除了讲高铁那个帖之外, 看还能找到任何这个不存在的人的任何资料没, 人好歹也是个中科院的教授, 不可能没个网页介绍吧, 不可能没发表过任何文章吧, 可惜的是, 都没有…

至于这个事情的背后阴谋 (笨狗向来心理阴暗), 个人分析有三

1. 转移三峡被集火的局面, 不过这个没道理, 没有人获益, 如果说是郭嘉干的, 那其实也没任何好处

2. 公路民航等客运等打持久战, 鼓动不明真相的群众抵制高铁, 抢客源, 这个好像也不是特别的靠谱

3. 高铁内部的磁浮派 PK 轮轨派? 这个似乎更不靠谱, 至于说有渣轨, 好像只能用在 250KM 级别的线路上, 某些地方在为自己争取 250 高铁?

为什么我对谷歌退出完全没感觉 (谷歌非 Google)

首先说明, 这篇文字完全是个人看法, 里面包含了非常多的个人偏见在里面, 我无法代表任何其他人或组织, 并无法指定任何其他人或组织对此文负责, 我同时无耻的表示不对此文任何内容负责.

谷歌走了, 网络上顿时又热闹了好多, 有被扣五毛的人在兴高采烈奔走相告, 有被扣七美分的人在如丧考妣痛心疾首, 笨狗其实是有那么一点高兴的, 但是也有不少忧虑, 好不容易确定下来自己人格分裂到底是因为啥, 回头发现已被扣帽子无数. 于是笨狗觉得春天都已经来了, 这么多帽子带着还是很影响视野的, 加上帽子被扣这么多顶, 而不管是五毛还是七美分都没见到一张, 很是忿忿不平, 于是想嚎叫两句提醒下编制内的人也拉编制外的人一把.

扯淡结束, 回归主题. 先还是明确几点, 如果讨论的基础都不一样, 那讨论就只能是毫无意义的对骂, 我的出发点如下:
1. 谷歌将服务器撤出中国大陆, 转而在香港地区为中国大陆提供服务
2. 撤离的是谷歌, 即 Google.cn, 而非 Google, 即 Google.com 及其他

之所以强调 Google 不是谷歌, 是因为看起来虽然是一家, 但是这两边提供的服务还是太不一样. 就比如反对网络审查的人指出的, 谷歌有自我审查机制, 而 Google 没有, 再比如只在 .cn 上与第三方合作提供的音乐, 问答, 来吧等服务. 有自我阉割的谷歌退到了大陆以外, 似退实进, 因为现在不用自我审查了, 而且又还能提供那些 Google 全球没有的特色服务, 在某些敏感词上被盾就被盾, 反正在大陆也要被阉掉, 还不如让盾掉, 反正真心想找的人, 翻墙或遁地技术绝对都能过去.

今天看到一个分析说西方政治和中国政治的导向不一样的帖, 里面有一点提到是: 西方都是精英领导民众, 民众渴望被精英认可, 而我天朝是草根引领潮流, 领导必须对大众妥协. 我无意掺和太高深的东西, 只是从工程师的角度来看这个, 也觉得很有意思. 不管是外面的报道, 还是我自己的亲身体验, Google 都是一个工程师推动的企业, 非常多的产品或新特性, 都是由聪明绝顶的工程师们想出来再向大众推广, 大众里的精英接受后再继续推广开来, 这一点上表现最明显的就是 Gmail, 最早的邀请机制保证了参与人的质量, 并通过这些人对高阶功能的使用而让产品品质快速迭代, 然后再逐步开放给那些用什么邮箱都无所谓的普通用户. 相比之下, 大陆的那些成功产品, 比如百度贴吧, 知道, 无不是工程师们向广大网民妥协的结果, 而非工程师强势引导民众跑步前进. 回到谷歌身上, 当年李开复先生宣布谷歌这个名字之时, 就应该是考虑过在大陆的妥协性战略方向, 所以会有后来的输入法, 有天涯问答和来吧, 以及 g.cn 的域名, 265 导航, 以及我非常喜欢的谷歌音乐, 但是妥协并不能违背原则, Google 之所以经常被当作正义一方, 很重要的一个原因是其 “不作恶” 这一句话.

但是在大陆的谷歌是否能和 Google 一样, 维持 “不作恶” 呢? 关于这个问题, 我是持否定态度的. 姑且不说所谓的输入法词库抄袭事件啥的, 就看看谷歌收入, 看看有多少收入是不干净的, 有兴趣的可以去搜搜看 “新蛋”, 如果不出意外, www.360buy.com 这个网站是会出现在广告位置的, 而且默认应该是在左侧第二位, 对此笨狗表示笑而不语. 如果不出意外, 不少看客这时候会立马给我扣一顶五毛的帽子, 然后说百度那么多垃圾广告你怎么就看不见. 笨狗的观点只是: 如果你一直坚持自己是清白的, 那就应该一直清白下去, 不能因为别人一直不清白就可以让自己偶尔不清白下. 这句话说的再难听点, 就是, 立了牌坊就不要做婊子. 可惜的是, 谷歌在大陆一次又一次的突破自己的底线, 最后终于表示忍无可忍无须再忍直接跑路了, 就无须再忍跑路一事, 只要是正常人都会叫好, 但是如果扯上说忍无可忍, 笨狗就觉得比较扯淡了, 如果真的坚持原则坚持底线, 那就应该在第一次最痛的时候大叫出来, 而不是这么多次后突然觉得不爽了要抽身离开, 而且就算这时候走, 也就不用再装的跟个雏一样.

前面说不满, 后面说希望. 谷歌离开大陆, 在很多大是大非上就可以很坚定的坚持原则了, 虽然有被盾的危险, 但是比起在国内被要求自我阉割, 显然可以理直气壮的说我不作恶, 作恶的是万恶的功夫网. 这样做, 减少了自我阉割的工作量, 即让产品做的简洁高效, 又能占领道德制高点, 何乐而不为, 而且撞墙本来就是小概率事件, 我 diang 还不至于让大部分正常的请求都撞墙上的, 毕竟墙也不一定扛得住. 至于某些人担心的说以后我 diang 将 Google 全部盾掉, 个人觉得应该不会, 只要把那些不听话的盾掉就可以了, 而且 Google 又不傻, 除去我 diang 那些无理取闹的要求, 大部分事情就算我 diang 不要求, 他们自己也会做包括暴力/色情等自我审查和过滤的. 盾掉 YouTube, Twitter, Facebook 这些对普通群众影响真的不大, 我们有 youku, 新浪微博和开心/校内, 但是正如大多数人指出的, 盾掉 Google 会使得学术界和技术领域很受伤, 而国内的百度等搜索引擎完全无法提供一个端的上台面的英文或其他外语搜索服务.

最后还是扯开一下, 笨狗非常不理解那些有二分类嗜好的人的想法, 为啥每次一扯到 Google 就一定要拉上百度, 如果 Google 利益受损, 那百度一定在后面干了手脚从中得利, 如果有人反对 Google, 哪怕是一直支持, 只在某些特定事件上反对 Google, 那一定是百度的走狗. 到底是真的大脑部分受损或只是为了逞一时口快乱骂一通? 是不是这些人也被我 diang 教育的很好, 不是好人的一定就是坏人, 不是坏人的就一定是好人. 电影里共军打日军打国军, 所以共军是好人而日军国军都是坏人, 那沪松保卫战血战台儿庄的国军呢? 他们面对日军时是好人还是坏人? 生活… 真的不是一个二分类问题.

乱弹某家的分词

作为一个严肃的 IT 民工, 对于某家退出这事还是挺关注的, 最近两天比较好玩的一个是 “你妈逼”, 一个是 “美少女战士”, 外行看热闹, 内行看门道, 我们也来乱弹下这里面的门道.

早几年在某家实习的时候, 大概瞄过几眼分词结果, 由于这个内容算是比较敏感的东西, 当时也傻乎乎的对这个没兴趣, 所以没有去看具体怎么做的, 只是觉得怎么这么挫, 分词出来切的这么碎, 你说把 “山谷歌曲” 这样的切开也就算了, 但是自家公司名单独输入时也切开, 这个有点说不过去吧. 后来在搜索结果中看多了, 觉得应该不是这样的, 只是我们都在自作聪明觉得自己很牛叉, 实际上, 最后他应该还是用了很强的方法将其重新粘结起来, 所以效果和更懂中文那家比起来, 应该也是伯仲之间. 下面我们用黑盒测试来分析看看.

回到第一段那两个情况, 第一个由于是粗口, 我们就还是不分析了吧? 还是大家觉得就这种才刺激? 在这个情况里, 真实的原因绝不是因为 “妈” 和 “逼” 两个字是被过滤的而导致只搜出 “你”, 而是 “妈逼” 这个词被过滤, 不信大家分别搜 “你妈逼”, “妈逼”, “妈”, “逼”, “妈了个逼”, 可以发现只有 “妈逼” 俩字挨一起出现才会被过滤, 其他情况都不会. OK, 这里我们得到结论一, 安全搜索里提示的切词结果并不是他们家最终的切词结果, 充其量只能算是最细力度的基本词, 回头他会拼回去的, 而这个拼接功能非常强大.

一上来就拿粗口一句来做样例, 实在是有辱斯文啊, 罪过罪过. 再来看 “美少女战士”, 关于为什么 “美少女战士” 会被提示 “美” “少女” “战士” 被过滤, 而 “少女战士” 等就不会的原因, 见上一段分析, 这里我们分析另一个维度, 请大家去试试看 “美少女戰士”, 是不是什么状况都没发生? 而右上角还是提示我们安全搜索是打开的, 这可以得到结论二, 某家不做简繁转换, 简体就是简体, 繁体就是繁体, 当两种语言来对待, 而且简繁过滤词表不一样.

我刚很犯贱的想去试试看 “胡萝卜”, 结果直接就被盾了, 我真想说功夫网的中文处理能力真的有待提高啊…

OK, 等了一会, 恢复后我们继续. 来看看某家在浸淫输入法也好几年后对中文纠错的情况, 先来个简单的, “开心网”, 没错, 一切正常, 那 “开星网” 呢? 会提示我们是不是 “开心网”, 不过很奇怪, 为什么只有前面两个字飘红了? 再试了下 “开星”, 能纠成 “开心”, 看来是按纠错词来给出建议的, 只标记纠错的部分? 为了验证这一想法, 再试了下 “开心不开星” 这样的纠结查询, 果然. 但是回头当我用 “kaixin”, “kaixing”, “kaixinwang” 再实验的时候, 感觉这个又不是很确定了. 今天在某群里, 一群无聊的人在试各种各样奇怪的查询, 比如 “小泽玛利亚”, 华丽丽的被提示每个字都是屏蔽字, 有了前面分析的结论一, 我们知道这其实是因为这五个字有机结合的时候才被屏蔽的, 但是纠错呢? “小泽玛莉亚” 就丝毫没事, 也不提示我们正确的写法, 抑或这种译名某家也没有说确定哪一个才是正确的? 再试试看 “xiaozemaliya” 呢? 也还是不提示, 仔细看了下, 我用的确实还是简体中文的 .com.hk, 按理应该跟 .cn 逻辑一样啊, 也不给纠错提示, 太失望了, 难怪某家占有率一直上不去, 这种淫民大众的基本需求都满足不了. 但是 “小澤瑪利亞” 这个, 却能飘红 “玛利亚”, 这个让我表示比较理解困难, 同理, 用 “小澤玛丽亚” 会提示 “小澤玛利亚” 并标红 “玛利亚”, 而且搜出来的结果中大多也是简体 “小泽玛利亚”, 这个同样理解困难, 某家的拼接术太强了.

后记, 这些乱七八糟的分析足以见得 IT 民工们都是多么的无聊和猥琐, 连测试用例都这么的圈圈叉叉. 不过另一方面来说, 优秀的 IT 民工还是应该刨开口水战, 去分析看看真正的技术细节是怎样的, 今天发了个搜 “百度” 出 “www.google.cn/sh2009” 的广告截图发出来, 那些喷子们却又一个都不敢说话了, 果然只是一群不值一提的喷子. 截图见 http://att.newsmth.net/att.php?p.26.804632.482.jpg, 怎么弄出这个效果各位自行分析 :)

阴谋论

1. 美国宣布售台爱国者导弹
2. 01/11 中国在表示抗议的同时公布了 CNMD 的实验
3. 01/12 百度因为美国域名商的问题几个小时无法正常访问, 表面上是伊朗人干的
4. 01/12 中国 “黑客” 反攻伊朗
5. 01/13 Google 宣布退出中国, 因为中国的黑客攻击以及恶劣的人权状况

我什么都不知道, 我什么也没说, 我只是阐述事实

每日愤一句:你所见的未必都是真的[1]

昨天看到有人转豆瓣的帖, 说考研泄题, 后来特意去研究了下是怎么回事, 鉴于那个帖现在打不开了, 大家可以通过这个链接来了解下所谓的 “事实”: http://blog.renren.com/blog/246451305/440420986

根据我个人昨天对该帖分些的情况来看, 主贴是后来被更新了的, 具体的答案是在回帖中陆续泄漏的. 上午 10:50 左右开始出政治答案, 下午 3 点多开始出英语答案. 如果我对考研的规则理解没错, 这个时候早过了可以交卷的时间了, 假设有人花钱报考, 然后故意带试题出来, 接着有人去做卷子, 再发布答案, 这个解释完全是可以说的清楚的

当然, 也有可能就是所谓的泄题, 毕竟我没有事发时实时跟进豆瓣的那个帖, 没法保证说我看到的主贴和回复内容和时间一定都正确. 但是, 至少这个事情是可以解释的清楚的, 而且如果熟悉这样的论坛模式的人都知道, 主贴或者回复都是可以事后被修改的, 是否留下修改记录这个各网站的做法不同. 不过从后续回复中陆陆续续出现答案, 以及非楼主的网友们的回复来看, 至少上午 10:50 前是没有政治答案泄漏的, 下午3:00 前是没有英语答案出来的

如果有人能成功带入通讯设备在考场内接收到外界的信号, 在考试结束前填上泄漏出来的题对应的答案, 依然还是作弊成功. 只不过这个问题的难度在于作弊方法和设备, 而不存在泄题, 因为我花钱进去考试, 记住试题后没到考试结束就交白卷出来, 这个并不违规.

// 2010/01/10 22:49 更新, 找到了事发当时前三页的百度快照, 注意看第三页 15:09:02 的那个帖

第一页 http://cache.baidu.com/c?m=9d78d513d99907e91afa950d100b92235c4380146a8a97452c888448e435061e5a33a3e660600d428e8727361ca44857ecf63d76234460e99492ce0c9fac935b32956271350b8636448e5eff981a32c157c107b6b24ca7e7b7708ee88f9184054ec1520e7c86fb8f471715be2eb64771a5b1983e17&p=8b2a97548c8b06e008e2936f4c&user=baidu

第二页 http://cache.baidu.com/c?m=9d78d513d9d431df4f9b9e697b17c0151d4381132bd6a3027fa58438e5732f42501792ac50530705a3d20c1316df384b9cf32104351420c68cb8835da9cc8558249f5343671cf75664d70edfc85155c137e35dfeae69f0ba802592dec5a5d94320cc44757097878f4e47549460aa5277a1b1983b084255ffa82765880f2a6ecf701ca1478eb16f311ad4b6801b0ede6c8d234ac6b23eb13514b318a0020c2530e10ae248173131964c25fd&p=8b2a960186cc44f246b08e687f&user=baidu

第三页 http://cache.baidu.com/c?m=9d78d513d9d431df4f9b9e697b17c0151d4381132bd6a3027fa58438e5732f42501792ac50530705a3d20c1316df384b9cf32104351420c68cb8835da9cc8558249f5343671cf75664d70edfc85155c137e35dfeae69f0ba802592dec5a5d94320cc44757097878f4e47549460aa5277a1b1983b084255ffa82765880f2a6ecf701ca1478eb16f311ad4b6801b0ede6c8d234ac6b23eb13514b318a0020c2530e10ae248173131964f25fd&p=8c759a40818403ef0be2973657&user=baidu

你所看到的, 未必都是真的, 照相术的发明让我们看到了更多的历史画面, 但是同时由于摄影术在角度/取景等方向的进步, 又让我们看到的内容可以经过更多的处理, 前几天看到一副很经典的图, 左半边截出来, 是一个昏迷的人被一个枪口对着, 右半边截出来, 是一个大兵在给昏迷的人救助喂水, 你愿意相信什么? // 图片暂时没找到, 找到了我将更新此帖 // 更新图片, 请去 http://blog.est.im/archives/285 观看, 或者大图地址 http://i.imgur.com/abMQe.jpg

每日愤一句:谁抄谁[1]

来源:

http://www.cnbeta.com/articles/101490.htm (百度工程师的开窍还是?-百度测试新搜索结果页面)

2010/01/06 16:45 更新, 由于 cnbeta 原页面无法访问, 给出百度快照地址: http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece763105392230e54f732608787532cc3933fc239045c1426a5e0767c4745cec67e6407a44b4bea876c34681765eadb9e875dadb9855e249f5730676d8c5613a30edfc05156c737e05bfede68f0bb8025e2ddc5a0db4352ba44757d97818d4d0164dd1f84034290b1e84d022e64adec40728f296059943431c55088e5256e7696f6ab4b4db33da06306e1a422c03a05c419b31e6b3334a05bc608465743f73921e8454d13e4e94a962a6e4153a139c3aeb7b5fc39fccb9e348ffbbbb85fe37791c6fd897a550422ed24cebccbb22a144415a8cbc961c0&p=c6769a4786cc43fd1bafc53c5a&user=baidu

解释:

关注业界的人都知道, 要这么算, Google 至少也是抄的 Bing 的

昨天弄太晚, 现在还不清醒, 长篇大论以后再说, 反正这个话题凑个半打还是很容易的