宽和而坚定

November 21st, 2012 5 comments

曾有人为我解惑年少的迷惘,可能是我悟性太差,一直没理解。我很困惑,困惑的时候我就阅读。

在一个午后,躺在沙发上读一本电影评论,看到“艺术是让你真正了解世界和与世界和解的方法,不是违心的服从,也不是倔强的死磕”,突然有了点感悟。

迷惘,与其说源自于不了解这个世界,不如说不知道选择怎样的态度去面对它。如果你是一个普通人,那意味着这个世界几乎不会为你做任何的改变。你有时会愤怒,有会懦弱,不过不管情绪怎样变化,你必须找到与这个坚硬的世界和解的方法。时光是有限的,你不能穷尽一生和琐碎的事情死磕,赢了又能怎样。因为更清晰的感受到时光的流逝,我想可以更钝感一点,不管世事纷扰,不曾言说,努力去改变可以改变的那一部分。

这一年,我二十五岁,努力让心境接近自己理想中的样子。希望能待人宽和,于所做的事情有所坚持。

24岁生日,生日快乐

November 4th, 2011 31 comments

人生有时候真的很残酷,你回头看去,这么多年就这么过完了。那些曾经的梦想已经被遗忘,那些曾经相交的人也早走远。而你自己,也早就不是那个你熟悉的自己了

软件开发团队方面的一些经验

September 28th, 2011 9 comments

我们做的系统(http://prof.ict.ac.cn/)最近上线了。虽然还有各种问题,做的过程中也积累了一些经验,说一点我自己印象深刻的东西。

相信。当你面前有了待解决的问题,把问题拆解分配给不同的人之后,你总会看到某些方面的进度不如人意。你就开始想换个人来处理或者干脆自己去做…尽量不要这样,换人通常只是暂时性的解决问题,会带来额外的副作用。相信和鼓励从长远看来才是更有效率的方式;让大家觉得有成长并且受到尊重才能长期的维系团队。这里还得感谢刘老师和詹老师对我的信任。

估算。这里不再存在可以精确量化的人力和任务,要学会估算完成一件事情所需要的时间和资源,同时意识到哪些事情是做不到的。这些估算也没有绝对的对与错,因为需要考虑的因素很多,不让问题out of control就好。

争取资源,构建基础设施。假定有充足的资源,那很多事情都不再是特定的人才可以胜任的。只是现实世界里资源通常都是不足的,需要尽量争取到更多,同时学会在资源不足的条件下把事情做成。就我们要完成的任务而言,我所能做的是争取到更多更快的机器(我们需要做一些海量数据上的文本分析和自然语言处理方面的运算),之前我一直协助实验室的网管管理机房,这多多少少给我带来了不少便利。在项目开始的时候搭建的在线的版本控制平台也给后续的开发节约了不少的时间。资源和基础设施是每个成员都会用到的东西,所以花精力在这些上面是非常值得的。

大体上的思路是这样的,你需要关心三方面的东西:你的团队,你要解决的问题,你手里拥有的资源。这里针对每个方面讲了一点,都是一些自己的思维片段,写的比较混乱。

上个月看了小牛的这篇 Commander vs. Coordinator ,感触很深。小牛讲的东西也比较深入,需要有经验才好理解。在青海的时候,和dshadowzh也讨论过这方面的事情,给了我不少激励团队方面的启发。我也觉得理想的团队leader应该是Coordinator式的,这样的团队对每个成员的要求都比较高,也需要比较宽松的大环境和不少的时间来磨合。

我所领悟的也不过是一些基本的道理而已。很多时候,这些道理实际上也是独立于软件开发的,重在理解他人,了解自己。最近又做了次性格测试,跟自己的认识差不多,我这样的性格确实容易把自己弄得很狼狈。实际上之前也做过几次,都是状态不好的时候做的,这次是心态要好一些,结果也有所不同。说性格决定命运这话,多少还是有些道理的。 value of a domain name .

青海湖骑行

August 28th, 2011 2 comments

年初的时候,HUST的小师弟kidz yang(@kidzyoung)来北京出差,听他说起去年白云BBS的车版组织去青海湖骑行。以前也有过这种念想,一闪而过的那种,觉得这样一趟旅行应该挺美好的。这次听师弟讲了一些经验,还真动心了。后来去重庆玩的时候,网上碰到彪哥,商量暑假一起出去玩下,就把这个事情定下来了。又联系了保仔 (@dshadowzh)和子钧,不过最终只有我和保仔成行,这是后话了。

补个相册 http://www.douban.com/photos/album/55490482/

这篇文章主要是写一些攻略性质的内容,方便想过来玩的朋友。标记了保仔曰的内容都是由我朋友写的。先简单说下我们的行程,7.31出发,8.9回到北京(保仔到武汉)。8.1中午到西宁,8.2下午到西海镇,8.3~8.6顺时针环湖,8.7回到西宁,8.8中午到车站,8.9返程。整体上总共十天的样子,行程并不紧。车子是租的,路上都是住店,没有宿营。

准备工作是从七月初开始的,主要是准备check list和制定行程。和彪哥保仔分头行动,最后在QQ和google+上聊天汇总。最终版的check list大概如下:

手套,防晒套袖(如果准备穿短袖上衣),墨镜
感冒药,中暑药(藿香正气胶囊),抗高原反应(红景天,葡萄糖),创可贴,护膝
必要的衣物,洗漱用品
雨衣,绑腿带,防雨罩
备胎和简易补胎工具,打气筒,码表

首先说下防晒,防晒最容易产生的误区是太依赖防晒霜。长袖上衣,长裤,头盔,骑行无缝头巾(亲们,神器啊,防晒又防尘有木有啊,淘宝上买只要5,6块就可以买到啊),墨镜,这些才是最重要的防晒装备。比如墨镜和头盔以及头巾之间的间隙,戴半指手套露出手指的地方,防晒霜的作用是保护这些难以遮蔽的区域。七八月份青海的阳光,即便SPF 50/PA+++的防晒霜也抗不住的。然后是保暖,青海即便是七八月份,早晚也仍然挺冷的,长袖衣服一定要带,白天风大,穿上也不会觉得热。如果要穿骑行服的话最好也穿长袖的。

在圣湖租车会附带如下的东西:雨衣,备胎和简易补胎工具,打气筒,全指厚手套,驼包(注意,是不防雨的),码表。圣湖租车附带的雨衣防雨性很差,建议自备雨衣。

并不是check list上每项东西我们都准备了的,只是给大家做个参考,每样准备都是有成本的。我们没带高原红景天,也没怎么用得到,虽然第三天保仔有点高原反应,休息了一下就好多了。为了缩减费用,防雨类的都没购置,遇到雨的时候确实很麻烦,但是还是应付过去了。

旅行呢,重要的是有决心,能克服困难。做事情呢,重要的是有个好的partner,不吐槽,预见到你没考虑到的问题,有困难能相互扶持,一起聊天大家都能有提升。

travel,together

一起去旅行

[DAY-1] 到了西宁之后(因为最近西宁站在改建,我们实际上到的是西宁西站),我们先到西宁火车站附近找了个住处,考虑到第二天要坐长途汽车到西海镇,这里离长途汽车站非常近。然后晚上等保仔一起去了西宁的小吃一条街 - 莫家街。这里的黄焖羊肉味道很赞,分量很足,虽然价格也稍微贵了点,喝点啤酒聊聊天,快意人生。 另外听朋友说炕羊肉也很赞,有过来玩的可以尝试下。

[DAY0] 中午坐长途汽车出发去西海镇(¥20,半小时一班),那里将是我们骑行的起点。通过观察路况,我们发现不从西宁出发是个好选择。这一段路车很多,有时会遇到堵车;道路上尘土比较多;中间还要过一段隧道,比较危险;路上还没太多风景。当然还是可以从西宁出发, 不经过西海镇到黑马河,这另当别论。到西海镇之后,去圣湖自行 车俱乐部取了车,我们租了两辆车,MERIDA DUKE 500/300(¥70/天),这也是师弟推荐的车型。环湖这一段,骑山地车还是有好处的,有时候需要骑车到湖边,在国道上骑的时候也经常会被挤到路边的砂石路上,公路 车都不太适合这些路况,当然山地车车架比较重,这是缺点。取了车之后去镇子上吃了个饭,然后绕西海转了一下,试了车。还有就是,坐垫的高度要调整好,太低了伤膝关节,太高了伤颈椎。喜欢GIANT车系的话可以去镇里的裸鲤自行车俱乐部租,裸鲤的意思呢,其实就是湟鱼,青海本地的 一种鱼。这种鱼种群已经减少很多了,建议到了青海不要吃,鳍是黄色的,真的很漂亮。

Read more on 青海湖骑行…

基于nlpbamboo的中文人名识别工具findscn

March 8th, 2011 11 comments

其实是我们做的学术搜索产品的一个副产品,比较有意思,也比较独立,就单独拿出来放到google code上了。其作用就是:给一段中文的输入,把里面的中文人名找出来。程序是和Chunjie Luo共同修改完成的,协议沿袭nlpbamboo的New BSD License。目前只工作在linux类系统下,在i386/x86_64架构上测试通过。
项目主页在 https://code.google.com/p/findscn

计算模型用的CRF(条件随机域),纯粹基于统计的模型。训练语料用的北大人民日报1998年1月份的语料库,加上一个5w的搜狗人名细胞词库。语料库的构建工具稍后再放上来,其实这样拼凑出来的语料是有问题的,那些搜狗的细胞词库里的人名没有上下文信息,我觉得对人名识别这个应用而言,上下文信息还是很重要的。

评测什么的也还没做,precision/recall这些数据都没有,不知道哪里有标准的dataset测试这些。我之前看一些文章里提到用统计和规则结合的方法在中文人名识别方面的准确率能做到98%左右,我们修改的这个版本到不了这么高,只是大致能用而已。

除了dl_*函数族,没怎么用linux特有的东西,应该也是可移植的,不过现在还没做windows的移植版。

acknowledgments:
nlpbamboo项目主页
nlpbamboo的作者jianingy的博客
crf++工具包的主页
sogou输入法细胞词库

程序截图:

中文人名识别工具findscn

中文人名识别工具 findscn

最后,我的名字恰好能被这个工具识别出来。

Update:
感谢Xitong在Mac下做的测试,现在Mac也能支持了。