8周年团庆网站 http://8.dian.org.cn
| 老队员姓名: |
宫士敏 |
| 团队编号 |
153 |
| 现在工作学习单位 |
北京中科院计算所读研 |
| 录音整理稿 |
| 1. 你和哪些队友交情最好?是通过什么事情建立起的交情? |
| 在团队有很多朋友吧,交情特别好的也不少。如何建立起来的,怎么说呢,一起做项目一起拼搏建立起来的,而且这种感情,没有其他因素掺杂在里面,所以特别珍惜。 |
| 2.评价2个你的队友(形容词),是什么事情使你有这样的评价? |
李毅,人很聪明,凡事有自己的见解,不随波逐流。
刘明,生活里总能找出乐趣来,乐观,坚强。 |
| 3.你现在已经工作了(或者在读研),想到刘玉老师,你的第一感觉是什么?为什么有这样的感觉。 |
ambitious:我自己觉得人到中年之后容易变得倾向于守成,刘老师四十五岁开始做这个团队,需要异于常人的雄心,需要放弃安逸的生活来追求内心认定的价值。
ready to change:实际上团队这几年的发展历程和创业公司在某种程度上很接近,制度的健全,管理结构的完善,价值观的提炼,核心业务的确立,这些都是一个不断的变革的过程。 |
| 4.你觉得在点团队最大的收获(感受)是什么? |
最大,这个也很难说。
积极,责任,远景,自律,关心他人,追求完美
经常听人说,这个有用那个没用的。我想,用心做过的,都是收获。 |
| 5.你觉得自己在点团队充当了一个什么角色? |
| 在组里能够完成任务,做好项目,在种子杯这些团队的活动里也能运用自己的技术力发挥作用。相对于我带给团队的,团队带给我的更多一些。 |
| 6.今天再见到当年的战友、挚友,心里有什么感觉? |
看到大家都很出色,很高兴,有点自豪感。
也有压力,选择读研出国或者工作,毕竟只能选择一条,看到大家都很出色,难免艳羡。还是先努力提升自己吧。 |
| 7.对点团队有什么祝福? |
| 祝愿团队能够培养出更多优秀的校友 |
Read more on Dian团队8周年团庆回访表…
这个是侯捷老师04年九月应微软公司演讲的摘要。前些日子整理硬盘上的电子书,重读一下,还是觉得写的非常有道理。于是把繁体版的原文转换为简体,方便大家阅读。繁简转换是用了cconv作为工具。
之前发邮件联系过侯捷老师,但是@csdn和@ccca.nctu.edu.tw两个邮箱均退信。
programming.life.jjhou.pdf
从去年的三月到现在一年有余,看了不少书,于孔孟,申韩,黄老皆有心得,然则问题也出在这里,看的多,做得少,还是没什么长进。再看侯捷老师的经历,从一个毕业时都没接受受过计算机教育的本科生到写译著作及腰(《笑谈程式人生》里说:谈不上等身,却已及腰)的作家,其中辛苦,可想而知。我想我缺失的便是那份“疯狂的学习,疯狂的工作”精神。
因为vista/win7系统放弃了对IPX的支持,所以不能运行古老的红警游戏。
解决办法如下,首先下载这个patch文件。
ts_ra2_lanpatch_1_00.zip
把wsock32.dll解压到红色警戒的目录下,pserver.exe,YURI.exe,*md.exe都设置在兼容模式下运行。
经实测,单位多的情况下进行游戏会很卡,应该是模拟IPX的开销比较高。
Update: 下载链接已修复
这个文档是去年三月份写的,report to my advisor的,当时要毕业有好多事情,也没来得及发出来。机缘巧合,导师又把文档发回给我。本文所述内容适用于nutch0.9~1.0的版本,0.8及以下版本的Nutch对于包org.apache.nutch.analysis的定义不同。
nutch是一个基于Lucene的web全文检索引擎。原生版本的nutch对于东亚字符集的支持不够,需要修改之后才会有比较好的支持。关于nutch分词插件方面的最新进展可以查阅 Bory.Chan的博客:
http://blog.chenlb.com
常见的中文分词工具
首先我们来看一下目前比较流行的分词工具包。目前比较常见的工具包包括paoding,ictclas4j,mmseg4j和ik_analyzer。其中paoding和ik_analyzer支持多分词,因为paoding配置起来比较复杂,容易出问题,文中的例子是基于ik_analyzer的。如果要使用单分词方式,推荐mmseg4j工具。mmseg是由台湾的Chih-Hao Tsai博士开发的一款分词工具,同时支持简体和繁体,处理速度比较快,准确率相对较低。ictclas4j是基于ictclas分词系统,分词的准确度比较高,但是有些小bug,参见这里。ictclas本身也有一些小bug会导致崩溃,不太适合作为web服务的组件。
举个简单的例子说明单分词与多分词的差别
中华人民共和国
单分词切分的结果:
0 – 2 = 中华
2 – 4 = 人民
4 – 7 = 共和国
多分词(全切分)的结果:
0 – 2 = 中华
0 – 4 = 中华人民
0 – 7 = 中华人民共和国
1 – 3 = 华人
2 – 4 = 人民
2 – 7 = 人民共和国
4 – 6 = 共和
4 – 7 = 共和国
Read more on nutch的中文分词初探…
February 13th, 2010
yaker
去年的见wish list 2009。回看去年的计划,第三项做了一半,剩下的英语没考,实验室的事情没做,长远规划更无从谈起。
归拢下今年读的书吧,技术书《dive into python》2/3,《卓有成效的程序员》,《Linux程序设计》,《精通正则表达式》。用到最多的是regex,感觉最有收获倒是《卓有成效的程序员》,讲了很多提升效率的tip。小说看了若干,以前不怎么看流行小说,今年把国内作家写的几本畅销书都看了,《昆仑》《沧海》《鬼吹灯》全卷,还有一直都比较喜欢的作家陀思妥耶夫斯基的几本,今年最爱的小说应该是马丁的《冰与火之歌》,宏大的背景,对个体-“人”的关注,多数角色(无分善恶)都要去面对一个风云际会的时代里残酷的现实。类似小说的还有唐浩明版的曾国藩传记。印象深刻的还有梁文道的《常识》,陈志武的《金融的逻辑》廖信忠的《我们台湾这些年》,不知为何这本书在豆瓣上只有7.5的评分,非常不解,从内容的角度看我相信里面绝大部分都是事实。而且,我觉得我们更有可能在社会变迁上逐渐走上同一条路,多学习下台湾的经验是必要的。还有不得不提的就是南怀瑾的《论语别裁》,南师讲的大道理给我很多启示。
今年的愿望,做好去年没做完的事情,做好研究,锻炼好身体。
okay,祝大家新春快乐,虎年大吉。

February 13th, 2010
yaker
http://yaker-ebook.googlecode.com/files/what.is.past.is.not.gone.forever.pdf
章诒和的书。关于书籍本身,无书透,无评论。不过可以说下,最感动我的两个人便是储安平和史良了。
最近做电子书的工具也经过了一些修订渐渐稳定下来,我想把这些电子书做成一个单个的project,共享fop和docbook工具同时使用独立的配置。
这次做的电子书pdf文件里嵌入的字体也都使用了开源字体文鼎的AR PL UMing CN和文泉驿的ZenHei与MicroHei。不过实话说从显示效果来看,开源字体和商业字体相比(比如UMingCN对方正宋体,ZenHei对雅黑,当然文鼎字体也不全是开源的)都有一定差距。
February 11th, 2010
yaker
早上才第一次更新,晚上就“被删档”了。
我收到的注册邀请不多,一个是在新浪工作的朋友发来的,另外一个是很久不见的高中同学。今天是我第二次收到注册邀请,登上以前注册的账号,添加了两个好友。添加好友之余又更新了两条状态测试一下常见关键词,果不其然的被审核中,自娱自乐一下之后就下线了。晚上突然想起来,再登陆就变成如下状况了:

我还有两位新粉丝呢!!!
在garena(没错,就是那个电子竞技服务提供商)上偶然看到一则广告,我第一眼看到就觉得是针对可怜的中国网民的。拿youtube和facebook做vpn广告很难不让人联想到翻墙。

OpenNet的结果显示,我们生活在互联网过滤最严重的国度之一,这是有统计数据的,不信我也没办法。

这篇本来是草稿的,没准备发出来,听说外交部的发言人声称中国的互联网十分自由,我想想算了还是发出来了。虽说有种说法叫国家无道德,也不能这么欺骗民众啊,损失信用总是有代价的。
Recent Comments