Loading...

解决Linux下SSH等终端乱码问题

1.vi /etc/sysconfig/i18n

原来的内容为:LANG=”zh_CN.UTF-8″
将内容改为:
LANG=”zh_CN.GB18030″
LANGUAGE=”zh_CN.GB18030:zh_CN.GB2312:zh_CN”
SUPPORTED=”zh_CN.GB18030:zh_CN:zh:en_US.UTF-8:en_US:en”
SYSFONT=”lat0-sun16″
这样中文在SSH,telnet终端就可以正常显示了。

2.安装LINUX的时候选择的是中文字,但是使用的时候出现了乱码解决方法是在命令提示下输入export LANG=C

3.export LC_ALL=zh_CN.GBK
export LANG=zh_CN.GBK
LANG=”zh_CN.UTF-8″

离地三英寸–原创系列之一

7款本地PHP环境搭建工具

1. XAMPP

XAMPP是一款比较强大的本地测试平台,它集成了必须的三个功能,还带有 FileZilla,软件带有一个控制面板,在里面可以把Apache、MySql和FileZilla三者注册为系统服务或者卸载服务,有服务启动的控 制按钮,而且在窗口下部还能看到服务的运行信息。虽说面板是英文的,但清楚易懂。注册为系统服务有个好处就是开机能够自动运行,但是会消耗一定的系统资 源,怎么取舍用户自己来定。安装成功,服务也启动成功后,就可以把浏览器打开输入http://localhost/,试试是否成功。在XAMPP的网页 选项里,有中文支持。

2. Wamp Server

它的官方网站没有中文,但是程序支持中文。启动安装程序后,它会提示你请先卸载旧版,不支持 覆盖式的升级,然后一路NEXT就能安装成功。它在任务托盘里有个图标,如果服务启动异常,它就是红色的;如果部分异常,它就变成黄色;如果是一切正常, 那么它就变成了白色。这些不同的颜色警示,你很容易判断当前你的localhost能不能打开。它还能切换在线和离线状态,选项中的文语言项中也有简体中 文可选,很不错。

[Read More]

PHP 性能优化技巧

1. 不要随便就复制变量
有时候为了使 PHP 代码更加整洁,一些 PHP 新手(包括我)会把预定义好的变量复制到一个名字更简短的变量中,其实这样做的结果是增加了一倍的内存消耗,只会使程序更加慢。试想一下,在下面的例子中,如果用户恶意插入 512KB 字节的文字到文本输入框中,这样就会导致 1MB 的内存被消耗!

BAD:
$description = $_POST['description'];
echo $description;

GOOD:
echo $_POST['description'];

[Read More]

被点名了。。。

01 。我的大名:自由的风(loosky)
02 。我的生日:6月28日(阳历的。。其实我过的是阴历的生日,^_^)
03 。谁传给你的:美人蕉
04 。生日想得到什么礼物:对这个没什么奢求。。
05 。近期压力大的事:好像没什么有压力的事啊,一切轻松搞定,哈哈哈哈。。。
06 。未来想做的事:创业或者合伙,开个公司。。。
07 。有没有喜欢的人:有啊
08 。同学会要回去找老师吗:会,有很多老师,让我难忘。
09 。跟谁出去最幸福:能让我觉得幸福的人
10 。如果你的两个好友吵架了:让他们和好。
11 。跟情人最想去哪:海边看日出
12 。圣诞节要做啥:还没计划
13 。最想跟谁过圣诞节:一个纯正的中国人,对这个外国人的节日,没什么太大感觉呢。。。
14 。有没有赖床的习惯:不怎么喜欢赖床
15 。有几个兄弟姐妹:一妹
16 。最喜欢的一首歌:老歌
17 。喜欢什么颜色:不太敏感
18 。现在在做什么:回答被点名的问题
19 。最想大声说什么:怎么这么穷啊?????
20 。半夜敢不敢自己上厕所:小case
21 。谁很欠打:无
22 。现在很迷什么:女人,哈哈。。。
23 。睡相很差:还好吧,据说是偶像派,嘿嘿。。。。
24 。现在的时间:2009.6.34/8:51(北京时间咯)
25 。是否痛恨传给你点卷的人 :否
26 。体重多少:65kg,若是60kg那就比较爽了,大学时代最“苗条”的时候啊。。。
27 。今天天气:阴
28 。你若中乐透最想做什么:乐透是什么??? 我得到百度上google一下
29 。大学生一定要玩的活动:打工挣钱,去想去的地方旅游
30 。引起失眠的原因:我睡眠那不是一般的好,哎。。。失眠那是啥感觉?
31 。睡觉有流口水的情况吗:貌似没有
32 。近期开心的事:每天都会开心,可惜不能显现出来,否则会引起那位不开心啊。。。
33 。经常通宵不睡吗:No
34 。你会和爱自己的人还是自己爱的人结婚:我要和两情相悦的人结婚。
[Read More]

中文分词和TF-IDF

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

TF-IDF(term frequency–inverse document frequency)是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用。

TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适 合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。

使用TF*IDF可以计算某个关键字在某篇文章里面的重要性,因而识别这篇文章的主要含义,实现计算机读懂文章的功能。

常见中文分词开源项目:

SCWS

Hightman开 发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代 等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒, 换算完毕大概是 1.5MB文本/秒。支持PHP4he PHP 5。

ICTCLAS

这可是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的 评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到 3M.ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、 Java等主流的开发语言。

庖丁解牛分词

Java 提供lucence 接口,仅支持Java语言。

CC-CEDICT

一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。


自由的风

欢迎光临我的家园–自由的风|关注 技术,情感,生活,blog,网络

非IE浏览器下效果较佳