4月 20

慢也能成为另一种高速

  回程的路上看到前面路中间有事故标志,警察正在指挥行驶的车辆向最外侧车道行驶。所有车辆都减慢车速,排成一字型通过单条车道。在经过隔离带时转头看了一眼,路中间有辆卡车,车身与前行方向成45度角横在路间,占了两条车道。卡车后方5米左右位置,一个军大衣下面不断流出血来,从露在外面的脚看,应该是个十几岁的孩子。我想原因只有一个“快”,车速快,小孩跑的也快。
  现在的中国很多事情做或发展的都太快了,这种快是从国家到民众在提速。但是速度快了真的给我们带来高效吗。高铁不断提速,7.23高铁事故来了。汽车行业发展提速了,交通又拥堵了,油价又飞涨了。企业要高速发展,不断提高利润,工业明胶的食品来了。由于发展过快,一个质量问题就把整个企业拖垮了。百姓也想快速致富,三聚氰胺来了,毒蔬菜来了。为什么?速度太快了,所以多问题是不能避免的,因为国家的体质没有准备好,企业管理还没有跟上,百姓的素质也没有提高到应有的高度。很多人得道德标准已经降到零,为了利润可以无耻到任何地步。
  人是贪婪的矛盾的,会不断最求高利润,在没有相应法规、相对平等的待遇和基本的道德因素去控制时,出问题是必然的。如果为了避免这些问题,就需要让与之匹配的条件也要随之发展、健全,所以速度要慢点。不要跑的过快,过快了事情就很难控制。都市人有各种各样的城市病,休闲时羡慕慢节奏的生活和美丽的景色,但是美丽的自然风光往往都是和贫穷联系在一起,所以让逐利的人不敢近前。慢也可以变为另一种高速,等待也是一种必修的态度。

4月 19

python开头不可见字符的处理

  今天要处理一个由程序生成的文本文件,但是开头总有乱码。通过查看文件使用utf-8编码。直接用二进制打印。

for i in open("file.txt","rb"):
    print i 

  得到的乱码是“\xef\xbb\xbf”,处理方法很简单,直接截掉就可以了。

#### \xef\xbb\xbf
if i[:3] == "\xEF\xBB\xBF" :
      i = i[3:]

  但是为什么会出现这个问题,到网上查了一下,是utf-8编码的BOM(Byte Order Mark)。UTF-8 BOM又叫UTF-8 签名,BOM对UFT-8没有用,主要为了支持UTF-16,UTF-32才加上。BOM就是方便编辑器识别。所以直接删掉也没有问题。

参考:
http://www.cnblogs.com/DDark/archive/2011/11/28/2266085.html

4月 17

python 使用资源不断收集中

安装使用:
easy_install安装升级工具,根据自己需要版本获取。有了这个很多东西都不需要了。
http://pypi.python.org/pypi/setuptools#downloads
wget -q http://peak.telecommunity.com/dist/ez_setup.py

开发环境搭建:
eclipse 环境集成安装
http://pydev.org/updates

开发框架:
py2exe
http://starship.python.net/crew/theller/py2e

windows下的摄像头获取
http://videocapture.sourceforge.net/

python转C并编译
http://cython.org/

学习:
watchdog
watchdog 用来监控文件系统事件的Python API和shell实用工具。

pattern
Pattern Web数据挖掘模块。可用于数据挖掘、自然语言处理、机器学习和网络分析

django-sentry
实时Django的异常记录,Django的异常记录到数据库处理程序。

excel操作
http://www.python-excel.org/

4月 16

linux下网络流量突然上涨问题查询

  服务器流量突然上涨,是否客户一下增多了?需要查看一下,因为数据库压力并没有增加。服务器使用的CentOS的系统,所以就用到抓包工具tcpdump。使用命令如下,在eth0的网卡上抓10万个数据包,保存在log.cap中。
# tcpdump -c 100000 -i eth0 -w log.cap &
  执行命令后台运行,并且退掉ssh,这样又避免了复杂的过滤,又不会有大量和ssh客户端的交互。(偷懒的行为)过一段时间,到服务器上把抓好的包拿下来,使用windows的上的wrieshark分析。发现了一个地址有大量连接交互,通过分析包得知,这个地址是个搜索的抓取地址,因为我们有个连接是直接跳转到下载数据包,所以这个抓取每次访问都会把整个数据包下载一边。所以造成网络流量突增。
  使用抓包工具比较麻烦,但是也不能通过统计日志里IP访问的方法来判断。因为下载只是一次访问,日志只有一条记录,所以不能更好反应增长量的问题。

TcpDump
tcpdump [ -adeflnNOpqRStuvxX ] [ -c 数量 ] [ -C 文件尺寸 ] [ -F 文件名 ] [ -i 网络接口 ] [ -m 文件名 ] [ -r 文件名 ] [ -s 长度 ] [ -T 类型 ] [ -w 文件名 ] [ -E algo:secret ] [ 表达式

-a    将网络地址和广播地址转变成名字;
   -d    将匹配信息包的代码以人们能够理解的汇编格式给出;
   -dd    将匹配信息包的代码以c语言程序段的格式给出;
   -ddd   将匹配信息包的代码以十进制的形式给出;
   -e    在输出行打印出数据链路层的头部信息;
   -f    将外部的Internet地址以数字的形式打印出来;
   -l    使标准输出变为缓冲行形式;
如tcpdump -l >tcpcap.txt将得到的数据存入tcpcap.txt文件中。
   -n    不把网络地址转换成名字;
如果不使用这一项,当系统中存在某一主机的主机名时,TcpDump会把IP地址转换为主机名显示,就
像这样:eth0 < ntc9.1165> router.domain.net.telnet,
使用-n后变成了:eth0 < 192.168.0.9.1165 > 192.168.0.1.telnet。
-nn 不进行端口名称的转换。
上面这条信息使用-nn后就变成了:eth0 < ntc9.1165 > router.domain.net.23。
   -t    在输出的每一行不打印时间戳;
   -v    输出一个稍微详细的信息,例如在ip包中可以包括ttl和服务类型的信息;
   -vv    输出详细的报文信息;
   -c    在收到指定的包的数目后,tcpdump就会停止;
   -F    从指定的文件中读取表达式,忽略其它的表达式;
   -i    指定监听的网络接口;
   -r    从指定的文件中读取包(这些包一般通过-w选项产生);
   -w    直接将包写入文件中,并不分析和打印出来;
   -T    将监听到的包直接解释为指定的类型的报文,常见的类型有rpc (远程过程调用)和snmp