Page 3 of 71 234 5 6 7

6月 06

linux 两个文件取交集命令

Posted on 2012 年 6 月 6 日 by 张子萌

　　有两个文件a和b，a中包含b中所有数据。需要找出a文件中包含b文件内容的数据。具体操作如下：
a.txt文件
http://www.simonzhang.net/msg?phone=12320421&msg=hfeaf
http://www.simonzhang.net/msg?phone=13219543&msg=efweff3
http://www.simonzhang.net/msg?phone=12765745&msg=f3fds
http://www.simonzhang.net/msg?phone=12432321&msg=3r2r322
http://www.simonzhang.net/msg?phone=14142142&msg=rgewo3
http://www.simonzhang.net/msg?phone=14212412&msg=iv9e
http://www.simonzhang.net/msg?phone=12321243&msg=e

b.txt文件
12320421
12432321
12321243

　　查找a对b的交集命令：grep -f b.txt a.txt
结果如下：
http://www.baidu.com/msg?phone=12320421&msg=hfeaf
http://www.baidu.com/msg?phone=12432321&msg=3r2r322
http://www.baidu.com/msg?phone=12321243&msg=e

举一反三，如果要找差集命令为：grep -v -f b.txt a.txt

5月 06

scrapy 学习笔记一

Posted on 2012 年 5 月 6 日 by 张子萌

　　很多python开发都在用scrapy框架开发抓取，我也算学习一下。虽然笔记序号为一，但是能不能坚持下去还不知道，写着看吧。官方网址：http://scrapy.org/。官方接受scrapy是纯python做的高效的web抓取框架，网络爬虫，后提取相关页面的数据。scrapy可以用于数据挖掘、监控和自动化测试等工作。据说google的大部分爬虫也是用python写的，但是不知道是否用了这个框架。可以肯定的是，这个框架能做很多事、很大，我只会用到很简单一部分。我做笔记是为自己学习记录，既不系统也不全面，建议大家到官方下载pdf的文档，进行学习，我也是通过pdf文档学习，并使用其中的例子修改为自己的形成笔记。为了不引起争议，直接用自己的站进行抓取学习。
　　开始学习了，linux的环境，是CentOS5，windows的环境是win7，python都是2.6，因为scrapy支持2.6、2.7，不支持3.X。直接使用easy_install安装，但是windows上安装的是0.14.3，linux上安装的0.12，官方网站上最新的开发版本是0.15。不知道为什么差距这么大。为了方便学习直接手动下载0.15，安装到linux上。

tar zxf Scrapy-X.X.X.tar.gz
cd Scrapy-X.X.X
python setup.py install

　　在linux上安装有警告，关于ssl的，如下

Running pyOpenSSL-0.13/setup.py -q bdist_egg –dist-dir /tmp/easy_install-rx8P0H/pyOpenSSL-0.13/egg-dist-tmp-g7Da22
warning: no previously-included files matching ‘*.pyc’ found anywhere in distribution
OpenSSL/ssl/connection.c: In function ‘ssl_Connection_set_context’:
OpenSSL/ssl/connection.c:289: 警告：隐式声明函数 ‘SSL_set_SSL_CTX’
OpenSSL/ssl/connection.c: In function ‘ssl_Connection_get_servername’:
OpenSSL/ssl/connection.c:313: 错误：‘TLSEXT_NAMETYPE_host_name’ 未声明 (在此函数内第一次使用)
OpenSSL/ssl/connection.c:313: 错误：(即使在一个函数内多次出现，每个未声明的标识符在其
OpenSSL/ssl/connection.c:313: 错误：所在的函数内只报告一次。)
OpenSSL/ssl/connection.c:320: 警告：隐式声明函数 ‘SSL_get_servername’
OpenSSL/ssl/connection.c:320: 警告：赋值时将整数赋给指针，未作类型转换
OpenSSL/ssl/connection.c: In function ‘ssl_Connection_set_tlsext_host_name’:
OpenSSL/ssl/connection.c:346: 警告：隐式声明函数 ‘SSL_set_tlsext_host_name’
error: Setup script exited with error: command ‘gcc’ failed with exit status 1

　　直接下载pyopenssl后安装，
http://pypi.python.org/packages/source/p/pyOpenSSL/pyOpenSSL-0.12.tar.gz

　　再执行 easy_install -U scrapy，安装成功。
　　在windows上除了安装pyopenssl还要w3lib、Twisted，但是处理比较简单，直接easy_install安装，如：C:\Python26\Scripts>easy_install.exe pyopenssl。
　　环境搭建完成，毕竟使用的linux服务器，所以还是在linux上学习。开始创建一个抓取项目，项目名为scrapytest.
>scrapy startproject simonzhang
创建项目完毕，目录树如下,：

simonzhang
│  scrapy.cfg               # 整个目录的配置
│
└─simonzhang                # 项目模块，代码都放在这
    │  items.py             # 项目的items文件，相当于格式化抓取的内容，以字典形式返回
    │  pipelines.py         # 项目的pipelines，管理通道，主要是对抓取网页后的数据清洗、验证和入库
    │  settings.py          # 项目的设置文件，
    │  __init__.py
    │
    └─spiders             # 这个目录放的是蜘蛛文件，
            __init__.py

　　进入simonzhang目录，编辑simonzhang/items.py

from scrapy.item import Item, Field

class ScrapytestItem(Item):
    # define the fields for your item here like:
    # name = Field()
    title =  Field()
    link = Field()
    desc = Field()
    pass

　　编写第一个蜘蛛simonzhang/spiders/frist_simonzhang.py

from   scrapy.spider      import   BaseSpider 

class   DmozSpider (BaseSpider): 
      name  =  "simonzhang_net"     # 蜘蛛的名字，一个项目下每个蜘蛛名字必须是唯一的
      allowed_domains = ["simonzhang.net"] 
      start_urls = ["http://www.simonzhang.net/"]  #下载列表，注意域名后面需要一个“/”因为稍后会用于截取文件名

      def  parse (self,response):   # 抓取和保存的方法
           filename    =  response.url.split("/")[2] 
           open (filename, 'wb').write(response .body)

　　进入simonzhang/simonzhang/spiders目录运行下面命令：
scrapy crawl simonzhang_net
　　运行完毕，看到目录下已经有一个www.simonzhang.net的文件，打开文件可以看到是抓取为首页的文件。

scrapy 学习笔记二
http://www.simonzhang.net/?p=1112

4月 16

linux下网络流量突然上涨问题查询

Posted on 2012 年 4 月 16 日 by 张子萌

　　服务器流量突然上涨，是否客户一下增多了？需要查看一下，因为数据库压力并没有增加。服务器使用的CentOS的系统，所以就用到抓包工具tcpdump。使用命令如下，在eth0的网卡上抓10万个数据包，保存在log.cap中。
# tcpdump -c 100000 -i eth0 -w log.cap &
　　执行命令后台运行，并且退掉ssh，这样又避免了复杂的过滤，又不会有大量和ssh客户端的交互。（偷懒的行为）过一段时间，到服务器上把抓好的包拿下来，使用windows的上的wrieshark分析。发现了一个地址有大量连接交互，通过分析包得知，这个地址是个搜索的抓取地址，因为我们有个连接是直接跳转到下载数据包，所以这个抓取每次访问都会把整个数据包下载一边。所以造成网络流量突增。
　　使用抓包工具比较麻烦，但是也不能通过统计日志里IP访问的方法来判断。因为下载只是一次访问，日志只有一条记录，所以不能更好反应增长量的问题。

TcpDump
tcpdump [ -adeflnNOpqRStuvxX ] [ -c 数量 ] [ -C 文件尺寸 ] [ -F 文件名 ] [ -i 网络接口 ] [ -m 文件名 ] [ -r 文件名 ] [ -s 长度 ] [ -T 类型 ] [ -w 文件名 ] [ -E algo:secret ] [ 表达式

-a 　　　将网络地址和广播地址转变成名字；
　　　-d 　　　将匹配信息包的代码以人们能够理解的汇编格式给出；
　　　-dd 　　将匹配信息包的代码以c语言程序段的格式给出；
　　　-ddd 　　将匹配信息包的代码以十进制的形式给出；
　　　-e 　　　在输出行打印出数据链路层的头部信息；
　　　-f 　　　将外部的Internet地址以数字的形式打印出来；
　　　-l 　　　使标准输出变为缓冲行形式；
如tcpdump -l ＞tcpcap.txt将得到的数据存入tcpcap.txt文件中。
　　　-n 　　　不把网络地址转换成名字；
如果不使用这一项，当系统中存在某一主机的主机名时，TcpDump会把IP地址转换为主机名显示，就
像这样：eth0 ＜ ntc9.1165＞ router.domain.net.telnet，
使用-n后变成了：eth0 ＜ 192.168.0.9.1165 ＞ 192.168.0.1.telnet。
-nn 不进行端口名称的转换。
上面这条信息使用-nn后就变成了：eth0 ＜ ntc9.1165 ＞ router.domain.net.23。
　　　-t 　　　在输出的每一行不打印时间戳；
　　　-v 　　　输出一个稍微详细的信息，例如在ip包中可以包括ttl和服务类型的信息；
　　　-vv 　　输出详细的报文信息；
　　　-c 　　　在收到指定的包的数目后，tcpdump就会停止；
　　　-F 　　　从指定的文件中读取表达式,忽略其它的表达式；
　　　-i 　　　指定监听的网络接口；
　　　-r 　　　从指定的文件中读取包(这些包一般通过-w选项产生)；
　　　-w 　　　直接将包写入文件中，并不分析和打印出来；
　　　-T 　　　将监听到的包直接解释为指定的类型的报文，常见的类型有rpc （远程过程调用）和snmp

4月 05

越来越慢的java问题

Posted on 2012 年 4 月 5 日 by 张子萌

　　新上线了一个接口，但是导致整个服务越来越慢。之前所做的压力测试结果也不错，五百并发只要十几秒。因为没有做疲劳测试，当前看来还是有问题。但是具体哪里出了问题还不清楚，需要详细查看。我也不是java开发所以只能是协助分析，先找了个分析工具看看导致瓶颈的主要原因。下载http://java.net/projects/visualvm/downloads/download/release134/visualvm_134.zip，解压缩后直接使用。
　　解压缩后在文件夹的bin目录下有两个可执行文件，一个是exe的windows下使用的，另一个是linux下使用的。直接将解压的目录上传到linux操作系统中。准备运行，需要注意的是，linux下运行需要用到图形化，所以要用putty这类的小工具需要开启X11。
　　启动# sh visualvm。在左侧可以看到已经启动的容器，打开resin服务。等待运行一段时间如图：
　　经过更长时间对比，确定应该是内存泄露问题。因为内存值不断在增长，直至将系统资源占满。正常的接口，进行压力测试时，内存和CPU的值均比较平衡。具体问题使用sampler进行分析，应该是字符转换存在问题，并且没有释放。我直接反馈给开发人员，具体问题就不清楚了，在此做个简单记录。

3月 31

我的桌面

Posted on 2012 年 3 月 31 日 by 张子萌

搞了很多年的linux，但是很多命令还是不能熟记于心，每次要打开一层层文件有比较麻烦，所以自己做了个桌面，以备救急。尺寸为1280×800.

simonzhang的家

有朋自远方来。。。。。

Tag Archives: linux

linux 两个文件取交集命令

scrapy 学习笔记一

linux下网络流量突然上涨问题查询

越来越慢的java问题

我的桌面

2025年七月
一	二	三	四	五	六	日
« 1月
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31