5月 22

python 访问接口获得 WSDL 数据

Posted on 2012 年 5 月 22 日 by 张子萌

　　需求访问http://192.168.1.100:8080/Service?wsdl，获取统计数字，接口“Count”参数有“user：string，pwd：string”。
　　WSDL是Web Service的描述语言，是一种接口定义语言，用于描述Web Service的接口信息等。
　　首先，安装SOAPpy
easy_install SOAPpy
代码如下：

def get_service():
    _url = "http://192.168.1.100:8080/Service?wsdl"
    _user = "test"
    _pwd = "test"
    try:
        server = SOAPpy.SOAPProxy(_url)
        get_result = server.Count(_user, _pwd)
    except:
        get_result = "Error!"
    return "%s" % get_result

5月 20

vsftp 自用配置

Posted on 2012 年 5 月 20 日 by 张子萌

直接用yum安装vsftp非常简单，然后将配置拷贝到配置文件中重启即可，自用配置在这做个记录。
配置文件/etc/vsftpd/vsftpd.conf
配置如下
anonymous_enable=NO
local_enable=YES
write_enable=YES
local_umask=022
#chroot_local_user=YES
dirmessage_enable=YES
xferlog_enable=YES
connect_from_port_20=YES
xferlog_std_format=YES
xferlog_file=/var/log/vsftpd.log
idle_session_timeout=600
data_connection_timeout=120
ls_recurse_enable=NO
pam_service_name=vsftpd
userlist_enable=YES
ftpd_banner=Welcome to blah FTP service.
max_clients=10
max_per_ip=3
use_localtime=YES
listen=YES
tcp_wrappers=YES
chroot_list_enable=YES
chroot_list_file=/etc/vsftpd/vsftpd.chroot_list

然后手动建立/etc/vsftpd/vsftpd.chroot_list
将系统中可以用来登录ftp的账户放在里面。
注意：ftp账户也可以有操作系统登录权，所以登录用户需要规划。

5月 16

tomcat7 虚拟主机

Posted on 2012 年 5 月 16 日 by 张子萌

　　之前一直在用tomcat5，现在用tomcat7，幸好配置没有变化，把几处重要的配置写出来，备忘。
　　需求1）tomcat做连接优化。
2）tomcat下的默认使用ROOT,message.simonzhang.net的域名，使用tomcat，webapps下的message

修改一、

修改二、

需要注意compressableMimeTy配置，tomcat前端有nginx或者apace等服务如果已经启动了压缩的处理，这里就不用配置了。。

5月 15

tomcat 日志切割

Posted on 2012 年 5 月 15 日 by 张子萌

日志自动切割以前使用cronolog进行，apache为http://www.simonzhang.net/?p=362，tomcat为http://www.simonzhang.net/?p=359。
但是tomcat7 以后启动叫脚本改了，也就不麻烦了，直接自己写个shell解决，此脚本会丢失少量正在切割时产生的日志。

#!/bin/sh
log_dir=("/program/allweb/tomcat_a/logs" "/program/allweb/tomcat/logs")
for (( i=0 ; i<${#log_dir[@]} ; i++ ))
do
    if [ -f ${log_dir[i]}\/catalina.out ]; then
        cd ${log_dir[i]}
        date_dir=`date +%Y-%m-%d`
        /bin/cp catalina.out  catalina_${date_dir}.out
        /bin/echo '' > catalina.out
        /usr/bin/find -ctime +15 -exec rm -rf {} \;
    fi
done

5月 13

scrapy 入门学习笔记二

Posted on 2012 年 5 月 13 日 by 张子萌

scrapy 入门学习笔记二

　　蜘蛛抓回数据需要进行分析。首先要了解一下XPath。XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。XPath 是 W3C 标准，有空再学习吧。简单看一下html dom(Document Object Model)的文档对象模型.

　　首先用scrapy shell 进行交互式解析的实验使用命令如下：
# scrapy shell http://www.simonzhang.net/

获得数据并进入shell中
<......>DEBUG: Crawled (200) (referer: None)
[s] Available Scrapy objects:
[s] hxs

　　修改代码，来抓取头文件中的连接。代码如下：

from scrapy.spider import BaseSpider 
from scrapy.selector import HtmlXPathSelector


class   DmozSpider (BaseSpider): 
      name  =  "simonzhang" 
      allowed_domains = ["simonzhang.net"] 
      start_urls = [ 
           "http://www.simonzhang.net/"] 

      def  parse (self,response): 
           hxs = HtmlXPathSelector(response)
           site_code = hxs.select('//html/head')
           for l in site_code:
               _link = l.select('link/@href').extract()
               print "================"
               print _link
               print "================"

　　运行蜘蛛，得到的抓取的结果。获得的结果需要保存，这时就用到item。item对象是python的字典，将字段和值进行关联。编辑spiders上层的items.py文件。

from scrapy.item import Item, Field

class ScrapytestItem(Item):
    # define the fields for your item here like:
    # name = Field()
    title =  Field()
    head_link = Field()
    head_meta = Field()
    pass

　　然后需要修改蜘蛛文件，代码为：

from scrapy.spider import BaseSpider 
from scrapy.selector import HtmlXPathSelector
from simonzhang.items import ScrapytestItem  #ScrapytestItem引用上级目录里的类

class   DmozSpider (BaseSpider): 
    name = "simonzhang" 
    allowed_domains = ["simonzhang.net"] 
    start_urls = [ 
         "http://www.simonzhang.net/"] 

    def  parse (self,response): 
         hxs = HtmlXPathSelector(response)
         site_code = hxs.select('//html/head')
         items = []
         for l in site_code:
             item = ScrapytestItem()
             item['title'] = l.select('title/text()').extract()
             item['head_link'] = l.select('link/@href').extract()
             item['head_meta'] = l.select('meta').extract()
             items.append(item)
         return items

　　运行一下命令进行抓取，成功后就会在同级目录产生一个json的文件，里面保存的是抓取的内容。对于抓取小型的项目足够用了。
scrapy crawl simonzhang -o simonzhang.json -t json

　　上条命令里的“-o”为指定输出文件，“-t”为指定输出格式，更多的参数，可以使用“scrapy crawl –help”参考。

scrapy 入门学习笔记一
http://www.simonzhang.net/wp-admin/post.php?post=1108&action=edit

Page 75 of 101« First ‹ Previous 72 73 747576 77 78 Next ›Last »

一	二	三	四	五	六	日
« 1月
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

simonzhang的家

有朋自远方来。。。。。

python 访问接口获得 WSDL 数据

vsftp 自用配置

tomcat7 虚拟主机

tomcat 日志切割

scrapy 入门学习笔记二