Page 9 of 14« First ‹ Previous 6 7 8910 11 12 Next ›Last »

5月 27

从mysql向redis中加载数据测试

Posted on 2012 年 5 月 27 日 by 张子萌

　　有测试显示reids如果使用持久化测试后效率会下降，所以不使用持久化。现在来测试一下从mysql中捞取数据加载到redis中的速度。
　　服务器使用8核2.6 cpu，内存8G，sas硬盘，Centos5.6 64位操作系统。python 2.6 redis2.4.13.
　　使用测试代码如下，从mysql的photo表中捞取两列数据加载到redis中，这两列在表中都有索引，数据量28万。

#!/bin/env python
# -------------------------------------------------
# Filename:    
# Revision:    
# Date:        2012-05-27
# Author:      simonzhang
# Email:       simon-zzm@163.com
# -------------------------------------------------
import MySQLdb
import redis


def redis_run(sql_data):
    try:
        r = redis.Redis(host='192.168.1.100', password = '123456', port=6379, db=0)
    except redis.RedisError, e:
        print "Error %s" % e
    for i in sql_data:
        r.set(str(i[0]),i[1])
        

def mysql_run(sql):
    try:
        db = MySQLdb.connect(host='192.168.1.100', user='test', passwd ='123456', db='photo')
        cursor = db.cursor()   
    except MySQLdb.Error, e:
        print "Error %d:%s" % (e.args[0],e.args[1])
        exit(1)
    try:
        result_set = ''
        cursor.execute('%s' % sql)
        result_set=cursor.fetchall()
        cursor.close()
        db.close()
        return  result_set
    except MySQLdb.Error, e:
        print "Error %d:%s" % (e.args[0], e.args[1])
        cursor.close()
        db.close()

def main():
    _loop = 0
    _limit_start = 0
    _limit_span = 10000
    _count_result = 5
    while _count_result > 0:
        result_data = ''
        sql = "select id as pid, userid as uid from photo LIMIT %s,%s" % (_limit_start + _limit_span * _loop, _limit_span)
        result_data = mysql_run(sql)
        _count_result = len(result_data)
        redis_run(result_data)
        _loop += 1


if __name__ == '__main__':
    main()

进行测试，分别为每次捞取50万，10万，5万，1万，结果如下：

50万
real 0m26.239s
user 0m16.816s
sys 0m5.745s

10万
real 0m24.019s
user 0m15.670s
sys 0m4.932s

5万
real 0m26.061s
user 0m15.789s
sys 0m4.674s

1万
real 0m28.705s
user 0m15.778s
sys 0m4.913s

结论：每次捞取10万效率会比较理想，对于操作系统的压力不大，所以硬件方面不用考虑。
这里两列保存的都是id，加入用户id和照片id长度都是9位，一组数据是18位。一亿组数据也就需要2G内存。
通过计算28万需要24秒，如果有1亿的数据，全部倒入要2个半小时。所以内存存储不是问题。不知道用固态硬盘是否能快，我没有就不知道了。所以要做三件事，一做好集群，将数据及时同步到其他机房，自己写个程序同步定时同步，如果用主从，主机重启了为空，这个就很麻烦了，二使用redis的数据持久化，肯定比从mysql中直接捞快，三天天烧香希望不要宕机。

5月 22

python 访问接口获得 WSDL 数据

Posted on 2012 年 5 月 22 日 by 张子萌

　　需求访问http://192.168.1.100:8080/Service?wsdl，获取统计数字，接口“Count”参数有“user：string，pwd：string”。
　　WSDL是Web Service的描述语言，是一种接口定义语言，用于描述Web Service的接口信息等。
　　首先，安装SOAPpy
easy_install SOAPpy
代码如下：

def get_service():
    _url = "http://192.168.1.100:8080/Service?wsdl"
    _user = "test"
    _pwd = "test"
    try:
        server = SOAPpy.SOAPProxy(_url)
        get_result = server.Count(_user, _pwd)
    except:
        get_result = "Error!"
    return "%s" % get_result

5月 06

scrapy 学习笔记一

Posted on 2012 年 5 月 6 日 by 张子萌

　　很多python开发都在用scrapy框架开发抓取，我也算学习一下。虽然笔记序号为一，但是能不能坚持下去还不知道，写着看吧。官方网址：http://scrapy.org/。官方接受scrapy是纯python做的高效的web抓取框架，网络爬虫，后提取相关页面的数据。scrapy可以用于数据挖掘、监控和自动化测试等工作。据说google的大部分爬虫也是用python写的，但是不知道是否用了这个框架。可以肯定的是，这个框架能做很多事、很大，我只会用到很简单一部分。我做笔记是为自己学习记录，既不系统也不全面，建议大家到官方下载pdf的文档，进行学习，我也是通过pdf文档学习，并使用其中的例子修改为自己的形成笔记。为了不引起争议，直接用自己的站进行抓取学习。
　　开始学习了，linux的环境，是CentOS5，windows的环境是win7，python都是2.6，因为scrapy支持2.6、2.7，不支持3.X。直接使用easy_install安装，但是windows上安装的是0.14.3，linux上安装的0.12，官方网站上最新的开发版本是0.15。不知道为什么差距这么大。为了方便学习直接手动下载0.15，安装到linux上。

tar zxf Scrapy-X.X.X.tar.gz
cd Scrapy-X.X.X
python setup.py install

　　在linux上安装有警告，关于ssl的，如下

Running pyOpenSSL-0.13/setup.py -q bdist_egg –dist-dir /tmp/easy_install-rx8P0H/pyOpenSSL-0.13/egg-dist-tmp-g7Da22
warning: no previously-included files matching ‘*.pyc’ found anywhere in distribution
OpenSSL/ssl/connection.c: In function ‘ssl_Connection_set_context’:
OpenSSL/ssl/connection.c:289: 警告：隐式声明函数 ‘SSL_set_SSL_CTX’
OpenSSL/ssl/connection.c: In function ‘ssl_Connection_get_servername’:
OpenSSL/ssl/connection.c:313: 错误：‘TLSEXT_NAMETYPE_host_name’ 未声明 (在此函数内第一次使用)
OpenSSL/ssl/connection.c:313: 错误：(即使在一个函数内多次出现，每个未声明的标识符在其
OpenSSL/ssl/connection.c:313: 错误：所在的函数内只报告一次。)
OpenSSL/ssl/connection.c:320: 警告：隐式声明函数 ‘SSL_get_servername’
OpenSSL/ssl/connection.c:320: 警告：赋值时将整数赋给指针，未作类型转换
OpenSSL/ssl/connection.c: In function ‘ssl_Connection_set_tlsext_host_name’:
OpenSSL/ssl/connection.c:346: 警告：隐式声明函数 ‘SSL_set_tlsext_host_name’
error: Setup script exited with error: command ‘gcc’ failed with exit status 1

　　直接下载pyopenssl后安装，
http://pypi.python.org/packages/source/p/pyOpenSSL/pyOpenSSL-0.12.tar.gz

　　再执行 easy_install -U scrapy，安装成功。
　　在windows上除了安装pyopenssl还要w3lib、Twisted，但是处理比较简单，直接easy_install安装，如：C:\Python26\Scripts>easy_install.exe pyopenssl。
　　环境搭建完成，毕竟使用的linux服务器，所以还是在linux上学习。开始创建一个抓取项目，项目名为scrapytest.
>scrapy startproject simonzhang
创建项目完毕，目录树如下,：

simonzhang
│  scrapy.cfg               # 整个目录的配置
│
└─simonzhang                # 项目模块，代码都放在这
    │  items.py             # 项目的items文件，相当于格式化抓取的内容，以字典形式返回
    │  pipelines.py         # 项目的pipelines，管理通道，主要是对抓取网页后的数据清洗、验证和入库
    │  settings.py          # 项目的设置文件，
    │  __init__.py
    │
    └─spiders             # 这个目录放的是蜘蛛文件，
            __init__.py

　　进入simonzhang目录，编辑simonzhang/items.py

from scrapy.item import Item, Field

class ScrapytestItem(Item):
    # define the fields for your item here like:
    # name = Field()
    title =  Field()
    link = Field()
    desc = Field()
    pass

　　编写第一个蜘蛛simonzhang/spiders/frist_simonzhang.py

from   scrapy.spider      import   BaseSpider 

class   DmozSpider (BaseSpider): 
      name  =  "simonzhang_net"     # 蜘蛛的名字，一个项目下每个蜘蛛名字必须是唯一的
      allowed_domains = ["simonzhang.net"] 
      start_urls = ["http://www.simonzhang.net/"]  #下载列表，注意域名后面需要一个“/”因为稍后会用于截取文件名

      def  parse (self,response):   # 抓取和保存的方法
           filename    =  response.url.split("/")[2] 
           open (filename, 'wb').write(response .body)

　　进入simonzhang/simonzhang/spiders目录运行下面命令：
scrapy crawl simonzhang_net
　　运行完毕，看到目录下已经有一个www.simonzhang.net的文件，打开文件可以看到是抓取为首页的文件。

scrapy 学习笔记二
http://www.simonzhang.net/?p=1112

4月 25

学习 python 编写规范 pep8 的问题笔记

Posted on 2012 年 4 月 25 日 by 张子萌

　　在学习过程中有如下问题，做个记录。
　　以前没有注意的问题
1)
一行列数 : PEP 8 规定为 79 列，这个太苛刻了，如果要拼接url一般都会超。
一个函数 : 不要超过 30 行代码, 即可显示在一个屏幕类，可以不使用垂直游标即可看到整个函数。
一个类 : 不要超过 200 行代码，不要有超过 10 个方法。
一个模块 : 不要超过 500 行。

2)不要在一句import中多个库
不推荐
import os, sys

python 代码规范 pep8

Posted on 2012 年 4 月 23 日 by 张子萌

　　学习了很久的python，基本都是功能是想，没有遵循过代码规范。当前想成正规军，所以学习一下代码规范。直接学习pep8规范。规范文档下载位置。
http://www.python.org/dev/peps/pep-0008/

　　网上也有不少中文的简要代码规范，可以参考。个人也没有细看，准备实践中学习，所以使工具来辅助检查，检查工具下载位置。直接用easy_install安装比较方便。
http://pypi.python.org/pypi/pep8/

　　用之前的彩票代码试试，很多毛病呀，如下图

　　平时都用eclipse，所以还是装配置在eclipse上比较方便。当前eclipse已经支持了python，直接配置pep8。

　　打开eclipse开始配置，Window->Preferences->PyDev->Editor->Code Analysis,打开pep8.py 的标签页选择waring，如下图。

　　重启eclipse后看到有很多的叹号，把鼠标放上去能看到问题。开始慢慢学习了。

演示脚本位置：http://www.simonzhang.net/?p=976

simonzhang的家

有朋自远方来。。。。。

Tag Archives: python

从mysql向redis中加载数据测试

python 访问接口获得 WSDL 数据

scrapy 学习笔记一

学习 python 编写规范 pep8 的问题笔记

python 代码规范 pep8

2024年五月
一	二	三	四	五	六	日
« 1月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31