11月 22

python 获取阿里OSS存储图片，在内存中处理图片

Posted on 2012 年 11 月 22 日 by 张子萌

　　申请了阿里的云存储OSS来存储图片。需要的时候直根据图片名，到阿里OSS中获得图片，然后切割成需要尺寸，最后返回给客户。获取后的切割操为内存操作，这样就不用占硬盘的IO了。
　　Image使用的是PIL。阿里的SDK。SDK在python2.6调试报错。SDK比较古老，如报MD5的错误可以将oss_util.py开始的“import md5”修改为“from hashlib import md5”
　　部分代码如下：

#!/bin/env python
# -*- coding:utf-8 -*-
# ---------------------------------------------
# Filename:    test.py
# Revision:    
# Date:        2012-11-19
# Author:      simonzhang
# Email:       simon-zzm@163.com
# Web:         www.simonzhang.net
# ---------------------------------------------
from oss import oss_api
import Image
from StringIO import StringIO

#### 阿里云OSS的基础信息 
HOST="oss.aliyuncs.com"  
ACCESS_ID = "xxxxxxxxx" 
SECRET_ACCESS_KEY = "xxxxxxxxxxxxx="
bucketName = "_photo"


#### 从阿里云存储获取图片
def get_image(_image_name):
    my_store = oss_api.OssAPI(HOST, ACCESS_ID, SECRET_ACCESS_KEY)
    res = my_store.get_object(bucketName, _image_name).read()
    #### 开始切图
    _cut_image = cut_image(res)
    return _cut_image

#### 切图部分
def cut_image(_image_data):
    _get_image = Image.open(_image_data)
    #### 切成300X300的尺寸
    tmp_image = _get_data.resize((300,300),Image.ANTIALIAS)
    #### 在内存中转换图片为string
    _tmp_file = StringIO("")
    tmp_image.save(_tmp_file, 'JPEG', quality=75)
    _tmp_file.seek(0)
    _tmp_image = _tmp_file.read()
    return _tmp_image

　　测试效果还可以，一个一核的CPU，512M内存，1M带宽跑满CPU使用率10%。买台最便宜的阿里主机，直接从OSS里获取就不用再收费了。框架用的是tornado。

8月 16

go 操作redis ，对比python 操作redis

Posted on 2012 年 8 月 16 日 by 张子萌

　　之前做过python入库到redis的测试 http://www.simonzhang.net/?p=430
　　今天才发现由于页面生成问题，有部分代码被转译了。借这个机会在同一台机器上再测试一下这两种语言。

　　测试服务器为一个Xeon(TM)双核3.20GHz 的cpu，内存4G。操作系统为Centos5.4 64位。go1.0.2,python2.6

　　go环境和redis之前已经有记录，go语言的redis开发包安装也比较简单，但是官方文档中目录有写错。
　　我的go放在/usr/local/go,我的安装记录如下：
cd /usr/local/go/src/pkg
git clone git://github.com/alphazero/Go-Redis.git redis
cd redis
go install

仍旧用大密码表实验，go语言代码如下：

//www.simonzhang.net
package main 

import (
	"os";
	"log";
	"fmt";
	"redis";
        "encoding/hex"
        "crypto/md5"
)

func main () {
	spec := redis.DefaultSpec().Db(1).Password("");
        //如要操作远程redis服务器连接如下
	//spec := redis.DefaultSpec().Host("192.168.1.200").Db(1).Password("123");
	client, e := redis.NewSynchClientWithSpec (spec);
	if e != nil { log.Println ("failed to create the client", e); return }
        var str string
        userFile := "big_pass.txt"
        fin,err := os.Open(userFile)
        defer fin.Close()
        if err != nil {
                fmt.Println(userFile,err)
                return
        }
        buf := make([]byte, 1)
        for{
                n,_:= fin.Read(buf)
                if 0==n {break}
                if string(buf)=="\n"{
	            h:= md5.New()
   	            h.Write([]byte(str))
                    key:=hex.EncodeToString(h.Sum(nil));
                    value:=[]byte(str)
                    client.Set(key, value);
                    str=""
                 }else{
                    str+=string(buf)
                 }
                  
        }
}

开始测试

go使用build编译运行，cpu使用率在55%左右，load average: 1.98, 1.22, 0.91
real 1m33.310s
user 0m42.586s
sys 0m34.567s

python cpu使用在在80%，load average: 2.19, 1.36, 0.86。
real 1m26.873s
user 0m56.316s
sys 0m19.595s

　　总结python写redis的东西比较简单。go对字符串做了MD5，入redis时用MD5值做key。
a）都运行完毕python和go录入redis行数与文本行数相同。
b）从大小来看python不到1K，go编译完成2.3M。如果要一处编译，移到其他服务器运行，go编译完的可以直接运行，python还要再装环境。但是有easy_install，所以装环境对我来说比较简单。
c) cpu使用量来看go要比python好一些，在增加md5计算的情况下所用系统资源也比pyhton少，但是应该快不了一倍。
d) 从代码编写的逻辑和难易程度来看，还是python简单一点。
如果要考虑速度可以试试Cpython，我没有试过。

6月 25

如果我做双色球报表系统性能会如何

Posted on 2012 年 6 月 25 日 by 张子萌

　　双色球有人中了5.7亿，各种怀疑的声音也此起彼伏。有人说停售到开奖直播中间有一段时间是在算出现概率。我对是否在算并不感兴趣，我倒是想知道，如果在算要用什么样子的服务器

，会有多大压力。实际值2012072期销售349310588元，共174655294注。我用一台很老的dell 2850 来试验，双核3.2主频的单cpu，4G内存，ide接口硬盘。 Centos 5.4 64位系统，mysql5。

　　写个脚本产生随机数来模拟彩票投注。根据投注号产生MD5码，取MD5的前两位作为分表依据。
　　需要速度，所以开始用C来作，因学艺不精，C写的东西速度很慢，并且也没有找到原因，我将c的代码放在最后，如有朋友能帮忙解决烦请告知。最后还是用python来做。通过初步试验，

产生100万数据并入库需要3分多钟，如果产生1.8亿需要12个多小时。最后决定只产生一张表的数据，一张表数据100万。取MD5前两位，如果每张表都是100万，总共能产生2.56亿注，这个值

可以满足测试要求。

　　产生表的SQL如下：

CREATE TABLE `dt_00` ( \
             `Id` int(11) NOT NULL AUTO_INCREMENT, \
             `CreateUnixTime` varchar(13) NOT NULL, \
             `RedBlue` varchar(21) DEFAULT NULL, \
             `HashValues` varchar(32) DEFAULT NULL, \
             `SaleId` int(11) DEFAULT NULL, \
             PRIMARY KEY (`Id`), \
             KEY `i_RedBlue` (`RedBlue`), \
             KEY `i_HashValues` (`HashValues`) \
             ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

　　产生投注的脚本如下，因为开始考虑到要放到256张表里，所以就没有做成批量入库，而是做成生成SQL语句，5000条提交一次。：

#!/bin/env python
# ----------------------------------------
# Filename:    rand.py
# Revision:    1.0
# Date:        2012-06-24
# Web：        http://www.simonzhang.net
# Author:      simonzhang
# Email:       simon-zzm@163.com
# ----------------------------------------
import random
import time
import MySQLdb
import hashlib


def mysql_run(sql):
    try:
        db = MySQLdb.connect(host = '192.168.1.41', user = 'double', passwd = 'ball', db = 'doubleball')
        cursor = db.cursor()
    except MySQLdb.Error, e:
        print "Error %d:%s" % (e.args[0], e.args[1])
        exit(1)
    try:
        result_set = ''
        cursor.execute('%s' % sql)
        result_set = cursor.fetchall()
        cursor.close()
        db.close()
        return  result_set
    except MySQLdb.Error, e:
        print "Error %d:%s" % (e.args[0], e.args[1])
        cursor.close()
        db.close()


def create_sql():
    z = 0
    _tmp_di = []
    while (z < 6):
        red = random.randint(1, 33)
        count_rand_di = 0
        if len(_tmp_di) > 0:
            for i in _tmp_di:
                if red == i:
                    count_rand_di += 1
        if count_rand_di == 0:
            _tmp_di.append(red)
            z += 1
    _tmp_di.sort()
    blue = random.randint(1, 16)
    _result_di = ''
    for j in xrange(6):
        if j == 1:
            _result_di = "%s" % _tmp_di[j]
        else:
            _result_di += " %s" % _tmp_di[j]
    _get_md5 = hashlib.md5("%s+%s" % (_result_di, blue)).hexdigest()
    if _get_md5[0:2] == "00":
       _create_sql = "INSERT INTO  dt_00(CreateUnixTime,RedBlue,HashValues) VALUES (\'%s\',\'%s+%s\',\'%s\');" % (int(time.time()), _result_di, blue, _get_md5)
    else:
       _create_sql = ""
    return _create_sql


def write_time():
    _open_file = open("history.txt", "ab")
    get_time = time.localtime()
    _open_file.write("%s-%s-%s %s:%s:%s\n" % (get_time[0], get_time[1], get_time[2], get_time[3], get_time[4], get_time[5]))
    _open_file.close()


def main():
    _get_sql = ''
    for i in xrange(1000000):
        _loop_status = 0
        while _loop_status == 0:
            _tmp_sql = create_sql()
            if len(_tmp_sql) >2:
                _loop_status = 1
        _get_sql += _tmp_sql
        if i % 5000  == 0:
            print i
            mysql_run("%scommit;" % _get_sql)
            _get_sql = ''


if __name__ == "__main__":
    write_time()
    main()
    write_time()

　　运行完毕使用sql分组统计，查看分组和排序结果SQL如下，运行一次用时6.693秒。

SELECT
	count(*) AS c,
	RedBlue,
	HashValues
FROM
	dt_00 d
GROUP BY
	d.HashValues
ORDER BY
	c DESC

　　结论：因为要保证速度和稳定，所以购买系统应该是各省有各省的一套系统，然后准实时向中心汇数据，所以汇总需要的时间基本可以忽略。统计是按照分表的方式进行计算，然后在合

并结果，从计算效率来看，如果使用Dell R420高配的服务器，即使只有一台，系统也可以在3-5分钟产生出所有的分析报表（这个是估算，因为不知道需要多少统计表，也不知道需要统计的

逻辑）。如果是用oracle数据库应该会更安全快速。

　　我写失败的C代码：

#include 
#include 
#include 

/*快速排序*/
void quickSort(int a[],int left,int right)
{
  int i,j,temp;
  i=left;
  j=right;
  temp=a[left];
  if (left>right)
    return;
  while(i!=j)
  {
    while(a[j]>=temp && j>i)
      j--;
    if(j>i)
      a[i++]=a[j];
    while (a[i]<=temp && j>i)
      i++;
    if(j>i)
      a[j--]=a[i];
  }
  a[i]=temp;
  quickSort(a,left,i-1);
  quickSort(a,i+1,right);
}

void main()
{
   int i,z;
   int red,blue;
   int count_rand_di;
   int di[6];
   char result_di[30]="";
   z=0;
   while(z<6)
   {
      srand(time(0)); 
      red=1+(int)(33.0*rand()/(RAND_MAX+1.0));
      count_rand_di=0;
      for(i=0;i
　　编译命令：

gcc rand.c -o rand -Wall
参考资料：
http://baike.baidu.com/view/19016.htm

simonzhang的家

有朋自远方来。。。。。

Tag Archives: md5

python 获取阿里OSS存储图片，在内存中处理图片

go 操作redis ，对比python 操作redis

如果我做双色球报表系统性能会如何

2025年六月
一	二	三	四	五	六	日
« 1月
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30