6月 27

python测试连接mongodb 简单读写

下载pymongo模块,测试机python为2.6.6
[2011-6-27 张子萌]
# wget http://pypi.python.org/packages/source/p/pymongo/pymongo-1.11.tar.gz
解压安装
# tar zxvf pymongo-1.11.tar.gz
# cd pymongo-1.11
# python setup.py install

安装比较简单,下面写一个脚本测试一下是否成功。返回的也是dict。

#!/usr/bin/python
#-*- coding:utf-8 -*-
import pymongo
conn = pymongo.Connection(“localhost”,27017)
db = conn.mytest
cursor = db.mytest.find()
for i in cursor:
print i

有结果就ok了。

a)测试1存取二进制

插入MP3试试看。首先上传一个test.mp3,然后把MP3转为二进制,最后入库。
#!/usr/bin/python
#-*- coding:utf-8 -*-
import pymongo
import bson
conn = pymongo.Connection(“localhost”,27017)
db = conn.mytest
get_mp3=open(‘test.mp3′,’rb’) #以二进制方法读取MP3
bin=bson.Binary(get_mp3.read()) #转换对象
db.mytest.save({“file_name”:”test_mp3″,”mp3″:bin}) #保存入库
get_mp3.close()

如库查询看到以下结果,MP3已经入库成功。
> db.mytest.find({},{file_name:1})
{ “_id” : ObjectId(“4e0a70d0b4a1024472000000”), “file_name” : “test_mp3” }

现在在把MP3读出来看看是否可以用。
#!/usr/bin/python
#-*- coding:utf-8 -*-
import pymongo
conn = pymongo.Connection(“localhost”,27017)
db = conn.mytest
cursor=db.mytest.find({“file_name” : “test_mp3”},{“mp3”:1})
file=open(‘123.mp3′,’wb’)
print >>file,cursor[0][“mp3”] #因为测试库中就有一首所以不用循环了
file.close

取出MP3试听是否成功。

b)测试2存取字符型。文本文件保存也可以用二进制,但是字符型更好,便于索引和
查找。
首先建立一个test.txt测试文本,内容如下:
first
second
three
four

用以下脚本入库
#!/usr/bin/python
#-*- coding:utf-8 -*-
import pymongo
conn = pymongo.Connection(“localhost”,27017)
db = conn.mytest
get_txt=open(‘test.txt’,’r’)
for line in get_txt: #也可以不用循环,将文件插入到一个值里
db.mytest.insert({“file_name”:”test_txt”,”content”:line})
get_txt.close()

入库完毕登录mongodb检查,结果如下:
> db.mytest.find({“file_name”:”test_txt”},{})
{ “_id” : ObjectId(“4e0a762bb4a1024508000000”), “content” : “firstn”, “file_name” : “test_txt” }
{ “_id” : ObjectId(“4e0a762bb4a1024508000001”), “content” : “secondn”, “file_name” : “test_txt” }
{ “_id” : ObjectId(“4e0a762bb4a1024508000002”), “content” : “threen”, “file_name” : “test_txt” }
{ “_id” : ObjectId(“4e0a762bb4a1024508000003”), “content” : “fourn”, “file_name” : “test_txt” }

现在在把文本读出来看看是否可以用。
#!/usr/bin/python
#-*- coding:utf-8 -*-
import pymongo
conn = pymongo.Connection(“localhost”,27017)
db = conn.mytest
cursor=db.mytest.find({“file_name” : “test_txt”},{“content”:1})
file=open(‘123.txt’,’a’)
for i in cursor:
print >>file,i[“content”]
file.close

查看文本已经输出,因为是追加,并且在库里保存了回车符“n”,所以输出的文件都会隔一行写一行。

http://api.mongodb.org/python/1.11/installation.html
http://pypi.python.org/pypi/pymongo/

6月 23

MongoDB的初步-安装、简单操作

网上的介绍很多所以就不废话了,先记录几个概念,直接记录关键操作。
mongodb 的官方网站http://www.mongodb.org/

MongoDB是由(database)、集合(collection)、文档对象(document)三个层次组成。与传统的
数据库对应关系如下
关系型数据库 MongoDB数据库
database database
table collection
row document
存储的数据格式是key-value对的集合,键是字符串,值可以是数据类型集合里的任意类型,包括数组和文档对象。

测试环境:CentOS 5.6 64位操作系统
将mongodb软件安装在/usr/local/mongodb
将mongodb数据放在/data/db
应该创建一个专有的操作账户。此次不麻烦了直接使用root。

A)部署
先下载mongodb到
# wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-1.8.1.tgz

进行解压缩
# tar xzvf mongodb-linux-x86_64-1.8.1.tgz

将文件移动到相应目录
# mv mongodb-linux-x86_64-1.8.1 /usr/local/mongodb

建立相应数据目录,也可以在启动时用–dbpath参数来指定数据库的路径
# mkdir -p /data/db

B)启、停数据库
进入mongodb的bin目录中
# cd /usr/local/mongodb/bin
可以看到以下命令
bsondump
mongo mongodb的客户端
mongod mongodb的服务端
mongodump mongodb的导出工具,导出为bson格式,也可用于备份、快照等。
mongoexport 把collection导出成json格式或csv格式的文件
mongofiles GridFS管理工具
mongoimport mongodb恢复工具速度快,但不保证数据完整导入
mongorestore mongodb恢复工具速度慢,但是根据mongodump导出的数据完整恢复
mongos mongodb的集群路程序
mongosniff mongodb操作捕获,类似于tcpdump,可以截获到要执行的命令
mongostat mongodb的运行信息。

启动数据库命令
# ./mongod
数据库正常启动,默认情况下客户端访问端口为27017,web访问端口为28017.
也可以使用–port参数直接设定,如果直接指定端口为4444,web访问端口将为5444,具体
信息会打出到启动信息中。常用参数还有
–fork 创建子进程
–logpath 指定日志目录,日志级别从多到少参数为从-v 到 -vvvvv
–directoryperdb 系统为每个 DB 创建一个独立子目录
–config 启动时调用配置文件,可有手动编辑配置文件
配置文件具体参数可以查询http://www.mongodb.org/display/DOCS/File+Based+Configuration
以 Daemon 方式运行# ./mongod –fork –logpath /dev/null

验证数据库是否启动正常。使用web比较方便,使用http://IP:port方式看到mongodb的
状态信息,表示启动成功。也可以使用客户端登陆,保存和查询数据,简单测试一下。这有点像
python中的字典。
# ./mongo
> db.foo.save({‘hi’:’hello word’})
> db.foo.find()
可以查到刚才保存的结果,表示数据库运行正常。客户端默认是连接本地的27017端口,如果
连接远程系统可以用 ./mongo ip:port的形式来指定IP和端口号。
到/data/db目录下,可以看到test.0、test.1、test.ns。因为mongodb采用预分配表空间机制,每个
分配文件都用0填充,第一个文件test.0为64MB,第二个文件为128MB ,依此类推,所以在32位模式运行时支持
的最大文件为2GB。每个库和索引也有对应的命名空间,命名空间的元数据都集中存在test.ns文件中。在数据插
入时每条数据都有”_id”,如果没有提供系统将自动生成Objectld作为该文档的主键。Objectid有4字节的时间戳,
3字节的机器号,2字节的进程id和3字节的自动计数组成。还有一个问题需要注意,文件删除后数据所占用的空
间不会被释放,所以不要存放经常要删除替换的文件。

关闭数据库
> use admin
> db.shutdownServer()

C)简单管理、操作命令

操作均为使用mongo连接后的操作提示符为>
命令列表 http://www.mongodb.org/display/DOCS/dbshell+Reference

切换库使用use,这个和mysql一样。切换后可以做的常用操作。
> use admin
查看帮助
> db.help()
查看当前表collection支持哪些方法
> db.dbname.help()
查看数据库运行统计信息
> db.serverStatus()
查看数据库的状态信息
> db.stats()
列出所有数据库
> show dbs
显示当前数据库
> db
打印最后出现的错误
> db.getLastError()
清除错误记录
> db.resetError()
添加用户,账户、密码、是否只读
> db.addUser(user,pwd,true)
列出用户
> show users
删除用户
> db.removeUser(“userName”)
清除错误记录
> db.resetError()
删除库
> db.dropDatabase()
将某个ip上的库同步到当前库
> db.cloneDatabase(“x.x.x.x”)
将某个ip上的数据复制到当前库
> db.copyDatabase(“test”,”x.x.x.x”)
查看数据空间大小
> db.userInfo.dataSize()

操作部分可以参照sql与mongo的对比
http://www.mongodb.org/display/DOCS/SQL+to+Mongo+Mapping+Chart
添加
> db.foo.save({‘hi’:’hello word’})
> db.foo.save({‘hi’:’nihao’})

查找
> db.foo.find({“hi”:”hello word”})

修改将”nihao”修改为”ni hao “
> db.foo.update({“hi”:”nihao”},{$set:{“hi”:”ni hao”}},false,true)

删除
> db.foo.remove({“hi”:”ni hao”})

5月 08

python查找目录下指定文件

[张子萌 2011-05]
导入os模块使用walk函数。walk函数比较简单,迭代返回元组,一个元组有三个元
素(遍历的路径、当前遍历路径下的目录、当前遍历目录下的文件名)。

建立一个textfind目录。建立目录1,目录1下有目录2和文件1.txt,在目录2下有
3目录、33目录和2.txt,在目录3下有3.txt。
测试结果:
>>> import os
>>> a=os.walk(r’testfind/’)
>>> for i in a:
… print i

(‘testfind/’, [‘1’], [])
(‘testfind/1’, [‘2’], [‘1.txt’])
(‘testfind/1/2’, [‘3′, ’33’], [‘2.txt’])
(‘testfind/1/2/3’, [], [‘3.txt’])
(‘testfind/1/2/33’, [], [])

偷懒的方法用命令find比较简单。使用python如果要找指定文件,还需要用正则匹
配一下。

import re
import os
find_file=re.compile(r”.txt$”)
find_path=r”./testfind”
find_walk=os.walk(find_path)
for path,dirs,files in find_walk:
for file in files:
if find_file.search(file):
print(“%s”%path+”/”+file)

4月 20

nginx连接python+django,测试uWSGI和fastcgi性能

【编写测试:张子萌 2011-4-19

当前状况是nginx0.9pcrepython2.6Mysql-pythonDjango已经安装完毕。

nginx已经安装在/program/nginx目录中。项目位置:/program/www/mysite

首先验证uWSGI

1、开始安装uWSGIuwsgi地址。

http://projects.unbit.it/uwsgi/

下载

# wget http://projects.unbit.it/downloads/uwsgi-0.9.7.2.tar.gz

# tar zxvf uwsgi-0.9.7.2.tar.gz

# cd uwsgi-0.9.7.2

# make

# cp uwsgi /usr/bin

2Nginx配置,只列出主要部分部分。nginx默认已经支持uWSGIfastcgi

server部分如下

server {

listen 80;

server_name localhost 172.27.224.235;

location / {

uwsgi_pass 127.0.0.1:9000;

include uwsgi_params;

access_log off;

}

}

3UWSGI配置,参数部分按照实际修改。

# mkdir -p /program/uwsgi

# mkdir -p /program/mysite/logs

# cd /program/uwsgi

# vi uwsgi.xml

内容如下:

127.0.0.1:9000 #设定监听ip和端口

4 #worker模式支持多线程和多进程混合模型的MPM

#如果对workprefork工作模式不清楚自行查资料

4 #使用进程数

100 #监听满后排队数量,超过排队数量服务将会拒绝连接

true #主线程enable

/program/uwsgi/uwsgi.pid #产生主进程号的位置

/program/mysite #项目的目录位置

django_uwsgi #模块信息,下一步中会编辑这个文件

true

true #打印内存请求日志信息

true #开启多线程

true #
每行都用string格式打印时间

512 #uwsgi需要使用内存的量,如当前配置为512M

/program/mysite/logs/django.log #此进程打印日志的位置

4、创建应用模块

# cd /program/mysite

# vi django_uwsgi.py

import os,sys

import django.core.handlers.wsgi

os.environ[‘DJANGO_SETTINGS_MODULE’] = ‘testsite.settings’

path = ‘/program ###此处是防止找不到模块

if path not in sys.path:

sys.path.append(path)

print sys.path

application = django.core.handlers.wsgi.WSGIHandler()

5、启动服务

#/usr/bin/uwsgi -x /program/uwsgi/uwsgi.xml

启动nginx

6、查看进程

#[liuts@webserver nginx]# ps -ef|grep uwsgi|grep -v grep

root 25867 1 0 19:41 ? 00:00:00 /usr/bin/uwsgi -x /program/uwsgi/uwsgi.xml

root 25868 25867 0 19:41 ? 00:00:00 /usr/bin/uwsgi -x /program/uwsgi/uwsgi.xml

root 25869 25867 0 19:41 ? 00:00:00 /usr/bin/uwsgi -x /program/uwsgi/uwsgi.xml

root 25870 25867 0 19:41 ? 00:00:00 /usr/bin/uwsgi -x /program/uwsgi/uwsgi.xml

root 25871 25867 0 19:41 ? 00:00:00 /usr/bin/uwsgi -x /program/uwsgi/uwsgi.xml

7、查看监听端口

#[liuts@webserver nginx]# netstat -an|grep 9000

Tcp 0 127.0.0.1:9000 0.0.0.0:* LISTEN

8、访问测试

输入http://yourserverip/

注:附件中有启停uwsgi脚本,方便启停使用。

再次验证fastcgi

使用fastcgi需要安装flupflup一个用python写的web server

1、安装flup

下载地址

# wget http://www.saddi.com/software/flup/dist/flup-1.0.2.tar.gz

#tar zxvf flup-1.0.2.tar.gz

#cd flup-1.0.2

#python setup.py install

2、修改nginx配置

http部分,参数自己优化

fastcgi_connect_timeout 300;

fastcgi_send_timeout 300;

fastcgi_read_timeout 300;

fastcgi_buffer_size 64k;

fastcgi_buffers 4 64k;

fastcgi_busy_buffers_size 128k;

fastcgi_temp_file_write_size 128k;

location部分

fastcgi_pass 127.0.0.1:8000;

include fastcgi_params;

3、启动fastcgi

# /p

4、查看端口进程

#[liuts@webserver nginx]# netstat -an|grep 8000

Tcp 0 127.0.0.1:8000 0.0.0.0:* LISTEN

5、访问测试

输入http://yourserverip/

两个模块调试正常做个测试看看。

我用的是笔记本的虚拟机做的,虚拟机参数如下:

Cpu参数

processor : 0

vendor_id : GenuineIntel

cpu family : 6

model : 15

model name : Intel(R) Core(TM)2 Duo CPU T5870 @ 2.00GHz

内存参数:

MemTotal: 1034708 kB

Cached: 318512 kB

测试工具使用apache自带的ab压力测试工具。使用并发1000,连续60秒进行测试。

测试页面脚本如下,服务接到请求后首先获取系统时间,再做一个610的随机数累加,然后将信息返回给客户。

from django.http import HttpResponse

import datetime

import random

import MySQLdb

def current_datetime(request):

now = datetime.datetime.now()

html = “now %s. n” % now

########

r=random.randint(6,10)

html2=0

for i in range(r):

html2 = html2 + i

html=html+”==”+str(html2)+”==”

########

return HttpResponse(html)

uWSGI测试结果

测试时长: 60.312 seconds

Complete requests: 42055

并发数: 697.29 [#/sec]

平均返回相应时间: 1.434 [ms]

传输量: 135.18 [Kbytes/sec]

Cpu系统使用量平均:84%

Cpu用户使用量平均:16%

内存使用量:512M

Fastcgi测试结果

测试时长: 60.004 seconds

Complete requests: 32270

并发数: 537.80 [#/sec]

平均返回相应时间: 1.859 [ms]

传输量: 385.16 [Kbytes/sec]

Cpu系统使用量平均:51%

Cpu用户使用量平均:49%

内存使用量:500M

结论:

各项测试uWSGI明显优于Fastcgi。具体参数优化需要根据业务编写,然后再做测试。

3月 25

导出mysql 上传到ftp备份

导出mysql的库上传到ftp服务器备份,上传完毕删除本地文件。用crontab定时运行。用shell也很容以实现,毕竟在学习python,练习一下。

#!/usr/bin/env python
#-*- coding: utf-8 -*-
# ——————————————————————————-
# Filename: Back mysql
# Revision: 1.0
# Date: 2010-03-24
# Author: simon-zzm
# Email: simon-zzm@163.com
# Description:
# ——————————————————————————-
import os,time,sys
from ftplib import FTP
import datetime

###################设置参数
mysql_user=’root’
mysql_pass=’123456′
mysql_comm=’/usr/local/mysql/bin/mysqldump’
mysql_data=[‘test_a’,’test_b’] ###可以填写多个库
mysql_local_path=’/usr/local/checksystem/’
ftp_ip=’x.x.x.x’
ftp_user=’ftpuser’
ftp_pass=’test’
admin_mail=’simon-zzm@163.com’
###################开始运行
#导出的文件为gz的压缩文件,命名格式为ip地址、库名、导出日期组成。
###获得当前时间
get_time_now=time.strftime(‘%Y-%m-%d’)
###获得本机IP地址
ip = os.popen(“/sbin/ifconfig | grep ‘inet addr’ | awk ‘{print $2}'”).read()
get_local_ip = ip[ip.find(‘:’)+1:ip.find(‘n’)]
for i in mysql_data:
###拼成包名
mysql_back_name=mysql_local_path+get_local_ip+’_’+i+’_’+get_time_now+’.gz’
###拼成导出命令
gzip_command = “%s -u%s -p%s –opt %s |gzip >%s” %(mysql_comm,mysql_user,mysql_pass,i,mysql_back_name)
###导出并判断是否成功
if os.system(gzip_command)==0:
print ‘Back Successful’
###导出成功上传到ftp服务器
ftp=FTP()
ftp.set_debuglevel(2)
ftp.connect(ftp_ip,’21’)
ftp.login(ftp_user,ftp_pass)
file_handler = open(mysql_back_name,’rb’)
bufsize = 1024
ftp.storbinary(‘STOR %s’ % os.path.basename(mysql_back_name),file_handler,bufsize)
ftp.set_debuglevel(0)
file_handler.close()
ftp.quit()
print ‘up load over!’
###偷个懒使用linux命令将本地文件删掉。
os.popen(“/usr/bin/find “+mysql_local_path+”* -name *.gz -exec rm -rf {} ; “)
else:
print ‘false’
###如果导出失败,给管理员发个信,偷个懒使用linux命令解决。
mail_url=”/bin/mail -s “+get_local_ip+”back fail “+admin_mail+” os.popen(mail_url)