最近參與公司一個項目,計劃對在線平台的大規模查詢做到快速響應,預估數據總量大概在2-3億條,資料庫併發量大概每秒1500,一年後併發大概3000每秒,經過在Redis和mongodb之間艱難的選擇之後,決定使用mongodb,主要看中其平行擴展能力和GridFS上的Map/Reduce.預估項目完成上線后,高峰時段每秒併發查詢在1500-3000之間.
其實我個人是比較喜歡Redis的,其併發查詢能力和超越memcached的速度都很令人心動,不過其持久化和集群擴展性不太適合業務需要,所以
還是選擇了mongodb.
下面是對mongodb測試的代碼和結果.雖然公司用的一水的CentOS,但是由於我是FreeBSD的支持者,所以在FreeBSD和CentOS上都測試了一下結果.
寫庫程序是網上抄來的,查詢程序是自己寫的.
寫庫程序
#!/usr/bin/env pythonfrom pymongo import Connectionimport time,datetimeconnection = Connection('127.0.0.1', 27017)db = connection['hawaii']#時間記錄器 def func_time(func):
def _wrapper(*args,**kwargs):
start = time.time()
func(*args,**kwargs)
print func.__name__,'run:',time.time()-start
return _wrapper
@func_time
def insert(num):
posts = db.userinfo
for x in range(num):
post = {"_id" : str(x),
"author": str(x) "Mike",
"text": "My first blog post!",
"tags": ["mongodb", "python", "pymongo"],
"date": datetime.datetime.utcnow()}
posts.insert(post)
if __name__ == "__main__":
#設定循環500萬次
num = 5000000
insert(num)
查詢程序
#!/usr/bin/env python
from pymongo import Connection
import time,datetime
import random
connection = Connection('127.0.0.1', 27017)
db = connection['hawaii']
def func_time(func):
def _wrapper(*args,**kwargs):
start = time.time()
func(*args,**kwargs)
print func.__name__,'run:',time.time()-start
return _wrapper
#@func_time
def randy():
rand = random.randint(1,5000000)
return rand
@func_time
def mread(num):
find = db.userinfo
for i in range(num):
rand = randy()
#隨機數查詢
find.find({"author": str(rand) "Mike"})
if __name__ == "__main__":
#設定循環100萬次
num = 1000000
mread(num)
刪除程序
#!/usr/bin/env python
from pymongo import Connection
import time,datetime
connection = Connection('127.0.0.1', 27017)
db = connection['hawaii']
def func_time(func):
def _wrapper(*args,**kwargs):
start = time.time()
func(*args,**kwargs)
print func.__name__,'run:',time.time()-start
return _wrapper
@func_time
def remove():
posts = db.userinfo
print 'count before remove:',posts.count();
posts.remove({});
print 'count after remove:',posts.count();
if __name__ == "__main__":
remove()
結果集
| 插入500萬 | 隨機數查詢100萬 | 刪除500萬 | CPU佔用 |
CentOS | 394s | 28s | 224s | 25-30% |
FreeBSD | 431s | 18s | 278s | 20-22% |
CentOS插入和刪除勝出;FreeBSD發揮了UFS2的優勢,讀取勝出.由於是作為查詢伺服器使用,所以讀取速度快是個優勢,不過我不是領導,我說了不算,最終還是得CentOS.
在測試中,一直使用mongostat監控,從併發數量上,兩個系統差不多.還測試了插入併發查詢,不過結果差不多,大概併發的相加和都是15000-25000每秒.性能還是很不錯的.
不過確實大數據量下插入性能下降比較嚴重,CentOS測試了5000萬數據插入,耗時接近2小時.大概是6300多秒.比起500萬數據插入速度,差不多慢了50%.不過查詢速度還算差不多.
測試結果供需要者做個參考.
不過,這個測試不是太公平.FreeBSD配置要差一點.
CentOS 16G內存,Xeon5606 兩顆8核.Dell品牌機.
FreeBSD 8G內存,Xeon5506 一顆4核.攢的沒牌子1U.
如果相同環境下,我覺得還是FreeBSD性能會比較好一點.