Python:2.7
solr:5.1
使用Java的同学可以使用solrj操作solr,但是python就没有太好的操作solr的模块了。虽然也能找到几个,例如solrpy,但是由于年久失修,基本不能使用。
如果是对solr进行查询操作,其实非常简单,只需要完成一次get请求就可以了,最初接触python时,就是在浏览器里进行查询操作。
既然没有太好用的模块,就自己摸索着写一个吧,只需能完成工作中的特定工作内容就可以了。
对solr索引的添加,删除,可以发送post请求。post的内容呢,是xml格式的。例如<add><doc><field name="id">4</field></doc></add> 将这段内容post到
solr服务器,服务器那边就会进行新增处理了,但是这个时候你还无法搜索到,因为还缺少一个<commit/>,把这个<commit/>也post过去后,服务器才会让之前的更新生效,delete也一样的简单,看源码就了解了。
你的core的地址如果是这样的:http://localhost:8080:/solr/user 那么我们最终访问的网址是http://localhost:8080:/solr/user/update/
我这里调用addDoc时,是每三万条提交一次,如果每个doc都提交,那么每次都需要进行http连接,很浪费性能的,但是呢,这里也有一个隐患,那就是tomcat服务器一次最大能够处理的post请求如果小于我们实际提交的请求,就会出错。这里说的能处理的最大请求不是指doc的数量,而是post到服务器的数据的大小。这和浏览器对url的长度有限制一样,其实服务器对post请求的实际传输数据的大小也是有限制的。具体的限制可以进行配置,不过我没有在自己的tomcat配置里找到,希望它永远不会超过那个默认配置。。。。。
-
- ''
-
-
-
-
- import urllib2
- from xml.sax.saxutils import escape, quoteattr
- class MySolrPy():
- def __init__(self,solrurl):
- self.solrurl = solrurl+'/update/'
- print self.solrurl
- self.docs = []
- self.size = 0
-
- def add(self,doc):
- self.docs.append(doc)
- self.size += 1
- if self.size>=30000:
- print self.size
- self.commit()
- self.docs = []
- self.size = 0
-
- def _commit(self,data):
- requestAdd = urllib2.Request(
- url=self.solrurl,
- headers={'Content-type':'text/xml; charset=utf-8'},
- )
- requestCommit = urllib2.Request(
- url=self.solrurl,
- headers={'Content-type':'text/xml'},
- )
-
-
- opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
- responseAdd = opener.open(requestAdd,data)
-
- responseCommit = opener.open(requestCommit,'<commit/>')
-
-
- def delDoc(self,id):
- lst = [u'<delete><id>']
- lst.append('%s' % (escape(unicode(id))))
- lst.append(u'</id></delete>')
- data = ''.join(lst)
- self._commit(data)
-
- def delAll(self):
- delCommond = '<delete><query>*:*</query></delete>'
- self._commit(delCommond)
-
- def commit(self):
- lst = [u'<add>']
-
- for doc in self.docs:
- newdoc = self.packagingDoc(lst, doc)
- lst.append(u'</add>')
- data = ''.join(lst).encode('utf-8')
- self._commit(data)
-
- def packagingDoc(self,lst, doc):
-
- lst.append(u'<doc>')
- for k,v in doc.items():
- lst.append('<field name=%s>%s</field>' % (
- (quoteattr(k),
- escape(unicode(v)))))
- lst.append('</doc>')
使用的例子
-
- ''
-
-
-
-
- import pymongo
- from bson import ObjectId
- from pymongo import MongoClient
- from WebUser.MySolrPy import MySolrPy
-
- client = MongoClient('localhost', 27017)
-
- db = client.webuser
-
- coll = db.userinfo
- count = 0
- docs = coll.find()
- msp = MySolrPy('http://localhost:8080/solr/emailSolr')
- msp.delDoc(3)
- for doc in docs:
- count += 1
- bean = {
- 'id':count,
- 'email_ik':doc['emailLink'],
- 'email_s':doc['email'],
- 'namen_s':doc['name'],
- 'passwordn_s':doc['password'],
- 'webnamen_s':doc['webname']
- }
- msp.add(bean)
-
- if count>100000:
- break
- msp.commit()
- print 'ok'