使用python操作solr

发布时间:2019-09-18 07:32:52编辑:auto阅读(2011)

    Python:2.7

    solr:5.1


    使用Java的同学可以使用solrj操作solr,但是python就没有太好的操作solr的模块了。虽然也能找到几个,例如solrpy,但是由于年久失修,基本不能使用。

    如果是对solr进行查询操作,其实非常简单,只需要完成一次get请求就可以了,最初接触python时,就是在浏览器里进行查询操作。

    既然没有太好用的模块,就自己摸索着写一个吧,只需能完成工作中的特定工作内容就可以了。

    对solr索引的添加,删除,可以发送post请求。post的内容呢,是xml格式的。例如<add><doc><field name="id">4</field></doc></add>  将这段内容post到

    solr服务器,服务器那边就会进行新增处理了,但是这个时候你还无法搜索到,因为还缺少一个<commit/>,把这个<commit/>也post过去后,服务器才会让之前的更新生效,delete也一样的简单,看源码就了解了。

    你的core的地址如果是这样的:http://localhost:8080:/solr/user  那么我们最终访问的网址是http://localhost:8080:/solr/user/update/ 

    我这里调用addDoc时,是每三万条提交一次,如果每个doc都提交,那么每次都需要进行http连接,很浪费性能的,但是呢,这里也有一个隐患,那就是tomcat服务器一次最大能够处理的post请求如果小于我们实际提交的请求,就会出错。这里说的能处理的最大请求不是指doc的数量,而是post到服务器的数据的大小。这和浏览器对url的长度有限制一样,其实服务器对post请求的实际传输数据的大小也是有限制的。具体的限制可以进行配置,不过我没有在自己的tomcat配置里找到,希望它永远不会超过那个默认配置。。。。。

    1. #coding=utf-8  
    2. ''''' 
    3. Created on 2015-10-9 
    4. Solr5.1亲测可行 
    5. @author: kwsy2015 
    6. '''  
    7. import urllib2  
    8. from xml.sax.saxutils import escape, quoteattr  
    9. class MySolrPy():  
    10.     def __init__(self,solrurl):  
    11.         self.solrurl = solrurl+'/update/'  
    12.         print self.solrurl  
    13.         self.docs = []  
    14.         self.size = 0  
    15.     #添加新的文档      
    16.     def add(self,doc):  
    17.         self.docs.append(doc)  
    18.         self.size += 1  
    19.         if self.size>=30000:  
    20.             print self.size  
    21.             self.commit()       
    22.             self.docs = []  
    23.             self.size = 0  
    24.     #提交数据          
    25.     def _commit(self,data):  
    26.         requestAdd = urllib2.Request(  
    27.                           url=self.solrurl,  
    28.                           headers={'Content-type':'text/xml; charset=utf-8'},  
    29.                           )  
    30.         requestCommit = urllib2.Request(  
    31.                           url=self.solrurl,  
    32.                           headers={'Content-type':'text/xml'},  
    33.                           )  
    34.            
    35.           
    36.         opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())  
    37.         responseAdd = opener.open(requestAdd,data)  
    38.           
    39.         responseCommit = opener.open(requestCommit,'<commit/>')  
    40.           
    41.     #根据指定的id删除索引    
    42.     def delDoc(self,id):  
    43.         lst = [u'<delete><id>']  
    44.         lst.append('%s' % (escape(unicode(id))))  
    45.         lst.append(u'</id></delete>')  
    46.         data = ''.join(lst)  
    47.         self._commit(data)  
    48.     #删除所有数据     
    49.     def delAll(self):  
    50.         delCommond = '<delete><query>*:*</query></delete>'  
    51.         self._commit(delCommond)  
    52.     #用于新增索引时提交数据     
    53.     def commit(self):  
    54.         lst = [u'<add>']  
    55.           
    56.         for doc in self.docs:  
    57.             newdoc = self.packagingDoc(lst, doc)  
    58.         lst.append(u'</add>')  
    59.         data = ''.join(lst).encode('utf-8')  
    60.         self._commit(data)  
    61.     #包装数据  
    62.     def packagingDoc(self,lst, doc):  
    63.           
    64.         lst.append(u'<doc>')  
    65.         for k,v in doc.items():      
    66.             lst.append('<field name=%s>%s</field>' % (  
    67.                     (quoteattr(k),  
    68.                     escape(unicode(v)))))  
    69.         lst.append('</doc>')  

    使用的例子

    1. #coding=utf-8  
    2. ''''' 
    3. Created on 2015-10-9 
    4.  
    5. @author: kwsy2015 
    6. '''  
    7. import pymongo  
    8. from bson import ObjectId  
    9. from pymongo import MongoClient  
    10. from WebUser.MySolrPy import MySolrPy  
    11. #连接数据库  
    12. client = MongoClient('localhost'27017)  
    13. #获得一个database  
    14. db = client.webuser  
    15. #获得一个collection  
    16. coll = db.userinfo  
    17. count = 0  
    18. docs = coll.find()  
    19. msp =  MySolrPy('http://localhost:8080/solr/emailSolr')  
    20. msp.delDoc(3)  
    21. for doc in docs:  
    22.     count += 1  
    23.     bean = {  
    24.             'id':count,  
    25.             'email_ik':doc['emailLink'],  
    26.             'email_s':doc['email'],  
    27.             'namen_s':doc['name'],  
    28.             'passwordn_s':doc['password'],  
    29.             'webnamen_s':doc['webname']            
    30.             }  
    31.     msp.add(bean)  
    32.       
    33.     if count>100000:  
    34.         break  
    35. msp.commit()  
    36. print 'ok'

关键字

上一篇: Python3-array和matrix

下一篇: Python调用autoit