python excel多行合并

发布时间:2020-11-26 09:26:36编辑:admin阅读(365)

    一、概述

    现有一个wenda1.xlsx文件,内容如下:

    1.png

     

    需要将faq记录合并为一行,效果如下:

    1.png

     

    注意:faq记录,每一行用||来拼接。

     

    二、多行转换一行

    新建test1.py,内容如下:

    # !/usr/bin/python3
    # -*- coding: utf-8 -*-
    import xlrd
    
    # 打开excel文件,创建一个workbook对象
    rbook = xlrd.open_workbook('wenda1.xlsx')
    # sheets方法返回对象列表,[<xlrd.sheet.Sheet object at 0x103f147f0>]
    rbook.sheets()
    # xls默认有3个工作簿,Sheet1,Sheet2,Sheet3
    rsheet = rbook.sheet_by_index(0)  # 取第一个工作簿
    
    faq_tmp_dict = {}  # FAQ临时字典
    faq_formal_list = [] # FAQ正式列表
    first_category_tag = ""  # 一级分类标识
    index = 0 # 索引
    
    #循环工作簿的所有行
    for row in rsheet.get_rows():
        index +=1
    
        first_category_row = row[0]  # 1级分类所在的列
        first_category_value = first_category_row.value  # 1级分类的值
        if first_category_value != '1级分类':  # 排除第一行,这些都是列名
            if first_category_value:  # 当1级分类的值不为空时
                # 更新一级分类标识,用#连接
                first_category_tag = "%s#%s"%(first_category_value,index)
                faq_like_column = row[1]  # FAQ相似句所在的列
                faq_like_value = faq_like_column.value  # FAQ相似句的值
                # 更新临时字典,不存在默认值为空字典,否则追加到列表中
                faq_tmp_dict.setdefault(first_category_tag, []).append(faq_like_value)
            else:
                # 当1级分类的值为空时
                faq_like_column = row[1]  # FAQ相似句所在的列
                faq_like_value = faq_like_column.value
                faq_tmp_dict.setdefault(first_category_tag, []).append(faq_like_value)
    
    
    print(faq_tmp_dict)
    # 处理临时字典
    for i in faq_tmp_dict:
        tmp_dict = {}
        # 一级分类,切割#号,取第一个
        first_category = i.split('#')[0]
        # print("first_category",first_category)
        # faq所有记录,将faq列表转换为一行,用逗号拼接
        faq_like_all = "||".join(faq_tmp_dict[i])
        # print("faq_merge",faq_all)
        tmp_dict['first_category'] = first_category
        tmp_dict['faq_like_all'] = faq_like_all
        faq_formal_list.append(tmp_dict)
    
    print(faq_formal_list)


    执行输出:

    {'闲聊#2': ['不在吗?', '你好在吗?', '你在不在', '有人在么。', '你好?', '在么?说话啊', '客户在不在?'], '闲聊#9': ['你好', '客服你好', '你好,客服']}
    [{'first_category': '闲聊', 'faq_like_all': '不在吗?||你好在吗?||你在不在||有人在么。||你好?||在么?说话啊||客户在不在?'}, {'first_category': '闲聊', 'faq_like_all': '你好||客服你好||你好,客服'}]

     

    从上面输出内容,可以看出。将多行合并为一行,并且将faq记录写入到一个字典里面了。接下来就可以写入到新表格了。

     

    三、写入新表格

    完整代码如下:

    # !/usr/bin/python3
    # -*- coding: utf-8 -*-
    import xlrd
    
    # 打开excel文件,创建一个workbook对象
    rbook = xlrd.open_workbook('wenda1.xlsx')
    # sheets方法返回对象列表,[<xlrd.sheet.Sheet object at 0x103f147f0>]
    rbook.sheets()
    # xls默认有3个工作簿,Sheet1,Sheet2,Sheet3
    rsheet = rbook.sheet_by_index(0)  # 取第一个工作簿
    
    faq_tmp_dict = {}  # FAQ临时字典
    faq_formal_list = [] # FAQ正式列表
    first_category_tag = ""  # 一级分类标识
    index = 0 # 索引
    
    #循环工作簿的所有行
    for row in rsheet.get_rows():
        index +=1
    
        first_category_row = row[0]  # 1级分类所在的列
        first_category_value = first_category_row.value  # 1级分类的值
        if first_category_value != '1级分类':  # 排除第一行,这些都是列名
            if first_category_value:  # 当1级分类的值不为空时
                # 更新一级分类标识,用#连接
                first_category_tag = "%s#%s"%(first_category_value,index)
                faq_like_column = row[1]  # FAQ相似句所在的列
                faq_like_value = faq_like_column.value  # FAQ相似句的值
                # 更新临时字典,不存在默认值为空字典,否则追加到列表中
                faq_tmp_dict.setdefault(first_category_tag, []).append(faq_like_value)
            else:
                # 当1级分类的值为空时
                faq_like_column = row[1]  # FAQ相似句所在的列
                faq_like_value = faq_like_column.value
                faq_tmp_dict.setdefault(first_category_tag, []).append(faq_like_value)
    
    
    print(faq_tmp_dict)
    # 处理临时字典
    for i in faq_tmp_dict:
        tmp_dict = {}
        # 一级分类,切割#号,取第一个
        first_category = i.split('#')[0]
        # print("first_category",first_category)
        # faq所有记录,将faq列表转换为一行,用逗号拼接
        faq_like_all = "||".join(faq_tmp_dict[i])
        # print("faq_merge",faq_all)
        tmp_dict['first_category'] = first_category
        tmp_dict['faq_like_all'] = faq_like_all
        faq_formal_list.append(tmp_dict)
    
    print(faq_formal_list)
    
    import xlwt
    import json
    f = xlwt.Workbook()
    sheet1 = f.add_sheet('Sheet1', cell_overwrite_ok=True)
    row0 = ["1级分类", "faq记录"]
    
    # 写第一行
    for i in range(0, len(row0)):
        sheet1.write(0, i, row0[i])
    
    # # 加载json文件
    # with open("tj.json", 'r') as load_f:
    #     load_dict = json.load(load_f)  # 反序列化文件
    #
    num = 0  # 计数器
    max_length = 0  # 最大长度
    for i in faq_formal_list:
        num+=1  # 自增1
    
        faq_col = sheet1.col(1)  # faq记录所在的列
        length = len(i['faq_like_all'])  # 计算长度
        # print("长度",length)
        # 更新最大长度
        if max_length < length:
            max_length = length
    
        # 设置表格宽度
        faq_col.width = max_length * 20* 20
        # 写入库名
        sheet1.write(num, 0, i['first_category'])
        # faq_like_str = "||".join(i['faq_like_all'])
        sheet1.write(num, 1, i['faq_like_all'])
    
    # 保存到表格
    f.save('test1.xls')


    执行代码,它会生成一个test1.xlsx。

     

    打开文件,效果如下:

    1.png

     


关键字