Python解析excel文件存入sqlite数据库的方法-CDA数据分析师官网

Python解析excel文件存入sqlite数据库的方法

2017-08-12

Python解析excel文件存入sqlite数据库的方法

最近工作中遇到一个需求，需要使用Python解析excel文件并存入sqlite，本文就实现的过程做个总结分享给大家，文中包括数据库设计、建立数据库、Python解析excel文件、Python读取文件名并解析和将解析的数据存储入库，有需要的朋友们下面来一起学习学习吧。

一、建立数据库

根据需求建立数据库,建立了两个表，并保证了可以将数据存储到已有的数据库中，代码如下：
import sqlite3

def createDataBase():
cn = sqlite3.connect('check.db')

cn.execute('''CREATE TABLE IF NOT EXISTS TB_CHECK
(ID integer PRIMARY KEY AUTOINCREMENT,
NUMBER INTEGER,
ITEM TEXT,
REFERENCE TEXT,
SUMMARY TEXT,
OBJECT TEXT,
METHOD TEXT,
CONDITION TEXT,
VALUE TEXT,
RESULT TEXT,
SCORE TEXT,
REMARKS TEXT,
PROVINCE TEXT,
TIME TEXT);''')

cn.execute('''CREATE TABLE IF NOT EXISTS TB_SCORE
(ID integer PRIMARY KEY AUTOINCREMENT,
PROVINCE TEXT,
TIME TEXT,
FILETYPE TEXT,
SCORE INTEGER);''')

if __name__ == '__main__':
createDataBase()

二、使用Python解析excel

Python中的xlrd模块用来解析excel。

相关功能介绍如下：

1. 导入
import xlrd

2. 读取数据
data = xlrd.open_workbook('file.xls')

3. 功能

（1）通过索引获取
table = data.sheet()[0]
table = data.sheet_by_index(0)

（2）通过名称获取
table = data.sheet_by_name(u'sheet1')

（3）获取整行和整列的值（数组)

table.row_values(i)
table.col_values(i)

（4）获取行数和列数

nrows = table.nrows
ncols = table.ncols

（5）循环行列表数据
for i in range(nrows):
print table.row_values(i)

（6）单元格
cell_A1 = table.cell(0,0).value

（7）使用行列索引
cell_A1 = table.cell(0,0).value

练习代码：
import xlrd
import xlwt
from datetime import date,datetime

def read_excel():
# 打开文件
workbook = xlrd.open_workbook(r'file.xls')
# 获取所有sheet
sheet_name = workbook.sheet_names()[0]
sheet = workbook.sheet_by_name(sheet_name)

#获取一行的内容
for i in range(6,sheet.nrows):
for j in range(0,sheet.ncols):
print sheet.cell(i,j).value.encode('utf-8')

if __name__ == '__main__':
read_excel()

三、Python读取文件名并解析

为了将各个文件的数据加以区分，需要将文件名中标志性字段入库，解析文件的代码如下：
import os

def getFileList(dir,wildcard,recursion):
os.chdir(dir)

fileList = []
check_province = []
check_time = []
file_type = []

exts = wildcard.split(" ")
files = os.listdir(dir)
for name in files:
fullname=os.path.join(dir,name)
if(os.path.isdir(fullname) & recursion):
   getFileList(fullname,wildcard,recursion)
else:
   for ext in exts:
    if(name.endswith(ext)):
     fileList.append(name)
     check_province.append(name.split('-')[1])
     check_time.append(name.split('-')[0])
     file_type.append(name.split('-')[2])
return fileList,check_time,check_province,file_type

在接下来的使用中会遇到编码问题所以在使用这些字段时需要先转码，编写转码函数如下：

#转码函数
def changeCode(name):
　　name = name.decode('GBK')
　　name = name.encode('UTF-8')
　　return name

四、解析excel文件并将其存储到sqlite

Python连接数据库选取了Python自带的sqlite数据库相对简单在此不做太多介绍如果大家对Python操作sqlite有疑惑的话个人推荐菜鸟教程～

下面是解析excel文件并存入数据库,其中包含了判断单元格内容：
def readExcel(filename,cn,check_province,check_time,FileType):
#读取
workbook = xlrd.open_workbook(filename)
# 获取sheet
sheet_name = workbook.sheet_names()[0]
　　sheet = workbook.sheet_by_name(sheet_name)

check_Item = 'a'

itemCount = 0
score = 0

second = sheet.cell(7,1).value.encode('utf-8')

for i in range(7,sheet.nrows):
if sheet.cell(i,1).value.encode('utf-8') == second:
   check_Item = sheet.cell(i,0).value.encode('utf-8')
   continue

temp = []
for j in range(0,sheet.ncols):
   temp.append(sheet.cell(i,j).value.encode('utf-8'))

answer = sheet.cell(i,7).value.encode('utf-8')

if answer == "yes" or answer == "no":
   score = score + 1

if answer == "other":
   print "!!!Failed to import'%s'" % (filename)
   print "!!!Please Choose an Right Answer for '%s'--------"%(filename)
   break
else:
   cn.execute("insert into TB_CHECK (ITEM,FIELD,TYPE,CONTENT,"
      "ATTRIBUTE,CHECKPOINT,REMARKS,ANSWER,DESCRIPTION,"
      "SUGGESTION,PROVINCE,TIME,STYLE) "
      "values('%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s')"
      ""%(temp[0],temp[1],temp[2],temp[3],temp[4],temp[5],temp[6],temp[7],temp[8],temp[9],check_province,check_time,check_Item))

   itemCount = itemCount + 1
if itemCount != 0:
score = round(score * (100 / itemCount), 2)
cn.execute("insert into TB_SCORE (PROVINCE,TIME,FILETYPE,SCORE) "
    "values('%s','%s','%s','%.2f')"%(check_province,check_time,FileType,score))
print "Successful for'%s'--------" % (filename)
cn.commit()
整合上述功能：
def importData(path):
# 数据库
createDataBase()
database = sqlite3.connect("check.db")

#文件类型
wildcard = ".xls"

list = getFileList(path,wildcard,1)

nfiles = len(list[0])
#文件名
file = list[0]
#时间
time = list[1]
#省份
province = list[2]
# #文件类型
FileType = list[3]

for count in range(0,nfiles):
filename = file[count]
check_province = changeCode(province[count])
check_time = time[count]
File_type = changeCode(FileType[count])
readExcel(filename,database,check_province,check_time,File_type)

if __name__ == '__main__':
if len(sys.argv) != 2:
print "Wrong Parameters"
else:
path = sys.argv[1]
importData(path)
总结
以上就是这篇文章的全部内容了，希望本文的内容对大家学习或者使用 python能有所帮助

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

字段 python

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

下一篇企业如何利用商品推荐的大数据来破除实体寒冰？

Python解析excel文件存入sqlite数据库的方法

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...

【面试】秋招年薪50万，央企数据分析岗成功上岸！ ...

【干货】大厂数据分析师面试，最常犯的2个技术错误 ...