关于Execl导入大数据量文件的处理思路-CDA数据分析师官网

关于Execl导入大数据量文件的处理思路

2017-12-25

关于Execl导入大数据量文件的处理思路

Execl作为微软的早期产品，功能强大的同时，性能也相应的差很多，处理大数据量时,尤其明显。最近项目中有一个需求，要求导入人员信息，Execl的数据量大概5000左右，但是会关联其他表，查询出100万级别的数据量，插入到值表。并且这个过程是系统管理人员每月不定期在页面导入的。系统设计的要求是10秒内完成。

简单说一下我们的思路，这里主要说思路，更细节的技术问题，可以和我联系：

第一步：把Excel转成CSV文件，这里可以是系统使用人员手动转换，也可以由程序来转换。

然后先导入Excel中的5000条信息到人员信息表。后台数据库用存储过程实现，使用merge的方式进行增量导入。

第二步：关联其他表，然后将符合条件的结果集作为值直接插入到临时表，这个过程也是在存储过程中实现。这里有一个技巧，把SELECT的结果集，作为INSERT语句的VALUES，这样能比逐条处理速度要快很多。

第三步：使用MERGE的方式，将临时表的数据，增量导入目标表。这个过程也在存储过程中
实现。

以上的案例，数据校验的逻辑不是很多，只有一个重复性校验，所以使用的是MERGE方式。如果业务上的数据校验逻辑比较复杂，可能性能就会降低很多，这时就要考虑其他解决方案。

上面的SQL关键代码，基本上都放在了存储过程中，之所以这样做，就是为了提高性能。在进行大数据量的操作时，每减少一次数据库交互，可能就会明显提高性能。我们都知道，存储过程存储在数据库服务器端，属于已经预编译过的SQL，当调用存储过程时，只需要传递参数，而不需要再重新编译SQL。并且，把多个SQL放在一个存储过程中，减少了应用服务器与数据库服务器的交互次数。

关于上面的案例，还有2点要说明。

1，在处理大数据量的文件时，尽量减少逐行扫描的方式，,而是采用批量LOAD/IMPORT，或者批量MERGE/INSERT的方式。

2，建适当数量的索引，无论对于INSERT操作，还是MERGE操作，都会起到事半功倍的效果。

最近项目中在进行性能优化，关于Execl的导入导出，以及大数据量的查询，都研究了好长时间，之前的查询慢、导入慢，导出慢的问题，基本上都解决了，性能提高了不少，后面有时间会慢慢和大家分享。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据 SQL

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇大数据排序或取重或去重相关问题

下一篇使用数据库序列生成主键

关于Execl导入大数据量文件的处理思路

CDA考试动态

CDA报考指南

热门栏目

最新资讯

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...