热线电话:13121318867

登录
首页精彩阅读关于Execl导入大数据量文件的处理思路
关于Execl导入大数据量文件的处理思路
2017-12-25
收藏

关于Execl导入大数据量文件的处理思路

Execl作为微软的早期产品,功能强大的同时,性能也相应的差很多,处理大数据量时,尤其明显。最近项目中有一个需求,要求导入人员信息,Execl的数据量大概5000左右,但是会关联其他表,查询出100万级别的数据量,插入到值表。并且这个过程是系统管理人员每月不定期在页面导入的。系统设计的要求是10秒内完成。

简单说一下我们的思路,这里主要说思路,更细节的技术问题,可以和我联系:

第一步:把Excel转成CSV文件,这里可以是系统使用人员手动转换,也可以由程序来转换。

然后先导入Excel中的5000条信息到人员信息表。后台数据库用存储过程实现,使用merge的方式进行增量导入。

第二步:关联其他表,然后将符合条件的结果集作为值直接插入到临时表,这个过程也是在存储过程中实现。这里有一个技巧,把SELECT的结果集,作为INSERT语句的VALUES,这样能比逐条处理速度要快很多。

第三步:使用MERGE的方式,将临时表的数据,增量导入目标表。这个过程也在存储过程中
实现。

以上的案例,数据校验的逻辑不是很多,只有一个重复性校验,所以使用的是MERGE方式。如果业务上的数据校验逻辑比较复杂,可能性能就会降低很多,这时就要考虑其他解决方案。

上面的SQL关键代码,基本上都放在了存储过程中,之所以这样做,就是为了提高性能。在进行大数据量的操作时,每减少一次数据库交互,可能就会明显提高性能。我们都知道,存储过程存储在数据库服务器端,属于已经预编译过的SQL,当调用存储过程时,只需要传递参数,而不需要再重新编译SQL。并且,把多个SQL放在一个存储过程中,减少了应用服务器与数据库服务器的交互次数。

关于上面的案例,还有2点要说明。

1,在处理大数据量的文件时,尽量减少逐行扫描的方式,,而是采用批量LOAD/IMPORT,或者批量MERGE/INSERT的方式。

2,建适当数量的索引,无论对于INSERT操作,还是MERGE操作,都会起到事半功倍的效果。

最近项目中在进行性能优化,关于Execl的导入导出,以及大数据量的查询,都研究了好长时间,之前的查询慢、导入慢,导出慢的问题,基本上都解决了,性能提高了不少,后面有时间会慢慢和大家分享。

数据分析咨询请扫描二维码

若不方便扫码,搜微信号:CDAshujufenxi

最新资讯
更多
客服在线
立即咨询