数据脱敏到文件和文件导入数据库的实现

资源描述

.wd我司案号委托日期专利类型技术交底书创造或实用新型专利申请专用技术交底书名称：数据脱敏到文件和文件导入数据库的实现创造人名单：技术交底书撰写人：吴阳撰写人联系方式：E-mail：wuyang固定：手机：18108279331创造人所属工程组:研发中心-数据管控产品线本申请涉及的方案是否已在产品上应用可选:否是 (产品名称) 本申请涉及的方案是否即将在产品上应用:否是 (产品名称) (预计的应用时间) 交底书撰写本卷须知：1、专利法予以保护的是技术方案不是功能，因此需要给出实现某种功能的具体技术方案，不能仅仅阐述功能；2、为了获得一个较大的保护范围，在能够实现最根本的创造目的的前提条件下，创造人应该在当前实施的最优技术方案根基上发散思维，给出尽可能多的替代方案；3、同一个技术术语在整个交底书里只用一个词来表达，不要用多个词来表达。4、代理人和知识产权专员不是技术专家，当他们咨询时，创造人需要耐心讲解；如果代理人或知识产权专员要求补充必要的资料，创造人应当及时补充。一、缩略语和关键术语定义下文出现的英文缩写术语在此提供对应的英文全称和中文译文，或中文专业术语的详细解释敏感数据，指不为群众知悉，具有实际和潜在利用价值，丧失、不当使用或未经授权访问对社会、企业或个人造成危害的信息，如个人隐私信息、业务经营信息、财务信息、人事信息、IT运维信息等。数据脱敏，指对某些敏感信息通过脱敏规那么进展数据的变形，实现敏感数据的可靠保护。脱敏数据，指敏感数据经过数据脱敏处理后，不再包含某些敏感信息的数据。数据迁移，指将数据从一个载体迁移到另一个载体，比方：从数据库A迁移到数据库B，从文件A迁移到数据库A，从数据库A迁移到文件A等。XML，即可扩展标记语言(Extensible Markup Language)。标记是指计算机所能理解的信息符号，通过此种标记，计算机之间可以处理包含各种信息的文章等。若何定义这些标记，既可以选择国际通用的标记语言，比方HTML，也可以使用像XML这样由相关人士自由决定的标记语言，这就是语言的可扩展性。XML是从SGML中简化修改出来的。文件的导出，即将源数据库中脱敏后的数据导入到指定格式的文件中。文件的导入，即将excel文件经过脱敏操作过后导入到目标数据库中。二、背景技术以及与本申请相关的现有技术1、背景技术即帮助理解本专利技术内容的公知常识，您基于什么样的背景创造的该专利：随着信息技术的开展与大数据时代的到来，数据流通成为释放数据红利与价值的主要手段和途径，敏感数据在流通中缺乏有效管控，处于高风险状态。近年来，敏感数据泄漏事件屡见不鲜。敏感数据泄漏带来的不仅仅是经济损失，同时损害了金融机构和政府部门等权威机构的公信力，严重破坏了社会信用体系，影响了相关产业与全社会安康和谐开展。在这样的时代背景下，防止敏感数据的泄漏成为了十分重要的问题，因此我们开发了数据脱敏网关。数据脱敏网关就是针对敏感数据进展数据脱敏，保证数据在做数据迁移的和使用时的安全性和保密性。数据脱敏网关主要实现了敏感数据在数据库之间的脱敏和迁移，针对客户的需求，又参加了数据库到文件支持的文件格式有csv，excel，json，xml，txt的脱敏，和文件暂时只支持07版以前的excel，或者excel压缩打包后的zip包到数据库的脱敏。2、与本专利最接近的现有技术现有技术就是已经有的技术，如果该现有技术的缺点正是本创造能够消除的，那么为相关现有技术，否那么为非相关现有技术；相关现有技术中，与本专利共同的技术特征最多的，可视为最接近现有技术最接近现有技术是数据脱敏网关中的数据迁移管理模块，实现了数据库之间的脱敏迁移。2.1现有技术的实现方案给出现有技术的系统图、流程图，结合附图说明现有技术的实现过程数据迁移管理模块作为数据脱敏网关的核心功能，其下又分为三个子模块：策略管理，任务管理，任务日志管理，集成在数据脱敏网关中。如以以下列图：策略管理：实现了相关脱敏策略的增删改查操作。任务管理：实现了相关脱敏任务的增删改查操作，改子模块是脱敏迁移管理的核心功能，整个的数据脱敏迁移都是在这里实现，目前实现了数据库到数据的脱敏迁移，数据到csv文件的脱敏迁移。任务日志管理：简单的任务日志查看功能。数据库脱敏迁移流程图2.2现有技术的缺点一定是采用本专利申请技术方案后能够消除的缺点，缺点可以是多个现有数据迁移管理模块中，只是针对了数据库之间的脱敏迁移，在文件excel方面功能还不够完善，只存在简单的csv文件的导出功能，在遇到客户需要其他文件格式的时候，比方excel，xml，json等文件格式的时候没有良好的支持。三、本申请所解决的技术问题针对上述2.2点提出的缺点，引出创造动机，阐述本专利要解决的技术问题在数据脱敏中，脱敏后的数据存放在一个ListMap集合中，其中每一个Map都对应数据库里面的一个数据，string为其列名，object为其值。难点在于怎样将数据按照每个文件对应的格式转换写入到文件当中，而且在excel文件存在不同版本的区别，07版以前的excel每一个sheet只支持65535行的数据量，而07版本以后支持100万+行的数据量，map中的健对应excel的表头列名。xml的数据也有固定的格式要求，下文会贴出例子；而json数据在Java里面有现有的方法实现，就不做详细的阐述了。XML数据格式：value1value2.value1value2.备注：每一个node对应数据中的每一行数据，label对应数据库中的字段名，value对应其值。四、本申请技术方案的详细阐述创造内容，重点介绍1、本申请的总体技术实现主要是代码方面的实现。总的构思流程图：备注：因为这里是针对已经脱敏的ListMap数据进展文件格式的输出，这里就不做脱敏的实现，只做文件输出的实现。后文中会用到一个公共的Document对象转String的方法：publicstatic String doctoString(Document document) String str = ; try / 使用输出流来进展转化ByteArrayOutputStream out = newByteArrayOutputStream(); / 使用UTF-8编码OutputFormat format = newOutputFormat( , true, UTF-8); XMLWriter writer = newXMLWriter(out, format); writer.write(document); str = out.toString(UTF-8); catch (Exception ex) ex.printStackTrace(); returnstr; 1 ListMap转xml文件格式的实现前文已经写出了xml文件格式的根本，下文就不在做详细的赘述了：引用的包：org.dom4j。根据xml文件的根本格式看出，在做具体实现的时候，我是把list里面的数据放在nodes标签里面的，其子标签node那么对应数据库里面的每一行数据，数据库对应的字段名那么是key标签里面的label属性。这里的重点就是找出最简单的方法将数据库里面的字段名写入到label里面，在这里我们只需要遍历list0中的数据就能得出数据库中的字段名了，实现代码如下：publicstatic String listtoXml(List list) throws Exception /初始化一个document对象，用来添加XML内容Document document = DocumentHelper.createDocument();/初始化一个Element对象，其表示XML文档中的元素，元素可包含属性，其他元素或文本，如果元素含有文本，那么在文本节点中表示该文本，文本永远存储在文本节点中。此时创立了一个父节点nodes，用于记录list里面的所有数据。Element nodesElement = document.addElement(nodes); inti = 0;/遍历listfor (Object o : list) /初始化Element对象，创立nodes节点的子节点node，用于记录每一行数据。Element nodeElement = nodesElement.addElement(node); if (o instanceof Map) /遍历mapfor (Object obj : (Map) o).keySet() /初始化Element对象，创立node节点的子节点key，用于记录每一格的具体数据。Element keyElement = nodeElement.addElement(key); /key节点的label属性，即map的健，对应数据库的字段名。keyElement.addAttribute(label, String.valueOf(obj); /key节点的具体内容，即map的值，对应数据库的值。keyElement.setText(String.valueOf(Map) o).get(obj); else Element keyElement = nodeElement.addElement(key); keyElement.addAttribute(label, String.valueOf(i); keyElement.setText(String.valueOf(o); i+; /将Document对象转为字符串返回，在转字符串的时候设定了具体的编码，xml为UTF8的编码。returndoctoString(document); 到此就将一个ListMap转换为了xml文件的格式了，这个list就是数据脱敏网关中的脱敏数据，余下的操作就是将上面返回的字符串输出到文件中，文件的输出就是一个简单的I/O操作就不再做详细的赘述了，值得注意的是在创立文件的时候是以xml为后缀的。2. ListMap转excel文件格式的实现区别excel 07版以前和以后两个版本：07版本以前的每一个工作簿sheet数据量限制为256列*65536行，07版本以后的限制为16384列*1048576行，在这里可以看出07版本的excel文件存储的数据量远远大于较早版本的，所以建议尽量使用07版本以后的.不过考虑到很多PC上面可能没有较新的excel我会给出两个版本的具体实现。而且两个版本的excel在文件后缀名上也存在不同，07版本以前为.xls，07版本以后为.xlsx，在创立文件的时候需要值得注意。07版本以前引用的包：org.apache.poi.hssf.usermodel。/* *创立excel表头 * param sheet * paramkeysStr */privatestaticvoidbuildTitleOld(HSSFSheet sheet, String keysStr) if (sheet.getLastRowNum() = 0) HSSFCell cell = null;HSSFRow row = sheet.createRow(sheet.getLastRowNum();for (int j = 0; j keysStr.length; j+) cell = row.createCell(j);cell.setCellValue(keysStrj);/* excel 版本2007以下 sheet上限65535* param ListMap* return*/publicstaticHSSFWorkbooklisttoExcleOld(ListMap list)HSSFWorkbook workbook = newHSSFWorkbook();/获取数据库中的字段名。String keysStr = list.get(0).keySet().toArray(new String );HSSFSheet sheet = workbook.getSheetAt(workbook.getNumberOfSheets() - 1);HSSFRow row = null;HSSFCell cell = null;introwNum = sheet.getLastRowNum();buildTitleOld(sheet, keysStr);for (inti = 0; i 65535) sheet = workbook.createSheet();buildTitleOld(sheet, keysStr);rowNum = 0;row = sheet.createRow(+rowNum);for (int j = 0; j keysStr.length; j+) cell = row.createCell(j);String key = keysStrj;Object obj = list.get(i).get(key);String str = ;if (obj != null) str = obj.toString();cell.setCellValue(str);row = null;cell = null;return workbook;07版本以前引用的包：org.apache.poi.xssf.usermodel。/* *创立excel表头 * param sheet * paramkeysStr */privatestaticvoidbuildTitleNew(XSSFSheet sheet, String keysStr) if (sheet.getLastRowNum() = 0) XSSFCell cell = null;XSSFRow row = sheet.createRow(sheet.getLastRowNum();for (int j = 0; j keysStr.length; j+) cell = row.createCell(j);cell.setCellValue(keysStrj);/* list to excel 版本2007以上 sheet行数上线100万+* param ListMap* return*/publicstaticXSSFWorkbooklisttoExcleNew(ListMap list)XSSFWorkbook workbook = newXSSFWorkbook();String keysStr = list.get(0).keySet().toArray(new String );XSSFSheet sheet = workbook.getSheetAt(workbook.getNumberOfSheets() - 1);XSSFRow row = null;XSSFCell cell = null;introwNum = sheet.getLastRowNum();buildTitleNew(sheet, keysStr);for (inti = 0; i 1048575) sheet = workbook.createSheet();buildTitleNew(sheet, keysStr);rowNum = 0;row = sheet.createRow(+rowNum);for (int j = 0; j keysStr.length; j+) cell = row.createCell(j);String key = keysStrj;Object obj = list.get(i).get(key);String str = ;if (obj != null) str = obj.toString();cell.setCellValue(str);row = null;cell = null;return workbook;以上就是两种excel文件格式的具体实现。07版以后的扩展名都是.xlsx，是用新的基于XML的压缩文件格式取代了其目前专有的默认文件格式，在传统的文件名扩展名后面添加了字母x即.docx取代.doc、.xlsx取代.xls，等等，使其占用空间更小，可以向下兼容xls。在做I/O输出的时候需要区别两个版本的excel文件，并修改对应的后缀名。3. 文件excel文件.xls或者其对应的zip包导入到数据库：在文件导入数据库的时候这里考虑了两张情况，数据表建表与否。情况一，数据库表已经建好，且表名对应文件名，字段名对应文件表头，就可以实现文件的直接导入，流程图如下：这里就不再详细的贴出相关代码，说明几个值得注意的地方：1 在写入数据之前，需要读取数据库中对应表的字段名，作为全局变量使用，以便匹配list里面对应的数据；2 如果是ZIP包，里面可能存在多个文件的情况，在处理多个文件的时候，需要对文件进展遍历并且和数据库里面的数据表一一对应，对没有建表的文件抛出异常，其余文件正常导入。情况二，数据库未建表，但是上传的文件为ZIP包，且里面包含了一个SQL文件夹，流程图如下：在执行SQL文件的时候，sql语句必须符合语法规那么，要不然会导致建表失败，可以批量的进展建表操作和文件的导入，目前支持informix数据库和oracle数据表。在处理所有数据的时候都是采用批处理，在一定程度上提高了数据的处理速度。以下是一些对比重要的方法实现：/*获取数据表的字段信息*/publicstatic MapgetTableInfo(Connection conn, StringtableName)MapcolInfo = newHashMap();Stringsimpleselect = select * from +tableName;ResultSetrs;try rs = conn.prepareStatement(simpleselect).executeQuery();ResultSetMetaDatadbMeta = rs.getMetaData();for (inti = 1; i= dbMeta.getColumnCount(); i+) if (ROWNUM.equals(dbMeta.getColumnName(i)continue;/ 保存列名和codeStringcolName = dbMeta.getColumnName(i).toLowerCase();intjavacode = dbMeta.getColumnType(i);colInfo.put(colName, javacode); catch (SQLExceptione) e.printStackTrace();ImportWorker.err = 查询数据表信息异常;returncolInfo;2、本申请的具体实施例将上述总体技术方案放到一个具体的应用环境下举例说明，注明实施例1、实施例2等。建议至少2个以上的实施例。2.1金融机构数据中心敏感数据迁移在XX市商业银行的信息系统中部署了数据脱敏网关，对他们的敏感数据进展脱敏操作，为了方便客户的使用，他们提出了从DB2数据库脱敏生成文件的需求。在这里实现了DB2数据库数据到excel文件。数据量在1000W左右，导出时间在20分钟左右，效率上来说还需要进一步的提高。在同一时间，客户提供了一个数据量对比小的excel文件，我们将其经过脱敏操作后导入到了informix数据库中，耗时不到1分钟。五、本申请的技术效果阐述本创造相对现有技术能够产生何种有益效果例如：可以节约成本、加快处理速度、处理更加稳定、运算更加精准1. 功能扩展：针对目前的数据脱敏网关中的数据迁移功能进展相关的扩展，保证了功能的多样性和实用性，很大程度上提高了用户的体验度。2. 处理稳定：通过Java代码实现文件的导出和导入功能比通过工具来导出导入处理更加稳定，确保了数据的完整性；3. 处理速度更快：在实现文件的导出和导入功能的时候均采用了多线程的实现，可以同事执行多个任务和多个文件，大大的加快了数据迁移的处理速度。4. 节约成本：通过数据脱敏网关进展文件的导出和导入，不再需要其他的数据库工具，在某种程度上降低了生产成本。六、针对第四项所阐述的技术方案，是否还有别的替代方案同样能完成创造目的说明：如果有，请尽量写明，内容的提供可以扩大专利的保护范围，防止他人绕过本技术去实现同样的创造目的；所述替代可以是局部构造、器件、方法步骤的替代，也可以是完整的技术方案。文件导入到数据，现在各大数据库连接工具，比方navicat，dbvis等都已实现了其功能，只是需要在建表的情况下才行，而且未实现敏感数据的脱敏工作。七、引证资料说明说明：完成本技术交底书前，创造人已经掌握的技术资料，例如在构思本专利中所查阅的相关资料，包括专利、论文填写说明：此处仅列明标题和出处，资料全文以电子附件形式提供。提供该资料说明创造人已经投入了一定的智力劳动，有助于提高内部审查效率。无。

展开阅读全文

数据脱敏到文件和文件导入数据库的实现

最新文档