新驻京办主任 万腾阁现实世界的数据没有经过清洗是无法直接用于企业决策分析的,因此,在数智管理时代,会计专业的学生需要学习如何提取、转换和加载ETL数据的基本技能。
商业智能(Business Intelligence,简称BI),是指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。商业智能的概念在1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。
做好一个BI商业智能项目的关键是什么?有人会说,那肯定是报表,报表是数据分析最直接的成果展示,好的报表能够帮助企业从各种纷杂的信息中及时地发现关键有效的信息,从而为决策提供支持。诚然,报表很重要,这是毋庸置疑的, 但是拿BI当报表系统来用,这有点大才小用的感觉,报表只是BI项目中的一个环节,做好ETL,做好数据处理,那么剩下的报表分析工作,就会事半功倍。
那么是什么ETL?ETL 的英文全称叫做 Extraction 提取, Transformation 转换,Loading 加载。ETL是将业务流程中的数据经过抽取、清洗转换之后加载到数据仓库的过程。
学生在会计入门课上首次学习如何使用数据做出业务决策时,使用的数据集往往是干净的,没有错误、重复或任何异常。但现实世界中很少有干净的数据,企业专业人士和会计人员在进行数据分析之前,通常会花费大量时间准备数据。为让学生了解在数据准备阶段面临的挑战,我们认为非常有必要将数据提取、转换和加载(ETL)流程引入会计入门课程。
ETL流程的第一步是在多个数据源(如Excel、Access、Word、SAS甚至Web)中提取或获取数据。经提取的数据会被加载到“数据仓库”(单一数据源)中,并在其中进行转换。视具体情况不同,数据转换会包括数据清洗和数据合并,可能还会涉及数据计算。ETL流程的最后一步是将数据加载到软件中,如Excel、Power BI或Tableau,然后用于决策和数据可视化。简言之,ETL是进行数据分析的基础,也是数据分析流程的第一步和最重要的一步。
因此,我们认为很重要的一点,是帮助会计专业学生了解数据鲜有干净的,为进行有效业务决策而开展的数据分析,不能缺少ETL这一流程。在涉及《数据分析》的课程上可能都会讲授这部分内容,但对学生来说,效果最理想的可能是会计入门课程。
ETL流程的数据转换环节一般包括数据清洗,或者移除错误和不一致的数据,这些数据包括不相关数据、重复记录、不规则(或不一致)数据、缺失数据和异常值。
不相关数据是与当前业务情况无关的数据,可能会让数据分析更加复杂和不清晰,因此,应该把这类数据从数据集中剔除。例如,你的企业团队如果正在分析是否应该放弃一条产品线,就不要考虑无论继续保留或放弃该产品线都会发生的成本,如CEO的薪水或办公楼的保险费用。
除了多余的数据,可能还需要从数据集中剔除重复记录,因为这些重复记录会拖慢分析速度并挤占存储空间。另一个危险是,给重复记录太多权重,可能会扭曲结果,引致错误的结论。
不规则(或不一致)数据则需要标准化之后用于分析。数据集中的拼写错误需要纠正,不一致的大小写需要标准化。例如,俄亥俄州可能在一项记录中写为“OHIO”,而在另一项记录中写为“Ohio”,计算机可能无法将“OHIO”识别为“Ohio”,进而可能导致某些记录被遗漏。项目名称也需要在整个数据集中保持一致。例如,人力资源部门可能在一项记录中记作“Human Resources”,而其他记录中可能记作“HR”。人力资源部门命名的不同会造成这些记录无法分组进行分析。因此,命名规则需要标准化和一致。
缺失的数据包括缺失的单元格、文本中的空格或空白的记录,需要在分析之前进行处理。数据缺失可能是人为错误或其他原因导致,如获取原始信息的自动化流程中存在差错。我们需要确定能否修复与缺失数据相关的记录,或者是否应将其从数据集中剔除。
数据异常值是指远远超出特定项目正常值的记录。例如,某地乳品厂每日加工的奶酪磅数可能在1,000到2,000磅之间,如果记录显示某天加工了3,200磅,这应当是值得进一步审查的危险信号。但如果这不是个错误,管理人员则需要确定是否应将这一数值纳入数据集。
解决上述所有数据问题后,我们需要再次检查数据的有效性和可靠性。为确保数据质量高和结果合理,还必须仔细分析运用数据获得的初步结果。
在ETL流程中,有几种不同的工具可以使用。在数据转换阶段,可使用Excel、Google表格、Alteryx和Tableau Prep。如表1所示,这些工具都有自己独特的优缺点,但都是免费的,便于教师用于学生教学。让我们从许多会计人员最爱的工具——Excel讲起。
在课堂上使用Excel清洗数据,可让学生们进一步提升其Excel技能。一方面鉴于大多数学生已经很熟悉Excel,任何《数据清洗》课程的重点都可以放在数据清洗过程本身,而非教学生如何使用新的软件。另一方面,专门的ETL数据清洗工具,如Tableau Prep或Alteryx,在数据清洗方面比Excel更高效。在会计入门课程中将Excel作为数据清洗工具来讲授是合适的,但应该在更高级别的课程中讲授专门的数据清洗工具。
Google表格是另一个可用于讲授《数据清洗》的工具。尽管Google表格的功能非常有限,并且很少用于工作,但对于无法使用Excel或电脑(如Chromebook笔记本电脑)运行微软Office软件有困难的学生,Google表格可以作为备用工具。
Alteryx是一个分析流程自动化平台,可让会计人员使用无代码构建基块来提取、转换和加载数据。可从多个数据源提取数据,包括Excel电子表格、Word文档和网络;数据提取后,可采用多种方式清洗,包括删除重复记录、消除不需要的字符、将文本字段转换为数据字段,以及查找和替换文本。上述所有步骤都可以通过构建工作流来完成,而无需使用代码。最终结果可汇总到Excel文件,之后能轻松加载到Power BI或Tableau等可视化软件中。工作流构建后,就可以重复用来处理类似文件,而无需再构建ETL步骤。
Alteryx为教师和学生提供为期一年的免费续签许可证。用户在创建账户并通过身份验证后,可通过Alteryx官网下载该许可证。Alteryx适用于个人用户或需要多张许可证的企业用户,价格可通过其官网查询。需要注意的是,Alteryx不能在Mac苹果操作系统下载和使用,除非该电脑安装了Windows操作系统。
最后介绍的工具是Tableau Prep。这是Tableau产品套件中的一款软件,用户可直接通过其官网免费下载。该软件的许可证有效期为一年,教师用户可免费续订。Tableau Desktop包含了一些基本的数据清洗和数据准备功能,但Tableau Prep的目标是帮助用户在分析数据之前对数据进行清洗和整理:可提取和合并多种类型的数据,如PDF、文本文件、Excel文件、统计文件、Dropbox和Tableau Server。
Tableau Prep还有许多功能强大且易于操作的数据清洗和数据准备功能,如拆分字段、创建计算字段、分组和替换函数、筛选、字段格式设置和数据透视(将数据从行转置为列,使数据更易处理)。
我们发现,许多会计教师认识到了讲授《数据分析》和ETL技能的重要性,但往往不确定该从哪里开始或者该去哪里找到教学资源。正是基于这种需求,我们开发了“Accounting is Analytics”这一网站(,在上面分享了几个我们自己开发的项目,这些项目也在讲授的会计入门课程中使用。近期,我们在网站的“分析”栏目下引入了KAT Concession Supply公司案例,着重讲授《数据清洗》知识。
目前我们网站上有10个ETL项目,并附带用于会计入门课程的交互式仪表板。每个项目都要求学生使用指定的Excel、Google表格、Alteryx和/或Tableau Prep工具清洗“脏”数据集,然后使用Excel、Google表格或Power BI创建一个包含清洗后数据的小型交互式仪表板。网站页面顶部设置了四个栏目:财务会计、管理会计、分析和新兴技术,用户可在相应的栏目下查找项目。
这10个项目都是独立的,可交叉使用。项目涉及三个技能层次(初级、中级和高级),和四个软件组合:Google表格(仅限初级)、Excel、Alteryx和Power BI组合以及Tableau Prep和Tableau组合。
初级技能项目的数据清洗步骤相对较少且不那么复杂,只创建两个可视化仪表板;中级技能项目的数据清洗步骤更多,要求更为复杂,要创建三个可视化仪表板;高级技能项目则包含多种类型数据(包括文本和PDF)的转换,要创建四个可视化仪表板。我们在设计这些项目时充分考虑到了教师授课的灵活性。
这些项目并不需要学生具有相关知识,因此我们建议教师将它们作为学生的家庭作业。分步视频教程可引导学生(和教师)学习项目的每部分内容,确保顺利完成学习任务。我们通常会要求学生回答课程管理系统中的问题,学生也可以提交其仪表板截图。项目完成后,我们会在课堂上花15分钟做回顾。
ETL项目使用的是虚拟公司KAT Concession Supply的真实数据集,该公司为展会、游乐场和其他公司提供食品、纸制品等产品。每个免费ETL项目都使用不同的数据集(相同的字段,不同的数据,且教师可编辑),每个主要数据集包含约300条记录。
这些项目的教学资源包括完成ETL和仪表板每部分学习的分步视频教程(带隐藏式字幕和带脚本的视频教程幻灯片),以及教案和数据集等。此外,每个项目还提供了学生指南,其中包含项目介绍、软件下载说明、数据文件链接、需要回答的问题和常见问题。所有项目都内容完整、立即可用,易于教师和学生使用。
软件公司也提供功能强大的包含视频的支持网站。例如,Alteryx SparkED教育项目()为学生提供免费的教育软件许可证,以及用于课堂教学的案例、认证、数字徽章及社区支持。
这10个全新的、经过课堂测试的项目都可以用于会计入门系列课程,包括财务会计和管理会计。中级和高级项目也适用于更高级别的课程,如《会计数据分析》或综合课程。
借助KAT Concession Supply公司的真实案例所用的交互式仪表板,学生们可以获得初步使用Excel、Google表格、Tableau和/或Power BI的成功实战经验,这就让他们在后续使用数据分析工具时不会感到那么困难。教师可以将这些案例视为在高级商业和会计课程中讲授更高阶的数据分析项目的基础。
将ETL引入会计入门课程,可以向学生展示会计不仅仅只有借贷等知识。学生通常认为会计是交易记录,并不了解会计的一个关键特征是能够使用财务数据回答业务决策等问题。ETL教育有助于弥补这一不足,帮助学生了解如何使用财务数据来解决业务问题。
ETL和数据分析是当代会计人员的重要工具。在当今快速变化的商业环境中,教师必须为学生夯实专业基础,让他们在走上工作岗位之前就具备技术上的敏捷性,更有信心地掌握对新兴专业技术的运用。ETL项目不仅有助于培养学生数据清洗、分析和可视化方面的专业技术能力,还可让他们发展助力关键业务和实现专业目标的尖端分析和会计能力。
来源: 本文编译节选自《新理财》公司版杂志2022年12月刊文章《讲授ETL全流程》,原文刊发于IMA管理会计师协会《战略财务》中文版2022年第5期。
声明: “新理财”微信公号所刊载文章、图片等,属于相关权利人所有,若因客观原因存在使用不当的情况,敬请与我们联系及时依法删除或修改处理。
|