CMA:文本分析在财会工作中的运用
文章来源:CMA官方订阅号
发布时间:2021-10-12 14:52
阅读:870次

文本分析亦称内容分析,是运用语言学理论,对非结构化(或文本)数据所包含信息的内容、结构和功能进行分析。随着计算机处理能力的快速提升和企业内外非结构化数据的增加,文本分析现已运用于会计和审计领域。通过文本分析,会计师可以识别租赁合同中的关键条款,跟踪客户合同确认收入;审计师可以审查会计分录摘要;投资者可以比较不同公司的管理层讨论与分析(MD&A)。
文本分析之所以在今天尤其重要,是因为非结构化数据在会计领域越来越受重视。非结构化数据不仅包括文档,还包括电子邮件、文本信息、日志与通知、音视频文件、静态图片等。文本分析可帮助会计师与审计师分析非结构化数据,并以之驱动决策,还可为会计师提供定量化数据之外的其他知识,如对人类思维和语言所运用的复杂模型的洞察。
但没有什么是十全十美的,文本分析也存在一些缺点。首先,文本分析颇为耗时,而且使用者需保持谨慎,不要在解读过程中很快得出结论;其次,文本分析的迭代过程有时可能不尽人意,特别是对于新手;最后,还可能存在软件问题。
文本分析核心概念
文本分析是一个涉及多个概念的迭代过程。在开始前,会计师和审计师需要熟悉下列文本分析概念:字数统计、词语索引、词云、词搜索、词树、词搭配、迷雾指数/可读性、情感分析(语气)。下面我们来逐一仔细分析。
字数统计:字数统计是一种统计文档或句子中总字数的方法。会计文件中绝大多数句子的长度介乎20至25个单词(注:此处指英文文件),超过这个长度的句子会降低文件的可读性。更糟糕的是,一些分析师可能会怀疑,某些会计文件的冗长程度意味着公司在试图隐瞒信息。
字数统计也包括对文档中特定词出现频率的统计。例如,如果A公司在其年报中用到“亏损”一词40次而竞争对手B公司只提到15次,人们可能就会怀疑A公司的业绩不如B公司。【点击免费下载>>>更多CMA学习相关资料】
词语索引:词语索引与字数统计相关,是一个文档中所有词及其相邻词出现频次的清单。因此,词语索引展示了词出现的背景,使深入分析特定词在文档中的使用方式成为可能。文本分析软件还可以统计文本中的页数、段数和行数,且大多数可统计包括或不包括空格的字符数。
词云:词云是词频的图像化展示。词在源文本中出现得越频繁,在词云中的字体就越大越粗,可用于展示文本最重要的观点或主题。例如,一家生产体育用品的公司可能会使用词云分析顾客对跑鞋的评论,将顾客使用的特定词直观地展示出来,以确定客户最看重什么。
词搜索:因文本分析具有迭代性,其可能涉及多次词搜索。例如,字数统计显示,年报的MD&A部分多次使用“风险”一词。年报使用者接下来可能会搜索该部分所有出现“风险”一词的表述,以探究被讨论的是何种风险。
词树:词树是一系列词的可视化展现,运用分支结构来显示词之间的关系。将文档中最常使用的词比作树干的话,与之相关的词语则可看作树枝,这有助于使用者了解文档中每个词的含义。
词树可以让使用者在无需阅读整个文档的情况下,更好地理解其中词的含义。如图1所示,文档中,主要词语“内部控制”(internal control)前后有多个词或者短语出现。和词云一样,出现在主要词语前后的单词或短语的字体越粗大,其在文档中使用的频率就越高。实际上,词树就是可视化的词语索引。
词搭配:某些词常常在一起出现或互相搭配,例如“财务”和“报表”这两个术语。一些文本分析软件包可在没有使用者干预的情况下识别词搭配。在会计领域,识别如“长期债务”“有价证券”“固定资产”等常见搭配词,有助于理解文本的意思。
迷雾指数/可读性:如字面意思,雾迷指数/可读性这一术语衡量的是理解文本的难易程度,是平均句长和复杂词比重的线性组合,其中复杂词指有两个以上音节的单词。目前可通过Flesch Reading Ease和Flesch-Kincaid Grade Level这两个标准的可读性测试工具来评估阅读难易程度。这两个测试工具使用同样的核心词长度和句子长度标准,但权重因子不同,因此其结果是相反的——在Flesch Reading Ease中得分较高的文本在Flesch-Kincaid Grade Level中得分会比较低。
近期会计研究显示,由于商业文本所使用的很多复杂词——如“或有事项”“偏差”“初步”“可能”和“重新计算”(译者注:这些词在英语中均为两个以上音节)等财务报表常用词——已为投资者和分析人士熟知,迷雾指数已不是衡量财务报表可读性的有效指标。对此,会计学教授Tim Loughran和Bill McDonald提出,对商业文本而言,相较于传统的可读性指标,只使用文本长度或文件大小来评估的效果更好。
情感分析(语气):情感分析关注文档所表达的特定的语气或情感。情感分析有两种,一种关注文档的感情倾向(积极、消极、中性),另一种则关注更具体的情感(不确定性、诉讼偏好程度等)。净情感分析根据语气将文档中的词分为积极词和消极词,然后计算二者数量上的差异,由此判定文本是积极的(积极词多于消极词)、消极的(消极词多于积极词)还是中性的(积极词和消极词一样多)。
情感分析的重点是通过特定词(这些词可视为表达了兴趣情感)列表来检测文本的特定情感。将这些特定词列表输入到用于分析的软件工具中,可识别列表中的词在文本中的出现频次。如果列表中的大量词出现在了会计文档中,就可以依据该列表来判断该报告的情感基调。例如,如果使用表达不确定性的词列表进行文本分析时,发现文档中有大量不确定性用词,那么这份文档的整体基调就是不确定的。分析财务信息时,情感分析通常使用Loughran&McDonald情感词列表来确定文档的总体情感基调。
相关阅读:【CMA:文本分析在会计和审计中的应用】
2022年CMA最新资料包领取
请大家认真填写以下信息,获取2025年CMA学习资料包,会以网盘链接的形式给到大家,点击免费领取后请尽快保存。
*姓名不能为空
*手机号错误
*验证码错误

Andy

ACCA资深会员,CICPA会员,具有27年以上的财务管理和税务领域工作经验,曾先后就职于国家税务机关、四大会计师事务所、拟上市公司及世界知名管理咨询公司埃森哲等各种类型的企业。曾荣获首届“全国税务征管能手”荣誉称号,既具备扎实的经济及财税理论知识,又在该领域具有丰富的实践经验,对中外财税理论及法规具有深刻的理解;培训课程内容翔实、深入浅出、实用性强,总能从独特的角度对财务税务问题进行剖析。善于将复杂的问题简单化,授课通俗易懂。
