返回首页  设为首页  加入收藏  今天是:
网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人
相关文章
 中科院宗成庆谈文本数据挖掘
 数据挖掘在CRM中的应用
 赛迪副院长张小燕出席2023智…
 特斯拉概念股全线回升智能汽…
 前瞻2023智能电动汽车“国家…
 高度智能化大开眼界!韩国教…
 品牌、滤材、智能化?5款台式…
 农业人工智能机器人研发商点…
 机器人及智能系统学者宋永端…
 长沙南站“智能机器人”春运…
 16号线南段:智能清洁机器人…
 财阀女花费百亿打造人工智能…
 客服机器人交互再升级:用户…
 工行常德分行在澧县开启智能…
 人工智能写作到底有多厉害?
 基于“源”大模型的智能客服…
 95年过去人工智能被赋予了“…
 考虑很周到 三星Galaxy生态产…
 和三星Galaxy Watch5系列一起…
 Ai人工智能手表和效伴机器人…
 功能强大 外观时尚 三星Gala…
 Meta到底为何要大裁员?
 3500元价位最值得买的三款手…
 华为5G智能机上架 支持双卡5…
 要彻底淘汰4G!百元5G手机即…
 发售即白菜价!5000mAh大电池…
 世界最便宜智能手机体验:24…
 工信部:手机预装 App 除基本…
 一文带你了解智能汽车车载网…
 通达电气:目前不涉及轮边电…
 智能车载APP 原创
 中国移动6G研发取得阶段进展…
 智能家居落地营销方案 原创
 新趋势·新业态·新变革|20…
 “宅经济”爆发 小家电行业如…
 男子网购20个26元扫地机器人…
 2022建筑与家居产业品牌影响…
 【亲测】电视家纯净版与30哪…
 电视盒子有哪些软件支持电视…
 机顶盒怎么调出电视台?图文…
 电视应用软件哪个好?过年和…
 小米电视直播软件测评:HDP直…
 完了因为这个男人我可能要失…
 北京农商银行:监管数据可视…
 福音还是威胁——人工智能路…
 罗强调研四川教育大数据可视…
 美国留学院校丨计算机专业最…
 自动驾驶飞行汽车效果图 两种…
 雷克萨斯自动驾驶车辆照片
 盘点2019年八大自动驾驶汽车…
专题栏目
湖南视觉网络"模板城"--汇集CMS、EShop、BBS、BLOG等系统模板
您现在的位置: 智能制造网 >> 商业智能 >> 正文
高级搜索
中科院宗成庆谈文本数据挖掘
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/1/10 16:10:16 | 【字体:

  小说风流岁月雷锋网 AI 科技评论按,近年来,随着移动通信和互联网技术的快速发展与普及应用,数据挖掘技术得到了越来越多的关注。文本数据挖掘作为自然语言处理、机器学习和数据挖掘等多种技术的交叉研究领域,其研究热度也逐年提升。在学术界,每年都有大量相关论文发表;在工业界,文本数据挖掘被广泛地应用于医疗、金融风控、司法和情报分析等各个领域,极大地帮助了人们提高工作效率和分析挖掘相关信息。

  如何更好地入门这项技术呢?相信相关专业的学生和该领域的初学者都非常关心这个问题。近日,由中国科学院自动化所研究员、博士生导师宗成庆、南京理工大学计算机学院教授、博士生导师夏睿和中科院自动化所副研究员张家俊三位老师历时两年多撰写的《文本数据挖掘》问世,为这项技术的推广和应用提供了一部优秀的教学辅导书。该书全面梳理了文本数据挖掘技术各个方向的基本概念和经典方法,并给出了具体的应用案例,对于初学者来说这是一本不可多得的好书,对研究人员也不失一本值得参阅的手边书。

  对于宗成庆老师,相信国内任何一位学习和从事 NLP 技术研发的人应该都不会陌生,他撰写的《统计自然语言处理》多年来都是国内 NLP 学习和研究必备的参考书。时隔数年,宗成庆老师再次发表新著,其初衷和意义为何?带着这些问题,雷锋网 AI 科技评论宗和成庆老师进行了深入交流。

  答:文本数据挖掘具有极其广阔的应用前景,包括金融、医疗、生物医药、司法和情报分析等各个领域。我们所说的自然语言处理技术,其应用目标除了机器翻译和对话系统以外,主要任务就是利用这本书中所介绍的这些文本数据挖掘技术进行文本的分析和处理。

  答:其实,某些技术最早可以追溯到上个世纪的 50 年代,例如,自动文摘。那时候人们就已经在关注如何为图书文献自动生成摘要。之后,应用需求范围不断扩大,尤其是随着互联网技术的快速发展和普及应用,相关技术需求逐渐被提出,如情感分析、主题发现和追踪等。我个人认为,这并不是一个新的领域,而是以自然语言处理为主,结合机器学习、数据挖掘等多种技术的具体应用。

  答:不同的任务面临的难点是不一样的。但如果笼统一点来说的话,主要在于如何弄清楚文本作者的意图和观点,这是最根本的问题。不同于从数据库中挖掘和发现知识,文本数据挖掘的处理的都是非结构化的文本数据,因此自然语言处理中面临的问题都是文本数据挖掘中的难点。

  计算机和人不一样,对于一段文字,人扫一眼就可以明白了。而计算机理解语言会涉及到太多东西,包括语言学的问题、人的背景知识和常识等。目前我们还无法清楚地知道人脑是如何理解语言的。所以从长远的深层次研究角度,我们要和脑科学研究结合起来。目前我们正在与中科院上海神经所、心理所等从事脑科学和语言认知研究的专家进行合作。当然,这是一个遥远的目标。从应用的角度,我们希望尽快利用机器学习等技术,结合语言学和具体应用需求,建立实用的文本挖掘方法。

  答:对人脑从事语言认知机理的研究是一个长远的目标,属于基础性的探索研究,很难指望在短时期内看到直接的应用效果。但是,相关研究会给我们很多启发,让我们改进或者解释现有的神经网络模型,或者建立更加有效的新方法。总起来说,这需要持续地研究,甚至需要几代人一点一点地努力,去攻克这个堡垒。

  答:主要有几方面考虑。一方面,我前一本书《统计自然语言处理》的主要内容是自然语言处理的基础理论和关键技术,而《文本数据挖掘》介绍的目前自然语言处理应用领域中热点的研究方向,如情感分析、主题发现和信息抽取等。另一方面,我在国科大为研究生开设的一门课程名称就是「文本数据挖掘」,需要这样一本教学辅导书。另外,近年来自然语言处理技术的应用需求很大,技术发展非常之快,很多新技术和新方法不断推出,对于我个人而言,撰写这本书的过程也是学习和熟悉最新技术和方法,梳理学科知识的过程。

  AI 科技评论:既然《文本数据挖掘》梳理的是最新的技术方法,那么,您此前撰写的《统计自然语言处理》,其内容需要更新吗?

  答:当然需要,因为现在的技术发展太快了,很多技术都已经更新。但是,我需要在清楚地掌握这些新技术以后,才能判断哪些新方法需要写进书中,很多技术都需要经过时间的验证。其实,有些新技术已经被写入《文本数据挖掘》这本书里了,如词的分布式表示,深度神经网络方法等。我认为文本数据挖掘实际上就是自然语言处理方向的一个延伸和扩展。

  答:文本数据挖掘技术的应用非常广泛。在医学上,它可以用来帮助医生进行诊断,或者为医学研究者提供技术手段或知识支撑,也可以为患者提供帮助,如问诊或查询等;在金融领域,根据财务报告、大众评价等一些公开的信息,可以帮助投资人分析某家公司的信誉如何;它还可以帮助法官根据以往的案例如何量刑和断案等。

  AI 科技评论:因为中国人主要使用中文,那么,汉语的文本挖掘和其他语言有区别吗?

  答:区别是存在的。首先,中文文本挖掘面临着分词的问题,这是一个基本问题。

  虽然其他语言也存在这类问题,如韩国语和日语等,但是中文的分词更麻烦,尤其对于非规范化的文本而言。其次,中文在表达方式上比较复杂,或者说比较灵活,语义表达更复杂,有时候不同的人对同一句话的理解可能也不一样。例如,在中文文本中很多时候作者在表达观点时都比较委婉,甚至在描述一件事情的时候喜欢绕圈子,而不会直接表达自己的意思,而在英文文本中较为直截了当。所以,在进行中文文本挖掘时需要考虑汉语篇章的特殊性。

  答:从性能和最终结果来看,对于很多任务来说,神经网络或者深度学习方法的结果要优于传统方法,但是传统方法也有它自己的优点,如便于结合先验知识、可解释等。在方法改进和创新研究中,我们不应该完全抛弃原来的方法。如何把这些方法结合起来,让它们在不同的方面发挥作用,最终取得更好的性能,这是我们的目标。创新就是这样,始终在前人工作的基础上一步一步地提升和前进。

  在《文本数据挖掘》这本书里面,我们并没有过多地强调深度学习方法,比较有代表性的方法都介绍了。我们希望读者能够完整地了解某个方向的发展历程。在此基础上,读者自己会去进行判断或者研究应该如何建立更加有效的新方法。

  AI 科技评论:您刚才提到,传统的方法也很重要。那么,如果您现在修订《统计自然语言处理》,会如何进行内容取舍?

  答:一方面,有些内容需要压缩。《统计自然语言处理》中的有些方法在性能表现上有点跟不上时代了。有些方法,如统计机器翻译,只需要介绍起主要思想,而不过多地介绍模型细节。另一方面,需要增加一些深度学习的新方。

  AI 科技评论:如果学完了这本书以后,还想要进一步学习,您觉得应该从哪一些方向入手?

  答:《文本数据挖掘》这本书讲的主要是一些比较基础的方法,主要目的是带领读者进入这个领域。正如前面所说,这个方向发展得非常快,需要不断地跟进和更新。每年 ACL、COLING 和 EMNLP 等本领域的会议上都会不断推出一些新的方法,需要不断地跟踪。读者在了解和掌握本书的基本知识之后可以通过阅读论文、听学术报告或其他交流形式,跟踪和关注这一领域的最新进展。

  AI 科技评论:在国内,很多学生过度依赖开源工具,缺乏自己的思考,您怎么看待这一现象?应该如何改善这一状况?您认为优秀的学生一般应该具有哪些重要的品质?

  答:及时学习、跟踪和使用开源工具,了解国际最新的前沿技术,是对学生,包括对硕士研究生和博士研究生最基本的要求。对于初学者来说,使用开源工具是一条捷径,已有的很多创新也都是从模仿开始的。但是,跟踪到一定阶段,学生必须学会独立地思考,提出创新思路。

  目前各种诱惑和不合理的评价体系,是导致学生过度依赖开源工具、急功近利的主要原因之一。大家都希望在短时间内尽快出论文、出系统,而不愿静下心来深入思考。

  要改变这一状况,每一位从事科研工作的人,尤其老师和学生都有责任和义务,从我做起,从现在做起,不受一时利益和荣誉的诱惑,静下心来,打牢理论基础,扎扎实实地开展工作,坚守「一辈子做好一件事情」的目标和理想,才是改变这一现象的根本出路。

  我认为优秀学生应该具备如下重要的品质:能够坐得住,甘于寂寞,持之以恒地用心钻研,不受前人思路的限制和制约,勇于创新和实践。从长远来看,社会最终认可的一定是扎扎实实的有用的技术,而不是故弄玄虚、华而不实的墙上画饼。

商业智能录入:admin    责任编辑:admin 
  • 上一个商业智能:

  • 下一个商业智能: 没有了
  •  
     栏目文章
    普通商业智能 中科院宗成庆谈文本数据挖掘 (01-10)
    普通商业智能 数据挖掘在CRM中的应用 (01-10)
    普通商业智能 完了因为这个男人我可能要失业了…… (01-10)
    普通商业智能 北京农商银行:监管数据可视化系统EAST50报送… (01-10)
    普通商业智能 福音还是威胁——人工智能路在何方? (01-10)
    普通商业智能 罗强调研四川教育大数据可视化工作 (01-10)
    普通商业智能 美国留学院校丨计算机专业最牛学校:卡耐基梅… (01-10)
    普通商业智能 一站式智慧工地安全施工解决方案 “安全眼”H… (01-09)
    普通商业智能 实在智能荣登“2022中国科创好公司”双榜彻底… (01-09)
    普通商业智能 老字号 新动能!珠江啤酒启动营销数字赋能新征… (01-09)
    普通商业智能 通过商业智能(BI)可视化数据分析了解布洛芬… (01-09)
    普通商业智能 万字长文带你从0到1的了解商业智能 BI (01-09)
    普通商业智能 你真的了解商业智能(BI)吗?一文带你了解全… (01-09)
    普通商业智能 我们应该如何正确理解商业智能 BI 的价值 ? (01-09)
    普通商业智能 商业智能BI和数据分析 (01-09)
    普通商业智能 商业智能BI财务分析如何从财务指标定位到业务… (01-09)
    普通商业智能 中国商业智能化BI发展动态及前景战略研究报告… (01-09)
    普通商业智能 商业智能项目的管理探索七 (01-08)
    普通商业智能 智能题库转动“数字教辅”魔方 (01-08)
    普通商业智能 第2章智能题库多选第26题129110712为什么要7 (01-08)