成功躲过高等数学,却在毕业前爱上了数据挖掘


  • 2020
  • 03/31
  • 09:28
  • 学子风采

  • 浏览量

高考前,许多选择文科专业的同学大都有一个共同理由——绕开令自己“痛不欲生”的数学。然而,三亚学院人文与传播学院汉语国际教育专业的13名毕业生,无论无何也没有想到,毕业论文选题时,却跳入了数据挖掘的“坑”,运用大数据方法以新媒体计算为目标,开启了自然语言处理的探索——用大学期间所学的语言学知识,融合了大数据科学、传播学、社会学、旅游学等学科理论和实践,挖掘网络评价文本的深层内涵。更令人意想不到得是,他们居然通过编程累计获取了600多万字的语料,建立了若干个语料库,并把论文做得有理有据、有声有色。下图为他们在论文中“算”出来的结果可视化呈现。

(景区四类实体中正面情感得分所占比例)

 

 

(文本分析过程中绘制的图表)

 

一、这个选题我喜欢

 

王昊宇同学是三亚学院人文与传播学院2016级汉语国际教育专业的一名学生,从大二开始便对“计算语言学”相关的知识产生了兴趣,课余时间阅读了大量相关文献,还自学了python编程。在准备考研时,经过咨询相关老师后,把考研专业确定为计算语言学。

“在毕业论文选题时,发现有老师出了一个题目:XX旅游景区网络评价文本分析,我便毫不犹豫地选了这个题目。”在这个领域饶有兴趣的王昊宇同学谈及自己的毕业论文选题时,也颇为兴奋。出于发自内心地喜欢这个题目,写作过程中不仅很少“复制、粘贴”,而且把自己所学语言学专业知识与大数据、社会学、旅游学等多学科知识相结合,对旅游评价文本进行深度挖掘,论文体现了很多创新之处。目前,该同学基于携程网的旅游评论,对成都市9个重点景区的评价文本进行了分析,已完成了长达三万四千字的本科毕业论文。



(王昊宇同学论文中叙述编程的图例)

同样自学了python编程的还有黄靖玲同学,作为一名文科女生,主动学习python编程的确令人刮目相看。或许是因为自己提前get了这项技能,当发现老师们放出的毕业论文题目中有关数据挖掘的题目时,就特别想尝试一下。

(黄靖玲同学论文中对词语进行聚类分析的图例)

 

二、我想尝试一下这个从未接触过的题目

 

李亚芬同学曾在院学生会通讯社工作,比较喜欢新媒体的传播形式及其相关语言知识。当她看到有关文本分析的选题时,抱着尝试的心理做了一个大胆的选择。“我只是想尝试新鲜事物,但是没有什么把握,此前我根本不知道什么是‘数据挖掘’,‘文本分析’也只能理解字面意思,作为一个“小白”我不知道自己能不能做好这个题目”直到撰写开题报告时,李亚芬同学依然有些忐忑。不过,喜欢创新的她一直充满信心地搜集资料,在指导老师的引导下现学现用,直到最后,在某些应用软件的使用上,她甚至可以带“徒弟”了。

“我想试试,我觉得我可以!”同样喜欢创新的付孟哲同学在选题前已经完成了一项“特殊任务”——坚持了一个学期每周写5篇知网文献阅读笔记。最初这项“特殊任务”是出于“被惩罚”的原因,在她的第六个学期结束时,有一门课程结课论文做的不是太理想,老师建议她暑期阅读20篇文献并写读书笔记,作为一项特殊的“暑假作业”。在“受罚”的过程中,付孟哲主动给自己加码——在第七个学期每周完成5篇。所以,到毕业论文选题时,面对从未接触过的题目,她充满了信心,决定再次挑战自己。令人意想不到的是,性格开朗外向的付孟哲,在对文本的“挖掘”过程中,表现出“心思细腻”的一面。对语料研究的非常透彻,运用聚类和关联的方法,“挖”出杭州著名旅游景点的很多重要信息并运用所学专业知识分析其成因。

(付孟哲同学利用百度指数与评价文本进行关联分析的图例)

 

三、不能只是简单“尝鲜”,还要自我加压

 

按照选题说明,本组同学需要在获取旅游景区网络评价文本的基础上,建立语料库,运用词频分析和情感分析两种方法,对语料进行研究。在论文写作过程中,多名同学随着对数据挖掘、文本分析以及相关技术手段的深入了解,开始了各种“花式拓展”,比如刘益梅同学不满足于指导教师提供的编程获取景区网络评价文本语料库及其文本分析,而是自己手动获取了相关景点的官方宣传文本,自建语料库,并进行对比分析。王昊宇同学作为本组唯一的一名男同学,自愿担起“技术总监”的责任,在某开放平台给出的词云图基础上,根据每位同学的研究对象自绘词云图。

 

(王昊宇为本组同学绘制的词云图)

 

在边学习边研制的过程中,除了向老师请教,还发动了身边的朋友、学长给自己支招。王昊宇曾诙谐地说:“我朋友圈的理工男都恨不得集体把我拉黑,他们快忍受不了我的问题了。”说归说,有问题时他的“朋友圈”依然会耐心地伸出援助之手。

周黎同学的研究对象是国内几个著名玻璃景观的评价文本,在挖掘语料的过程中,发现了一些景区高频词之间存在着某些联系,于是自己动手绘出了关联结构图。

(周黎同学论文中对高频词进行关联分析的图例)

 

在这些发现和思考过程中,同学们虽然感觉到很辛苦,可是一旦发现了新问题,总结出新成果,又感到非常开心、兴奋。于是一稿一稿、一遍一遍地修改过程中,他们在不断地发现新问题,找到新规律,挖掘高频词背后的社会意义。 

(李亚芬同学论文中对文本进行实体抽取的图例)

 

四、“被选择”进入了这个组,论文做的有点辛苦

 

双向选择毕业论文选题,有些老师及其选题“手慢无”。当然,也有不太抢手的老师和题目。 “当时由于没有抢到心仪的老师和题目,只好选了这个。其实看到这个题目之前,我对这一切可以说是一无所知,对于能否完成这个选题,也是很茫然。”有三四名同学被问及选题缘由的时候,几乎都遇到了同样的尴尬境地。四五个月过去了,当初“茫然”的同学也基本完成了将近两万字的文稿,虽然个别人的看起来还有些粗糙,但是初次“查重”就只有百分之十几甚至百分之几的重复率足以说明其论文的原创性——他们写的都是自己思考的过程,自己总结的观点,很少“复制粘贴”别人的文章。“我们也想参考别人的文章和内容,可是,没有哇!全网搜不到可以复制粘贴的内容……我太难了!”个别同学也曾吐槽这个“中毒太深”的选题。但是,无论私下如何吐槽,他们却都在比拼着努力,谁都不甘心自己的新发现比别的同学少。靳雨萌等同学为了激励自己还一度把自己的微信头像换成了研究对象的词云图。

 

五、总是担心自己“跑偏”

 

从获取文本、自建语料库,到安装自然语言处理相关软件,再到文本分析,撰写论文……一路走来,同学们总是担心自己“跑偏”远离自己的专业,在开题答辩时也被专家老师问到:“你懂计算机吗?”,虽然当时不知道应该如何准确回答老师的提问,但是相信自己在老师的指导下和本组同学的共同努力下可以克服所有困难——这是几位同学开题答辩后交流的内容。因为他们从来不担心自己误入计算机相关专业的“歧途”(这个太难了!)。他们只是在应用一些自然语言处理的技术手段。不过,他们在写作过程中还真数次遇到“跑偏”的危险,真正能够迷惑到他们的不是转向计算机专业,而是旅游管理的内容。在查阅资料时,以某个景区为关键词,查到的大多为旅游管理相关的内容。“可是,我们是语言学专业啊,不能照搬旅游学的论文,资料的有限性限制了我的抄袭率……”同学们在私底下也常常这样吐槽。陷入“抄袭”绝望境地的他们,只好埋头于自己的语料库,把语料细分,让可视化效果更好,观察、研究每一个高频词存在的原因、揭示的意义。

(根据研究对象自建语料库)

 

 “在这次论文的写作中,我深刻意识到了不断学习的重要性。在此之前,我对大数据仅停留在简单的认知层面,是老师教会了我如何利用这些宝贵的资源,如何使用词频分析及情感分析软件,这些技能将成为我未来工作生活中的特长之一,也能提高我在同龄人中的竞争力。”付孟哲同学在论文的致谢部分表达了自己的付出与收获。她憧憬着自己在毕业论文写作中的收获的技能可以提升走向社会的竞争力。

涉及全国近二十个省78个旅游景区约六百万字的网络评价文本语料库,就这样被13名同学“分割”、挖掘、研究、发现……最终完成了平均每篇近2万字的本科毕业论文。虽然同学们论文的学术性还存在一定差距,但是,他们接触到自己感觉很“新鲜”的学术氛围,经历了近半年独立思考的“煎熬”,完成了一个学术“小白”的蜕变,也可以算是应用型专业转型的一次尝试。



CONTENT END

  • 团学工作
  • 学生活动
  • 学子风采
  • 地址:海南省三亚市吉阳区学院路191号 招生电话:0898-88386743
  • 三亚学院人文与传播学院 版权所有
  • Copyright © 2024 University Of Sanya. All Rights Reserved.
  • Design By Taoyuan
    • USY人文与传播学院微信公众号

    • USY人文与传播学院官方抖音号

    • USY人文与传播学院官网手机版