目录
摘要 II
Abstract III
第一章 绪论 1
1.1 研究背景 1
1.2 研究目的 1
1.3 国内研究现状 1
1.4 研究工具与方法 2
第二章 大数据挖掘概述 3
2.1 大数据挖掘定义 3
2.2 大数据挖掘方法 3
2.3 大数据挖掘流程 3
第三章 大数据挖掘方法概述 5
3.1 决策树算法 5
3.2 随机森林算法 6
第四章 基于大数据挖掘的大学生旅游决策影响因素分析 8
4.1 大数据准备 8
4.1.1 问卷设计 8
4.1.2 大数据测试 8
4.2 大数据预处理 9
4.2.1 信度检验 9
4.2.2 效度检验 9
4.2.3 主成分分析 10
4.3 基于大数据挖掘的大学生旅游决策影响因素分析 12
4.3.1 决策树算法在大学生旅游决策影响因素分析中的应用 12
4.3.2 决策树算法实证结果与分析 12
4.3.3 随机森林算法在大学生旅游决策影响因素分析中的应用 13
4.3.4 随机森林算法实证结果与分析 13
4.4 大数据挖掘实验结果分析 14
4.4.1 算法结果比对 14
4.4.2 大学生旅游决策影响因素分析 15
4.5 对策建议 15
4.5.1 加强旅游市场监管,确保信息的真实性 15
4.5.2 高校需要正确引导大学生树立正确的安全旅游观念 15
4.5.3 “有的放矢”的推出旅游产品 16
4.5.4 面向大学生群体,旅游企业需要精准的市场营销 16
结论 17
参考文献 18
致谢 20
基于大数据挖掘的旅游分析
摘要
随着国民经济的不断进步与发展,旅游逐渐成为了人们休闲娱乐的主要形式。大学生群体作为一个特殊的消费群体,其在旅游决策时的消费心理受到旅游行业从业者的广泛重视。与此同时,互联网的迅速发展,促使了网络信息的大爆发,产生了大量的大数据可以广泛使用,如何将这些大数据转换成有用的信息和知识,则需要依靠大数据挖掘技术的帮助。本研究将利用大数据挖掘技术,分析大学生在做旅游决策时受主要影响因素的影响程度,并由此为依据为政府、高校以及旅游从业者提出合理的建议。
针对这一课题,本研究通过对贵阳市大学生的问卷调查形式获取大数据源,本次研究采用决策树、随机森林两种算法建立目标变量与解释变量之间的关系,并建立相关模型对获取到的大学生出行旅游的影响因素进行大数据分析,最终得出影响大学生出行旅游决策的规则以及各个影响因素对大学生出行旅游决策的影响程度。实验结果表明,决策树、随机森林预测模型效果良好,可作为判断影响大学生旅游决策的主要因素的算法模型,由此可以为帮助政府、高校合理引导大学生出行旅游提出建议以及帮助旅游行业从业人员在行业中建立更好的立足点,提供有价值的参考。
关键词:大数据挖掘;旅游;决策
Tourism analysis based on Big Data Mining
Abstract
With the continuous progress and development of the national economy, tourism has gradually become the main form of people’s leisure and entertainment.As a special consumer group, their consumer psychology in the tourism decision-making is widely valued by the tourism industry practitioners.At the same time, the rapid development of the Internet has promoted the explosion of network information, and produced a large number of big data that can be widely used. How to convert these big data into useful information and knowledge depends on the help of big data mining technology.This study will use big data mining technology to analyze the degree of college students affected by the main factors when making tourism decisions, and thus put forward reasonable suggestions for the government, universities and tourism practitioners.
For this topic, this study obtained big data sources through a questionnaire survey of college students in Guiyang, and used SPSS software to test the reliability and validity of the questionnaire.Eight explanatory variables and one target variable were identified by principal component analysis.Using R language tool modeling, the study using decision tree, random forest algorithm to establish the relationship between target variables and explanatory variables, and establish a relevant model to obtain the college students travel factors big data analysis, finally get the influence of college students travel decision rules and the influence of college students travel decisions.Experimental results show that the decision tree, random forest prediction model has good effect, can be used as the main factors affecting college students travel decision algorithm model, which can help the government, colleges and universities to guide college students travel travel and help tourism industry practitioners to establish a better foothold in the industry, provide valuable reference.
Key words: big data mining; tourism; decision-making
第一章 绪论
本文运用决策树、随机森两种算法,对大学生出行旅游决策心理进行研究分析,将研究背景与问题提出、研究目的与意义、研究软件、研究创新点以及文章结构作为绪论部分所要表述的内容。
1.1 研究背景
近年来,我国的旅游产业呈现出较快的发展势头。第三产业中,旅游业扮演者非常重要的角色,它有力地促进着我国经济的全面发展,旅游行业逐渐成为我国经济支柱产业之一,很多省市都在把发展重心向旅游产业转移。
在旅游群体当中,大学生是整个旅游市场的一个重要而又独立的组成部分。大学生作为社会的一个特殊群体,具有一定的经济独立能力和自我生活能力,有相对宽松的时间,具有更多的冒险精神和追梦遐想,这些促成了大学生旅游热。因此,大学生作为一支旅游生力军的地位确实不容忽视。2020年疫情袭来,全球受到疫情的影响,各行各业或多或少的受到了疫情的影响,旅游业更甚,而旅游业在这种情况下,要如何更好地进行面对大学生群体的发展,势在必行。
近年来随着我国经济飞速发展,旅游业发展成为国内学术界探讨的热点话题之一。旅游业不断地细分目标市场,让大学生这一特殊群体在行业内成为了一块重要的消费人群。通过查阅相关文献后发现,对于出行旅游方面较多是围绕在旅游出行现状、旅游出行体验等方面进行研究,而对旅游决策的影响因素研究比较欠缺。本文以大学生为对象,对其旅游决策的影响因素进行实证分析,希望能补充这块研究欠缺,为以后更深入的研究提供一定参考借鉴。
1.2 研究目的
本研究针对大学生旅游决策的影响因素进行分析,通过问卷调查收集到的大数据作为分析大数据来源,并结合大数据挖掘技术的决策树、随机森林,深入了解大学生出行旅游决策的心理过程,进而找出影响大学生旅游决策的主要影响因素,并在其研究结果之上进行分析、讨论,希望能够为旅游行业从业者和经营者提供有价值的参考。
1.3 国内研究现状
刘小嵌(2017)通过问卷调查的方式深入了解了年轻旅游者这一不断壮大的特殊群体的决策心理过程,分析出旅游企业需要为其提供心之所向的体验服务产品,真正做到满足这一特定游客群体的个性化需求[2]。赵鹏(2012)构建了大学生旅游消费行为影响因素模型,通过验证假设,发现出行前旅游决策、对旅游目的地的感知、旅游动机三者与旅游目的地的选择都显著相关[3]。郑海青(2017)利用基于Scrapy框架的网络爬虫技术和基于Beautiful Soup的网页信息提取技术,从马蜂窝旅游网抓取了景点大数据结合问卷调查的方式,使用了结合了贝叶斯分类推荐和关联规则推荐的混合推荐算法具有较好的推荐准确率和覆盖度,能够满足对用户对景点推荐的需求[4]。
目前国内学者对于大学生旅游决策影响因素分析的研究相对较少,且主要是通过问卷调查的形式,研究方法大多是采用简单的描述性统计分析和回归分析方法为主。本文将引入大数据挖掘算法(决策树、随机森林)来分析大学生旅游决策影响因素,希望能增补大学生旅游决策影响因素分析的研究方法。
1.4 研究工具与方法
本文将使用决策树及随机森林两种算法作为基础算法,并以此来确定大学生旅游决策影响因素的影响大小。决策树是用二叉树形图来表示处理逻辑的一种工具。可以直观、清晰地表达加工的逻辑要求。特别适合于判断因素比较少、逻辑组合关系不复杂的情况。随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
第二章 大数据挖掘概述
2.1 大数据挖掘定义
大数据挖掘出现在20世纪90年代,近年来,大数据挖掘引起了信息产业界的极大关注,并且得到了迅猛的发张,已然成为大大数据时代中各行各业中的一大热点。所谓大数据挖掘技术是指从大型大数据库中揭示出隐含的、有噪声的、随机的、先前未知的并具有潜在价值信息的非平凡过程[5]。通过大数据筛选和大数据预处理,帮助决策者分析历史大数据以及当前大数据,高度自动化地分析原有的大数据进行归纳性推理[6]。
2.2 大数据挖掘方法
大数据挖掘分为有指导的大数据挖掘和无指导的大数据挖掘。有指导的大数据挖掘是利用可用的大数据建立一个模型,这个模型是对一个特定属性的描述。无指导的大数据挖掘是在所有的属性中寻找某种关系。具体而言,分类、估值和预测属于有指导的大数据挖掘;关联规则和聚类属于无指导的大数据挖掘。(1)分类,它首先从大数据中选出已经分好类的训练集,在该训练集上运用大数据挖掘技术,建立一个分类模型,再将该模型用于对没有分类的大数据进行分类,。(2)估值,估值与分类类似,但估值最终的输出结果是连续型的数值,估值的量并非预先确定。估值可以作为分类的准备工作。(3)预测,它是通过分类或估值来进行,通过分类或估值的训练得出一个模型,如果对于检验样本组而言该模型具有较高的准确率,可将该模型用于对新样本的未知变量进行预测。(4)相关性分组或关联规则,其目的是发现哪些事情总是一起发生。(5)聚类,它是自动寻找并建立分组规则的方法,它通过判断样本之间的相似性,把相似样本划分在一个簇中[7]。
2.3 大数据挖掘流程
大数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的大数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。有以下基本流程:
(1)明确目标,在实施大数据挖掘之前,须明确通过大数据挖掘去解决什么样的问题。
(2)大数据搜集,当明确了目标后,需要去搜集大数据,搜集的大数据即可以影响到这些问题的解决办法,大数据搜集决定了后期工作进程的顺利程度。
(3)大数据清洗,搜集到的大数据来源是复杂混乱的,必须保证大数据的“干净”,因为大数据的质量高低将会影响最终结果的准确性。
(4)构建模型,在保证大数据“干净”的前提下,需要考虑以什么样的模型能进行建模,以确保更好的解决问题,。
(5)模型评估,从已建的模型中挑选出最佳的模型,主要目的就是让这个最佳的模型能够更好地反映大数据的真实性。
(6)应用部署,把从大数据挖掘中得到的规律运用到实际问题中去。
第三章 大数据挖掘方法概述
3.1 决策树算法
决策树(Decision Tree,DT)算法是一种经典的大数据挖掘算法,是目前应用最为广泛的归纳推理算法之一,在大数据挖掘中受到研究者的广泛关注[8]。目前,决策树算法主要分为分类与回归树算法(Classification and Regression Tree,CART)、ID3算法、C4.5算法[9]。算法不一样,随之对应的衡量标准也不同[10]。
本文采用分类与回归树(Classification and Regression Tree,CART)来进行分类问题的研究并建立分类决策树。CART分类决策树算法主要通过递归地构建二叉树[11]。使用基尼系数(Gini)选择特征,基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好[12]。
假设样本集为 ,
类别集为 ,其中每个类对应的一个样本子集。样本集中属于类 的概率为 时,那么概率分布的Gini为:
(3-1)
可推断出,如果决策树拥有两个属性,使用特征将A划分为两部分,即划分为(满足 的样本集合),(不满足的样本集合),那么将有:
(3-2)
决策树的结果直观、明确、易懂。决策树的每个分支决策树在建立过程中会建立一个树状的结构,其结构由根节点、子节点、叶节点组成,每个分支代表预测的方向,叶节点代表着最终的预测结果[13]。如图3-1为决策树的树状结构图。
图3-1决策树的树状结构图
在决策树中复杂性参数CP和最小分支节点数M是十分重要的两个参数,决定着分类准确率的好坏。决策树生成过程中,建立不同的分枝,需要考虑到子节点上如何选择度量和评估要素的属性,随后使用不一样的度量值来确定。每个子节点都需要不断重复以上的过程,一直到最终达到规定的预设条件才可以停止。当出现属性的变量不能够再继续进行分割,或者每个训练集都归到了同一个分类上,再或者树的深度已经超过了预设值(复杂性参数CP和最小分支节点数M)的情况出现时,就可以停止。
3.2 随机森林算法
随机森林(Random Forest,RF)算法模型是在决策树算法的基础上形成的,由众多的决策树构成,但其每个决策树之间都不存在关联性[14]。每当遇到要判断样本时,主要根据遵循可放回的原则,将所抽到的大数据样本放置到决策树的根节点上,以确保树与树之间是相互独立的关系。随后,由决策树依据属性类别进行“投票”,并形成相应结果,得出最优分类结果[15]。
随机森林算法主要有以下四个步骤[16]:
步骤1:在最开始的训练集为A的情况下,基于Bootstrap方法,采用带有替换的再抽样模型,先在里面抽取一个样本集n,接着,重构n棵分类树。这里面,每个样本都包含了k个属性。
步骤2:对样本进行随机的选择,先挑出k个属性特征,再挑出里面的s个属性,要求s<k。随后检查每个分类点,确定阈值,最终选择的属性是在s个属性中分类能力最强的。
步骤3:不对决策树的生长过程进行修剪。
步骤4:终极预测值实行的方式是“投票”,当样本进入随机森林后,各决策树会进行确定和过滤,并利用分类器进行相应“投票”,最终“投票”票数多的获胜,该结果就是最终预测结果。
随机森林的算法步骤如图3-2所示:
图3-2随机森林步骤
第四章 基于大数据挖掘的大学生旅游决策影响因素分析
4.1 大数据准备
本研究采用电子问卷调查方式,为确保问卷最终的合理性,在正式发放,先进行了问卷预测试,测试通过后再进行正式问卷的分发。正式问卷共收回大数据12