大数据预测是大数据最核心的应用,是它将传统意义的预测拓展到“现测”。大数据预测的优势体现在,它把一个非常困难的预测问题,转化为一个相对简单的描述问题,而这是传统小数据集根本无法企及的。从预测的角度看,大数据预测所得出的结果不仅仅是用于处理现实业务的简单、客观的结论,更是能用于帮助企业经营的决策。
在过去,人们的决策主要是依赖 20% 的结构化数据,而大数据预测则可以利用另外 80% 的非结构化数据来做决策。大数据预测具有更多的数据维度,更快的数据频度和更广的数据宽度。与小数据时代相比,大数据预测的思维具有 3 大改变:实样而非抽样;预测效率而非精确;相关关系而非因果关系。
而今天我们就将利用python制作可视化的大数据预测部分集成工具,其中数据在这里使用一个实验中的数据。普遍性的应用则直接从文件读取即可。其中的效果图如下:
实验前的准备
首先我们使用的python版本是3.6.5所用到的模块如下:
- sklearn模块用来创建整个模型训练和保存调用以及算法的搭建框架等等。
- numpy模块用来处理数据矩阵运算。
- matplotlib模块用来可视化拟合模型效果。
- Pillow库用来加载图片至GUI界面。
- Pandas模块用来读取csv数据文件。
- Tkinter用来创建GUI窗口程序。
数据的训练和训练的GUI窗口
经过算法比较,发现这里我们选择使用sklearn简单的多元回归进行拟合数据可以达到比较好的效果。
(1)首先是是数据的读取,通过设定选定文件夹函数来读取文件,加载数据的效果:
'''选择文件功能''' def selectPath(): # 选择文件path_接收文件地址 path_ =tkinter.filedialog.askopenfilename() # 通过replace函数替换绝对文件地址中的/来使文件可被程序读取 # 注意:\\转义后为\,所以\\\\转义后为\\ path_ =path_.replace("/", "\\\\") # path设置path_的值 path.set(path_) return path # 得到的DataFrame读入所有数据 data = pd.read_excel(FILENAME, header=0, usecols="A,B,C,D,E,F,G,H,I") # DataFrame转化为array DataArray = data.values # 读取已使用年限作为标签 Y = DataArray[:, 8] # 读取其他参数作为自变量,影响因素 X = DataArray[:, 0:8] # 字符串转变为整数 for i in range(len(Y)): Y[i] = int(Y[i].replace("年", "")) X = np.array(X) # 转化为array Y = np.array(Y) # 转化为array root = Tk() root.geometry("+500+260") # 背景图设置 canvas = tk.Canvas(root, width=600, height=200, bd=0, highlightthickness=0) imgpath = '1.jpg' img = Image.open(imgpath) photo = ImageTk.PhotoImage(img) #背景图大小设置 canvas.create_image(700, 400, image=photo) canvas.pack() path = StringVar() #标签名称位置 label1=tk.Label(text = "目标路径:") label1.pack() e1=tk.Entry( textvariable = path) e1.pack() bn1=tk.Button(text = "路径选择", command = selectPath) bn1.pack() bn2=tk.Button(text = "模型训练", command = train) bn2.pack() bn3=tk.Button(text = "模型预测", command = test) bn3.pack() #标签按钮等放在背景图上 canvas.create_window(50, 50, width=150, height=30, window=label1) canvas.create_window(280, 50, width=300, height=30, window=e1) canvas.create_window(510, 50, width=150, height=30, window=bn1) canvas.create_window(50, 100, width=150, height=30, window=bn2) canvas.create_window(510, 100, width=150, height=30, window=bn3) root.mainloop()
效果如下可见:
(2)然后是数据的拟合和可视化模型效果:
# 模型拟合 reg = LinearRegression() reg.fit(X, Y) # 预测效果 predict = reg.predict(np.array([X[0]])) Y_predict = reg.predict(X) print(Y_predict) # 横坐标 x_label = [] for i in range(len(Y)): x_label.append(i) # 绘图 fig, ax = plt.subplots() # 真实值分布散点图 plt.scatter(x_label, Y) # 预测值分布散点图 plt.scatter(x_label, Y_predict) # 预测值拟合直线图 plt.plot(x_label, Y_predict) # 横纵坐标 ax.set_xlabel('预测值与真实值模型拟合效果图') ax.set_ylabel('蓝色为真实值,黄色为预测值') # 将绘制的图形显示到tkinter:创建属于root的canvas画布,并将图f置于画布上 canvas = FigureCanvasTkAgg(fig, master=root) canvas.draw() # 注意show方法已经过时了,这里改用draw canvas.get_tk_widget().pack() # matplotlib的导航工具栏显示上来(默认是不会显示它的) toolbar = NavigationToolbar2Tk(canvas, root) toolbar.update() canvas._tkcanvas.pack() #弹窗显示 messagebox.showinfo(title='模型情况', message="模型训练完成!") 其中的效果如下可见:
其中的效果如下可见:
模型的预测和使用
其中模型的预测主要通过两种方式进行预测,分别是:手动输入单个数据进行预测和读取文件进行预测。
其中手动输入数据进行预测需要设置更多的GUI按钮,其中代码如下:
#子窗口 LOVE = Toplevel(root) LOVE.geometry("+100+260") LOVE.title = "模型测试" #子窗口各标签名 label = ["上升沿斜率(v/us)", "下降沿斜率(v/us)", "脉宽(ns)", "低状态电平(mv)", "低电平方差(mv2)x10-3", "高状态电平(v)", "高电平方差(v2)", "信号质量因子"] Label(LOVE, text="1、输入参数预测", font=("微软雅黑", 20)).grid(row=0, column=0) #标签名称,字体位置 Label(LOVE, text=label[0], font=("微软雅黑",10)).grid(row=1, column=0) Label(LOVE, text=label[1], font=("微软雅黑", 10)).grid(row=1, column=1) Label(LOVE, text=label[2], font=("微软雅黑", 10)).grid(row=1, column=2) Label(LOVE, text=label[3], font=("微软雅黑", 10)).grid(row=1, column=3) Label(LOVE, text=label[4], font=("微软雅黑", 10)).grid(row=1, column=4) Label(LOVE, text=label[5], font=("微软雅黑", 10)).grid(row=1, column=5) Label(LOVE, text=label[6], font=("微软雅黑", 10)).grid(row=1, column=6) Label(LOVE, text=label[7], font=("微软雅黑", 10)).grid(row=1, column=7) #编辑框位置和字体 en1=tk.Entry(LOVE, font=("微软雅黑", 8)) en1.grid(row=2, column=0) en2=tk.Entry(LOVE, font=("微软雅黑", 8)) en2.grid(row=2, column=1) en3=tk.Entry(LOVE, font=("微软雅黑", 8)) en3.grid(row=2, column=2) en4=tk.Entry(LOVE, font=("微软雅黑", 8)) en4.grid(row=2, column=3) en5=tk.Entry(LOVE, font=("微软雅黑", 8)) en5.grid(row=2, column=4) en6=tk.Entry(LOVE, font=("微软雅黑", 8)) en6.grid(row=2, column=5) en7=tk.Entry(LOVE, font=("微软雅黑", 8)) en7.grid(row=2, column=6) en8=tk.Entry(LOVE, font=("微软雅黑", 8)) en8.grid(row=2, column=7) Label(LOVE, text="", font=("微软雅黑", 10)).grid(row=3, column=0) #测试输入框预测 def pp(): x=np.array([int(en1.get()),int(en2.get()),int(en3.get()),int(en4.get()),int(en5.get()),int(en6.get()),int(en7.get()),int(en8.get())]) # 预测效果 predict = reg.predict(np.array([x])) Label(LOVE, text="预测结果已使用年数为:"+str(predict[0])+"年", font=("微软雅黑", 10)).grid(row=4, column=3) print(predict) Button(LOVE, text="预测:", font=("微软雅黑", 15),command=pp).grid(row=4, column=0) Label(LOVE, text="2、选择文件预测", font=("微软雅黑", 20)).grid(row=5, column=0) path1 = StringVar() label1 = tk.Label(LOVE,text="目标路径:", font=("微软雅黑", 10)) label1.grid(row=6, column=0) e1 = tk.Entry(LOVE,textvariable=path1, font=("微软雅黑", 10)) e1.grid(row=6, column=2) label = ["上升沿斜率(v/us)", "下降沿斜率(v/us)", "脉宽(ns)", "低状态电平(mv)", "低电平方差(mv2)x10-3", "高状态电平(v)", "高电平方差(v2)", "信号质量因子"] n = 0 for i in predict_value: print(str(label) + "分别为" + str(X[n]) + "预测出来的结果为:" + str(i) + "年" + "\n") f = open("预测结果.txt", "a") f.write(str(label) + "分别为" + str(X[n]) + "预测出来的结果为:" + str(i) + "年" + "\n") f.close() f = open("result.txt", "a") f.write(str(i) + "\n") f.close() n += 1 messagebox.showinfo(title='模型情况', message="预测结果保存在当前文件夹下的TXT文件中!") os.system("result.txt") os.system("预测结果.txt") Button(LOVE, text="预测:", font=("微软雅黑", 15), command=ppt).grid(row=7, column=0)
效果如下可见:
选择文件进行读取预测和模型训练数据的读取类似,代码如下:
#选择文件预测 def selectPath1(): # 选择文件path_接收文件地址 path_ =tkinter.filedialog.askopenfilename() # 通过replace函数替换绝对文件地址中的/来使文件可被程序读取 # 注意:\\转义后为\,所以\\\\转义后为\\ path_ =path_.replace("/", "\\\\") # path设置path_的值 path1.set(path_) return path bn1 = tk.Button(LOVE,text="路径选择", font=("微软雅黑", 10), command=selectPath1) bn1.grid(row=6, column=6) def ppt(): try: os.remove("预测结果.txt") os.remove("result.txt") except: pass # 文件的名字 FILENAME =path1.get() # 禁用科学计数法 pd.set_option('float_format', lambda x: '%.3f' % x) np.set_printoptions(threshold=np.inf) # 得到的DataFrame读入所有数据 data =pd.read_excel(FILENAME, header=0, usecols="A,B,C,D,E,F,G,H") # DataFrame转化为array DataArray =data.values # 读取其他参数作为自变量,影响因素 X = DataArray[:,0:8] predict_value = reg.predict(X) print(predict_value)
效果如下:
由于读取文件进行预测的话,数据较多故直接存储在TXT中方便查看
以上就是Python制作数据预测集成工具(值得收藏)的详细内容,更多关于python 数据预测的资料请关注其它相关文章!
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
- 【雨果唱片】中国管弦乐《鹿回头》WAV
- APM亚流新世代《一起冒险》[FLAC/分轨][106.77MB]
- 崔健《飞狗》律冻文化[WAV+CUE][1.1G]
- 罗志祥《舞状元 (Explicit)》[320K/MP3][66.77MB]
- 尤雅.1997-幽雅精粹2CD【南方】【WAV+CUE】
- 张惠妹.2007-STAR(引进版)【EMI百代】【WAV+CUE】
- 群星.2008-LOVE情歌集VOL.8【正东】【WAV+CUE】
- 罗志祥《舞状元 (Explicit)》[FLAC/分轨][360.76MB]
- Tank《我不伟大,至少我能改变我。》[320K/MP3][160.41MB]
- Tank《我不伟大,至少我能改变我。》[FLAC/分轨][236.89MB]
- CD圣经推荐-夏韶声《谙2》SACD-ISO
- 钟镇涛-《百分百钟镇涛》首批限量版SACD-ISO
- 群星《继续微笑致敬许冠杰》[低速原抓WAV+CUE]
- 潘秀琼.2003-国语难忘金曲珍藏集【皇星全音】【WAV+CUE】
- 林东松.1997-2039玫瑰事件【宝丽金】【WAV+CUE】