简单的LSTM问题,能够预测一句话的下一个字词是什么
固定长度的句子,一个句子有3个词。
使用one-hot编码
各种引用
import keras from keras.models import Sequential from keras.layers import LSTM, Dense, Dropout import numpy as np
数据预处理
data = 'abcdefghijklmnopqrstuvwxyz' data_set = set(data) word_2_int = {b:a for a,b in enumerate(data_set)} int_2_word = {a:b for a,b in enumerate(data_set)} word_len = len(data_set) print(word_2_int) print(int_2_word)
一些辅助函数
def words_2_ints(words): ints = [] for itmp in words: ints.append(word_2_int[itmp]) return ints print(words_2_ints('ab')) def words_2_one_hot(words, num_classes=word_len): return keras.utils.to_categorical(words_2_ints(words), num_classes=num_classes) print(words_2_one_hot('a')) def get_one_hot_max_idx(one_hot): idx_ = 0 max_ = 0 for i in range(len(one_hot)): if max_ < one_hot[i]: max_ = one_hot[i] idx_ = i return idx_ def one_hot_2_words(one_hot): tmp = [] for itmp in one_hot: tmp.append(int_2_word[get_one_hot_max_idx(itmp)]) return "".join(tmp) print( one_hot_2_words(words_2_one_hot('adhjlkw')) )
构造样本
time_step = 3 #一个句子有3个词 def genarate_data(batch_size=5, genarate_num=100): #genarate_num = -1 表示一直循环下去,genarate_num=1表示生成一个batch的数据,以此类推 #这里,我也不知道数据有多少,就这么循环的生成下去吧。 #入参batch_size 控制一个batch 有多少数据,也就是一次要yield进多少个batch_size的数据 ''' 例如,一个batch有batch_size=5个样本,那么对于这个例子,需要yield进的数据为: abc->d bcd->e cde->f def->g efg->h 然后把这些数据都转换成one-hot形式,最终数据,输入x的形式为: [第1个batch] [第2个batch] ... [第genarate_num个batch] 每个batch的形式为: [第1句话(如abc)] [第2句话(如bcd)] ... 每一句话的形式为: [第1个词的one-hot表示] [第2个词的one-hot表示] ... ''' cnt = 0 batch_x = [] batch_y = [] sample_num = 0 while(True): for i in range(len(data) - time_step): batch_x.append(words_2_one_hot(data[i : i+time_step])) batch_y.append(words_2_one_hot(data[i+time_step])[0]) #这里数据加[0],是为了符合keras的输出数据格式。 因为不加[0],表示是3维的数据。 你可以自己尝试不加0,看下面的test打印出来是什么 sample_num += 1 #print('sample num is :', sample_num) if len(batch_x) == batch_size: yield (np.array(batch_x), np.array(batch_y)) batch_x = [] batch_y = [] if genarate_num != -1: cnt += 1 if cnt == genarate_num: return for test in genarate_data(batch_size=3, genarate_num=1): print('--------x:') print(test[0]) print('--------y:') print(test[1])
搭建模型并训练
model = Sequential() # LSTM输出维度为 128 # input_shape控制输入数据的形态 # time_stemp表示一句话有多少个单词 # word_len 表示一个单词用多少维度表示,这里是26维 model.add(LSTM(128, input_shape=(time_step, word_len))) model.add(Dense(word_len, activation='softmax')) #输出用一个softmax,来分类,维度就是26,预测是哪一个字母 model.compile(loss='categorical_crossentropy', optimizer='rmsprop', metrics=['accuracy']) model.fit_generator(generator=genarate_data(batch_size=5, genarate_num=-1), epochs=50, steps_per_epoch=10) #steps_per_epoch的意思是,一个epoch中,执行多少个batch #batch_size是一个batch中,有多少个样本。 #所以,batch_size*steps_per_epoch就等于一个epoch中,训练的样本数量。(这个说法不对!再观察看看吧) #可以将epochs设置成1,或者2,然后在genarate_data中打印样本序号,观察到样本总数。
使用训练后的模型进行预测:
result = model.predict(np.array([words_2_one_hot('bcd')]))
print(one_hot_2_words(result))
可以看到,预测结果为
e
补充知识:训练集产生的onehot编码特征如何在测试集、预测集复现
数据处理中有时要用到onehot编码,如果使用pandas自带的get_dummies方法,训练集产生的onehot编码特征会跟测试集、预测集不一样,正确的方式是使用sklearn自带的OneHotEncoder。
代码
import pandas as pd from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncoder(handle_unknown='ignore') data_train=pd.DataFrame({'职业':['数据挖掘工程师','数据库开发工程师','数据分析师','数据分析师'], '籍贯':['福州','厦门','泉州','龙岩']}) ohe.fit(data_train)#训练规则 feature_names=ohe.get_feature_names(data_train.columns)#获取编码后的特征名 data_train_onehot=pd.DataFrame(ohe.transform(data_train).toarray(),columns=feature_names)#应用规则在训练集上 data_new=pd.DataFrame({'职业':['数据挖掘工程师','jave工程师'], '籍贯':['福州','莆田']}) data_new_onehot=pd.DataFrame(ohe.transform(data_new).toarray(),columns=feature_names)#应用规则在预测集上
以上这篇keras 简单 lstm实例(基于one-hot编码)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
- 【雨果唱片】中国管弦乐《鹿回头》WAV
- APM亚流新世代《一起冒险》[FLAC/分轨][106.77MB]
- 崔健《飞狗》律冻文化[WAV+CUE][1.1G]
- 罗志祥《舞状元 (Explicit)》[320K/MP3][66.77MB]
- 尤雅.1997-幽雅精粹2CD【南方】【WAV+CUE】
- 张惠妹.2007-STAR(引进版)【EMI百代】【WAV+CUE】
- 群星.2008-LOVE情歌集VOL.8【正东】【WAV+CUE】
- 罗志祥《舞状元 (Explicit)》[FLAC/分轨][360.76MB]
- Tank《我不伟大,至少我能改变我。》[320K/MP3][160.41MB]
- Tank《我不伟大,至少我能改变我。》[FLAC/分轨][236.89MB]
- CD圣经推荐-夏韶声《谙2》SACD-ISO
- 钟镇涛-《百分百钟镇涛》首批限量版SACD-ISO
- 群星《继续微笑致敬许冠杰》[低速原抓WAV+CUE]
- 潘秀琼.2003-国语难忘金曲珍藏集【皇星全音】【WAV+CUE】
- 林东松.1997-2039玫瑰事件【宝丽金】【WAV+CUE】