从csv文件构建Tensorflow的数据集
当我们有一系列CSV文件,如何构建Tensorflow的数据集呢"htmlcode">
pprint.pprint(train_filenames) # ['generate_csv\\train_00.csv', # 'generate_csv\\train_01.csv', # 'generate_csv\\train_02.csv', # 'generate_csv\\train_03.csv', # 'generate_csv\\train_04.csv', # 'generate_csv\\train_05.csv', # 'generate_csv\\train_06.csv', # 'generate_csv\\train_07.csv', # 'generate_csv\\train_08.csv', # 'generate_csv\\train_09.csv', # 'generate_csv\\train_10.csv', # 'generate_csv\\train_11.csv', # 'generate_csv\\train_12.csv', # 'generate_csv\\train_13.csv', # 'generate_csv\\train_14.csv', # 'generate_csv\\train_15.csv', # 'generate_csv\\train_16.csv', # 'generate_csv\\train_17.csv', # 'generate_csv\\train_18.csv', # 'generate_csv\\train_19.csv']
接着,我们用提前定义好的API构建文件名数据集file_dataset
filename_dataset = tf.data.Dataset.list_files(train_filenames) for filename in filename_dataset: print(filename) #tf.Tensor(b'generate_csv\\train_09.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_19.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_03.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_01.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_14.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_17.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_15.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_06.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_05.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_07.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_11.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_02.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_12.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_13.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_10.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_16.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_18.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_00.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_04.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_08.csv', shape=(), dtype=string)
第三步, 根据每个文件名,去读取文件里面的内容
dataset = filename_dataset.interleave( lambda filename: tf.data.TextLineDataset(filename).skip(1), cycle_length=5 ) for line in dataset.take(3): print(line) #tf.Tensor(b'0.46908349737250216,1.8718193706428006,0.13936365871212536,-0.011055733363841472,-0.6349261778219746,-0.036732316700563934,1.0259470089944995,-1.319095600336748,2.171', shape=(), dtype=string) #tf.Tensor(b'-1.102093775650278,1.313248890578542,-0.7212003024178728,-0.14707856286537277,0.34720121604358517,0.0965085401826684,-0.74698820254838,0.6810563907247876,1.428', shape=(), dtype=string) #tf.Tensor(b'-0.8901003715328659,0.9142699762469286,-0.1851678950250224,-0.12947457252940406,0.5958187430364827,-0.021255215877779534,0.7914317693724252,-0.45618713536506217,0.75', shape=(), dtype=string)
interleave的作用可以类比map, 对每个元素应用操作,然后还能把结果合起来。
因此,有了interleave, 我们就把第三四步,一起完成了
之所以skip(1),是因为这个csv第一行是header.
cycle_length是并行化构建数据集的线程数
好,第五步,解析每条记录
def parse_csv_line(line, n_fields=9): defaults = [tf.constant(np.nan)] * n_fields parsed_fields = tf.io.decode_csv(line, record_defaults=defaults) x = tf.stack(parsed_fields[:-1]) y = tf.stack(parsed_fields[-1:]) return x, y parse_csv_line('1.2286258796252256,-1.0806245954111382,0.4444161407754224,-0.0352172575329119,0.9740347681426992,-0.003516079473801425,-0.8126524696425611,0.865609068204283,2.803', 9) #(<tf.Tensor: shape=(8,), dtype=float32, numpy= array([ 1.2286259 , -1.0806246 , 0.44441614, -0.03521726, 0.9740348 ,-0.00351608, -0.81265247, 0.86560905], dtype=float32)>,<tf.Tensor: shape=(1,), dtype=float32, numpy=array([2.803], dtype=float32)>)
最后,将每条记录都应用这个方法,就完成了构建。
dataset = dataset.map(parse_csv_line)
完整代码
def csv_2_dataset(filenames, n_readers_thread = 5, batch_size = 32, n_parse_thread = 5, shuffle_buffer_size = 10000): dataset = tf.data.Dataset.list_files(filenames) dataset = dataset.repeat() dataset = dataset.interleave( lambda filename: tf.data.TextLineDataset(filename).skip(1), cycle_length=n_readers_thread ) dataset.shuffle(shuffle_buffer_size) dataset = dataset.map(parse_csv_line, num_parallel_calls = n_parse_thread) dataset = dataset.batch(batch_size) return dataset
如何使用
train_dataset = csv_2_dataset(train_filenames, batch_size=32) valid_dataset = csv_2_dataset(valid_filenames, batch_size=32) model = ... model.fit(train_set, validation_data=valid_set, steps_per_epoch = 11610 // 32, validation_steps = 3870 // 32, epochs=100, callbacks=callbacks)
这里的11610 和 3870是什么?
这是train_dataset 和 valid_dataset中数据的数量,需要在训练中手动指定每个batch中参与训练的数据的多少。
model.evaluate(test_set, steps=5160//32)
同理,测试的时候,使用这样的数据集,也需要手动指定。
5160是测试数据集的总量。
以上就是如何从csv文件构建Tensorflow的数据集的详细内容,更多关于csv文件构建Tensorflow的数据集的资料请关注其它相关文章!
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
- 【雨果唱片】中国管弦乐《鹿回头》WAV
- APM亚流新世代《一起冒险》[FLAC/分轨][106.77MB]
- 崔健《飞狗》律冻文化[WAV+CUE][1.1G]
- 罗志祥《舞状元 (Explicit)》[320K/MP3][66.77MB]
- 尤雅.1997-幽雅精粹2CD【南方】【WAV+CUE】
- 张惠妹.2007-STAR(引进版)【EMI百代】【WAV+CUE】
- 群星.2008-LOVE情歌集VOL.8【正东】【WAV+CUE】
- 罗志祥《舞状元 (Explicit)》[FLAC/分轨][360.76MB]
- Tank《我不伟大,至少我能改变我。》[320K/MP3][160.41MB]
- Tank《我不伟大,至少我能改变我。》[FLAC/分轨][236.89MB]
- CD圣经推荐-夏韶声《谙2》SACD-ISO
- 钟镇涛-《百分百钟镇涛》首批限量版SACD-ISO
- 群星《继续微笑致敬许冠杰》[低速原抓WAV+CUE]
- 潘秀琼.2003-国语难忘金曲珍藏集【皇星全音】【WAV+CUE】
- 林东松.1997-2039玫瑰事件【宝丽金】【WAV+CUE】