神剑山庄资源网 Design By www.hcban.com
废话真的一句也不想多说,直接看代码吧!
# -*- coding: utf-8 -*- import numpy from sklearn import metrics from sklearn.svm import LinearSVC from sklearn.naive_bayes import MultinomialNB from sklearn import linear_model from sklearn.datasets import load_iris from sklearn.cross_validation import train_test_split from sklearn.preprocessing import OneHotEncoder, StandardScaler from sklearn import cross_validation from sklearn import preprocessing import scipy as sp from sklearn.linear_model import LogisticRegression from sklearn.feature_selection import SelectKBest ,chi2 import pandas as pd from sklearn.preprocessing import OneHotEncoder #import iris_data ''' creativeID,userID,positionID,clickTime,conversionTime,connectionType, telecomsOperator,appPlatform,sitesetID,positionType,age,gender, education,marriageStatus,haveBaby,hometown,residence,appID,appCategory,label ''' def test(): df = pd.read_table("/var/lib/mysql-files/data1.csv", sep=",") df1 = df[["connectionType","telecomsOperator","appPlatform","sitesetID", "positionType","age","gender","education","marriageStatus", "haveBaby","hometown","residence","appCategory","label"]] print df1["label"].value_counts() N_data = df1[df1["label"]==0] P_data = df1[df1["label"]==1] N_data = N_data.sample(n=P_data.shape[0], frac=None, replace=False, weights=None, random_state=2, axis=0) #print df1.loc[:,"label"]==0 print P_data.shape print N_data.shape data = pd.concat([N_data,P_data]) print data.shape data = data.sample(frac=1).reset_index(drop=True) print data[["label"]] return
补充拓展:pandas实现对dataframe抽样
随机抽样
import pandas as pd #对dataframe随机抽取2000个样本 pd.sample(df, n=2000)
分层抽样
利用sklean中的函数灵活进行抽样
from sklearn.model_selection import train_test_split #y是在X中的某一个属性列 X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)
以上这篇python使用pandas抽样训练数据中某个类别实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
神剑山庄资源网 Design By www.hcban.com
神剑山庄资源网
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
神剑山庄资源网 Design By www.hcban.com
暂无python使用pandas抽样训练数据中某个类别实例的评论...
更新日志
2024年09月30日
2024年09月30日
- 孙悦.1996-伙伴【正大国际】【WAV+CUE】
- 纪钧瀚《钢琴阅读时光 雨中书店聆听轻音乐》[FLAC/分轨][399.62MB]
- 证声音乐图书馆《走向自然 疗心爵士乐》[320K/MP3][87.4MB]
- 证声音乐图书馆《走向自然 疗心爵士乐》[FLAC/分轨][184.94MB]
- 陈慧娴.2018-Priscilla-Ism演唱会3CD(2024环球红馆40复刻系列)【环球】【WAV+CUE】
- 郑秀文.1999-我应该得到(国)【华纳】【WAV+CUE】
- 陈家慧.2011-钢琴酒吧2CD【龙吟唱片】【WAV+CUE】
- 证声音乐图书馆《雨季 蓝调吉他 Rainy Blues》[320K/MP3][45.01MB]
- 证声音乐图书馆《雨季 蓝调吉他 Rainy Blues》[FLAC/分轨][109.13MB]
- 赞多《序章》[320K/MP3][45.54MB]
- 许巍.2004-每一刻都是崭新的【步升大风】【WAV+CUE】
- 群星.2024-四方馆影视原声带【韶愔音乐】【FLAC分轨】
- 陈雷.1997-安锁咧【金圆唱片】【WAV+CUE】
- 关淑怡.2013-MY.FAVORITE.SK.3CD【环球】【WAV+CUE】
- Sweety.2006-花言乔语【丰华】【WAV+CUE】