神剑山庄资源网 Design By www.hcban.com
特点
- 这是分类算法贝叶斯算法的较为简单的一种,整个贝叶斯分类算法的核心就是在求解贝叶斯方程P(y|x)=[P(x|y)P(y)]/P(x)
- 而朴素贝叶斯算法就是在牺牲一定准确率的情况下强制特征x满足独立条件,求解P(x|y)就更为方便了
- 但基本上现实生活中,没有任何关系的两个特征几乎是不存在的,故朴素贝叶斯不适合那些关系密切的特征
from collections import defaultdict import numpy as np from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from loguru import logger class NaiveBayesScratch(): """朴素贝叶斯算法Scratch实现""" def __init__(self): # 存储先验概率 P(Y=ck) self._prior_prob = defaultdict(float) # 存储似然概率 P(X|Y=ck) self._likelihood = defaultdict(defaultdict) # 存储每个类别的样本在训练集中出现次数 self._ck_counter = defaultdict(float) # 存储每一个特征可能取值的个数 self._Sj = defaultdict(float) def fit(self, X, y): """ 模型训练,参数估计使用贝叶斯估计 X: 训练集,每一行表示一个样本,每一列表示一个特征或属性 y: 训练集标签 """ n_sample, n_feature = X.shape # 计算每个类别可能的取值以及每个类别样本个数 ck, num_ck = np.unique(y, return_counts=True) self._ck_counter = dict(zip(ck, num_ck)) for label, num_label in self._ck_counter.items(): # 计算先验概率,做了拉普拉斯平滑处理,即计算P(y) self._prior_prob[label] = (num_label + 1) / (n_sample + ck.shape[0]) # 记录每个类别样本对应的索引 ck_idx = [] for label in ck: label_idx = np.squeeze(np.argwhere(y == label)) ck_idx.append(label_idx) # 遍历每个类别 for label, idx in zip(ck, ck_idx): xdata = X[idx] # 记录该类别所有特征对应的概率 label_likelihood = defaultdict(defaultdict) # 遍历每个特征 for i in range(n_feature): # 记录该特征每个取值对应的概率 feature_val_prob = defaultdict(float) # 获取该列特征可能的取值和每个取值出现的次数 feature_val, feature_cnt = np.unique(xdata[:, i], return_counts=True) self._Sj[i] = feature_val.shape[0] feature_counter = dict(zip(feature_val, feature_cnt)) for fea_val, cnt in feature_counter.items(): # 计算该列特征每个取值的概率,做了拉普拉斯平滑,即为了计算P(x|y) feature_val_prob[fea_val] = (cnt + 1) / (self._ck_counter[label] + self._Sj[i]) label_likelihood[i] = feature_val_prob self._likelihood[label] = label_likelihood def predict(self, x): """ 输入样本,输出其类别,本质上是计算后验概率 **注意计算后验概率的时候对概率取对数**,概率连乘可能导致浮点数下溢,取对数将连乘转化为求和 """ # 保存分类到每个类别的后验概率,即计算P(y|x) post_prob = defaultdict(float) # 遍历每个类别计算后验概率 for label, label_likelihood in self._likelihood.items(): prob = np.log(self._prior_prob[label]) # 遍历样本每一维特征 for i, fea_val in enumerate(x): feature_val_prob = label_likelihood[i] # 如果该特征值出现在训练集中则直接获取概率 if fea_val in feature_val_prob: prob += np.log(feature_val_prob[fea_val]) else: # 如果该特征没有出现在训练集中则采用拉普拉斯平滑计算概率 laplace_prob = 1 / (self._ck_counter[label] + self._Sj[i]) prob += np.log(laplace_prob) post_prob[label] = prob prob_list = list(post_prob.items()) prob_list.sort(key=lambda v: v[1], reverse=True) # 返回后验概率最大的类别作为预测类别 return prob_list[0][0] def main(): X, y = load_iris(return_X_y=True) xtrain, xtest, ytrain, ytest = train_test_split(X, y, train_size=0.8, shuffle=True) model = NaiveBayesScratch() model.fit(xtrain, ytrain) n_test = xtest.shape[0] n_right = 0 for i in range(n_test): y_pred = model.predict(xtest[i]) if y_pred == ytest[i]: n_right += 1 else: logger.info("该样本真实标签为:{},但是Scratch模型预测标签为:{}".format(ytest[i], y_pred)) logger.info("Scratch模型在测试集上的准确率为:{}%".format(n_right * 100 / n_test)) if __name__ == "__main__": main()
以上就是python 实现朴素贝叶斯算法的示例的详细内容,更多关于python实现朴素贝叶斯算法的资料请关注其它相关文章!
神剑山庄资源网 Design By www.hcban.com
神剑山庄资源网
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
神剑山庄资源网 Design By www.hcban.com
暂无python 实现朴素贝叶斯算法的示例的评论...
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
2024年11月17日
2024年11月17日
- 【雨果唱片】中国管弦乐《鹿回头》WAV
- APM亚流新世代《一起冒险》[FLAC/分轨][106.77MB]
- 崔健《飞狗》律冻文化[WAV+CUE][1.1G]
- 罗志祥《舞状元 (Explicit)》[320K/MP3][66.77MB]
- 尤雅.1997-幽雅精粹2CD【南方】【WAV+CUE】
- 张惠妹.2007-STAR(引进版)【EMI百代】【WAV+CUE】
- 群星.2008-LOVE情歌集VOL.8【正东】【WAV+CUE】
- 罗志祥《舞状元 (Explicit)》[FLAC/分轨][360.76MB]
- Tank《我不伟大,至少我能改变我。》[320K/MP3][160.41MB]
- Tank《我不伟大,至少我能改变我。》[FLAC/分轨][236.89MB]
- CD圣经推荐-夏韶声《谙2》SACD-ISO
- 钟镇涛-《百分百钟镇涛》首批限量版SACD-ISO
- 群星《继续微笑致敬许冠杰》[低速原抓WAV+CUE]
- 潘秀琼.2003-国语难忘金曲珍藏集【皇星全音】【WAV+CUE】
- 林东松.1997-2039玫瑰事件【宝丽金】【WAV+CUE】