朴素贝叶斯估计
朴素贝叶斯是基于贝叶斯定理与特征条件独立分布假设的分类方法。首先根据特征条件独立的假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
具体的,根据训练数据集,学习先验概率的极大似然估计分布
以及条件概率为
条件概率的极大似然估计为
根据贝叶斯定理
则由上式可以得到条件概率P(Y=ck|X=x)。
贝叶斯估计
用极大似然估计可能会出现所估计的概率为0的情况。后影响到后验概率结果的计算,使分类产生偏差。采用如下方法解决。
条件概率的贝叶斯改
其中Sl表示第l个特征可能取值的个数。
同样,先验概率的贝叶斯估计改为
$$
P(Y=c_k) = \frac{\sum\limits_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}
$K$
表示Y的所有可能取值的个数,即类型的个数。
具体意义是,给每种可能初始化出现次数为1,保证每种可能都出现过一次,来解决估计为0的情况。
朴素贝叶斯分类器可以给出一个最有结果的猜测值,并给出估计概率。通常用于文本分类。
分类核心思想为选择概率最大的类别。贝叶斯公式如下:
词条:将每个词出现的次数作为特征。
假设每个特征相互独立,即每个词相互独立,不相关。则
完整代码如下;
import numpy as np
import re
import feedparser
import operator
def loadDataSet():
postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
['stop', 'posting', 'stupid', 'worthless', 'garbage'],
['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
classVec = [0,1,0,1,0,1] #1 is abusive, 0 not
return postingList,classVec
def createVocabList(data): #创建词向量
returnList = set([])
for subdata in data:
returnList = returnList | set(subdata)
return list(returnList)
def setofWords2Vec(vocabList,data): #将文本转化为词条
returnList = [0]*len(vocabList)
for vocab in data:
if vocab in vocabList:
returnList[vocabList.index(vocab)] += 1
return returnList
def trainNB0(trainMatrix,trainCategory): #训练,得到分类概率
pAbusive = sum(trainCategory)/len(trainCategory)
p1num = np.ones(len(trainMatrix[0]))
p0num = np.ones(len(trainMatrix[0]))
p1Denom = 2
p0Denom = 2
for i in range(len(trainCategory)):
if trainCategory[i] == 1:
p1num = p1num + trainMatrix[i]
p1Denom = p1Denom + sum(trainMatrix[i])
else:
p0num = p0num + trainMatrix[i]
p0Denom = p0Denom + sum(trainMatrix[i])
p1Vect = np.log(p1num/p1Denom)
p0Vect = np.log(p0num/p0Denom)
return p0Vect,p1Vect,pAbusive
def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1): #分类
p0 = sum(vec2Classify*p0Vec)+np.log(1-pClass1)
p1 = sum(vec2Classify*p1Vec)+np.log(pClass1)
if p1 > p0:
return 1
else:
return 0
def textParse(bigString): #文本解析
splitdata = re.split(r'\W+',bigString)
splitdata = [token.lower() for token in splitdata if len(token) > 2]
return splitdata
def spamTest():
docList = []
classList = []
for i in range(1,26):
with open('spam/%d.txt'%i) as f:
doc = f.read()
docList.append(doc)
classList.append(1)
with open('ham/%d.txt'%i) as f:
doc = f.read()
docList.append(doc)
classList.append(0)
vocalList = createVocabList(docList)
trainList = list(range(50))
testList = []
for i in range(13):
num = int(np.random.uniform(0,len(docList))-10)
testList.append(trainList[num])
del(trainList[num])
docMatrix = []
docClass = []
for i in trainList:
subVec = setofWords2Vec(vocalList,docList[i])
docMatrix.append(subVec)
docClass.append(classList[i])
p0v,p1v,pAb = trainNB0(docMatrix,docClass)
errorCount = 0
for i in testList:
subVec = setofWords2Vec(vocalList,docList[i])
if classList[i] != classifyNB(subVec,p0v,p1v,pAb):
errorCount += 1
return errorCount/len(testList)
def calcMostFreq(vocabList,fullText):
count = {}
for vocab in vocabList:
count[vocab] = fullText.count(vocab)
sortedFreq = sorted(count.items(),key=operator.itemgetter(1),reverse=True)
return sortedFreq[:30]
def localWords(feed1,feed0):
docList = []
classList = []
fullText = []
numList = min(len(feed1['entries']),len(feed0['entries']))
for i in range(numList):
doc1 = feed1['entries'][i]['summary']
docList.append(doc1)
classList.append(1)
fullText.extend(doc1)
doc0 = feed0['entries'][i]['summary']
docList.append(doc0)
classList.append(0)
fullText.extend(doc0)
vocabList = createVocabList(docList)
top30Words = calcMostFreq(vocabList,fullText)
for word in top30Words:
if word[0] in vocabList:
vocabList.remove(word[0])
trainingSet = list(range(2*numList))
testSet = []
for i in range(20):
randnum = int(np.random.uniform(0,len(trainingSet)-5))
testSet.append(trainingSet[randnum])
del(trainingSet[randnum])
trainMat = []
trainClass = []
for i in trainingSet:
trainClass.append(classList[i])
trainMat.append(setofWords2Vec(vocabList,docList[i]))
p0V,p1V,pSpam = trainNB0(trainMat,trainClass)
errCount = 0
for i in testSet:
testData = setofWords2Vec(vocabList,docList[i])
if classList[i] != classifyNB(testData,p0V,p1V,pSpam):
errCount += 1
return errCount/len(testData)
if __name__=="__main__":
ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')
sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')
print(localWords(ny,sf))
编程技巧:
1.两个集合的并集
vocab = vocab | set(document)
2.创建元素全为零的向量
vec = [0]*10
以上就是本文的全部内容,希望对大家的学习有所帮助
数据分析咨询请扫描二维码
数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20统计学专业的就业方向和前景非常广泛且充满机遇。随着大数据、人工智能等技术的快速发展,统计学的重要性进一步凸显,相关人才的 ...
2024-11-20