以下哪一个是分类算法?
哪一个是分类算法?
A.根据肿瘤大小和患者年龄判断肿瘤是良性还是恶性该怎么办?
B.信用卡违约是否会根据用户的年龄、职业、存款金额来判断?
C身高1.85米、体重100公斤的男士应该穿多大尺寸的T恤
D.根据房屋大小、卫生间数量等特点估算房屋价格
正确答案:判断肿瘤是良性还是恶性下列。肿瘤的大小和患者的年龄是多少?;用户的年龄、职业、存款金额是否决定信用卡是否违约?;身高1.85米、体重100公斤的男士应该穿多大尺码的T恤?

用于数据挖掘的分类算法有哪些?它们的优点和缺点是什么?
朴素贝叶斯(NB)
超级简单,就像做一点计数工作一样。如果条件独立性的假设成立,NB将比判别模型(例如逻辑回归)收敛得更快,因此只需要少量的训练数据。即使条件独立的假设不成立,NB在实践中仍然表现得令人惊讶。如果你想做半监督学习之类的东西或者想要一个性能好的简单模型,NB值得一试。
逻辑回归(LogisticRegression,LR)
LR有很多方法可以对模型进行正则化。相比NB的条件独立假设,LR不需要考虑样本是否相关。与决策树和支持向量机(SVM)不同,NB具有良好的概率解释,并且很容易用新的训练数据更新模型(使用在线梯度下降)。如果您想要一些有关概率的信息(例如,为了更容易地调整分类阈值、获取分类不确定性、获取置信区间)或者希望在将来有更多数据可用时轻松更新和改进模型,它值得使用LR。。
决策树(DT)
DT很容易理解和解释(对于某些人来说,我不确定我是其中之一)。DT是非参数的,所以你不需要担心通配符点(或异常值)以及数据是否线性可分(例如,DT可以轻松处理这种情况:属于A类的样本的特征x的值为通常非常小或非常大,并且属于B类的样本的特征x值处于中等范围)。DT的主要缺点是容易过拟合,这就是随机森林(RF)(或Boosted树)等集成学习算法被提出的原因。此外,RF通常在许多分类问题上表现最佳(我个人发现它通常比SVM稍好),并且速度快且可扩展。它不需要像SVM那样调整大量参数,因此RF是一种非常流行的方法。最近的算法。。
支持向量机(SVM)
分类精度高,对过拟合有良好的理论保证,选择合适的核函数,能够解决特征线性不可分的问题。做得好。SVM在维数通常非常高的文本分类中非常流行。由于大量的内存需求和复杂的参数调整,我认为RF已经开始威胁它的地位。
回到LR和DT问题(我更喜欢LR和RF问题),我想做一个简单的总结:两种方法都快速且可扩展。就精度而言,RF优于LR。但LR可以在线更新并提供有用的概率信息。由于您在Square(不确定推理科学家是什么,可能不是一个有趣的拟人化),您可能正在从事欺诈检测:如果您想快速调整阈值以更改误报率和漏报率,那么您可以包含概率信息有助于分类结果。无论您选择哪种算法,如果类别中的样本数量不平衡(这在欺诈检测中经常发生),您将需要对数据类型重新采样或更改错误度量以使类别更加平衡。