生信拾光


  • 首页

  • 标签

  • 分类

  • 归档

  • 搜索

使用Python与Scikit-learn实现随机森林分析

发表于 2020-06-28 |
字数统计: 1.1k | 阅读时长 ≈ 4

参考资料

  • Understanding Random Forests Classifiers in Python: //www.datacamp.com/community/tutorials/random-forests-classifier-python
  • Random Forest Algorithm with Python and Scikit-Learn: //stackabuse.com/random-forest-algorithm-with-python-and-scikit-learn/
  • Random Forest in Python: //towardsdatascience.com/random-forest-in-python-24d0893d51c0

随机森林(RandomForest)算法

随机森林属于集成学习(Ensemble Learning)的一类算法,结合了多种相同类型的算法,即多个决策树,从而形成了一个随机森林树。

随即森林是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用(Breiman 2001b),被誉为当前最好的算法之一(Iverson et al. 2008)。

参考:https://zhuanlan.zhihu.com/p/22097796

阅读全文 »

使用Python与Scikit-learn实现逻辑回归分析

发表于 2020-06-28 |
字数统计: 246 | 阅读时长 ≈ 1

https://towardsdatascience.com/logistic-regression-using-python-sklearn-numpy-mnist-handwriting-recognition-matplotlib-a6b31e2b166a

阅读全文 »

稀疏矩阵与机器学习

发表于 2020-06-28 |
字数统计: 412 | 阅读时长 ≈ 1

Introduction to Sparse Matrices for Machine Learning

什么是稀疏矩阵?

大部分包含零值的矩阵称为稀疏矩阵(sparse Matrices),相对应的是大多数值非零的密集矩阵(Dense Matrices)。稀疏矩阵在机器学习领域非常常见,如计数类数据,或者one-hot encoding编码的数据等。数据的稀疏性可以通过零值的比例量化(sparsity = count zero elements / total elements)。稀疏矩阵会产生处理时间和存储空间的问题。而SciPy提供了很多高效的方法可以直接用于存储和处理稀疏矩阵。

阅读全文 »

机器学习中的模型验证

发表于 2020-06-28 |
字数统计: 415 | 阅读时长 ≈ 2

model validation

Model validation is important step in machine learning. Cross validation and bootstrapping methods can be used for model validation. Both of them are resampling methods.Cross validation resamples without replacement,bootstrap resamples with replacement.

reference - https://arxiv.org/pdf/1811.12808.pdf

阅读全文 »

用于COVID-19研究的计算机策略大集锦

发表于 2020-05-24 |
字数统计: 151 | 阅读时长 ≈ 1

文章信息

题目:Computational strategies to combat COVID-19: Useful tools to accelerate SARS-CoV-2 and Coronavirus research

杂志:Preprints

时间:23 May 2020

链接: https://www.preprints.org/manuscript/202005.0376/v1

figure

image.png

文章介绍

这篇综述是由欧洲病毒生物信息中心(EVBC)整理的关于COVID-19研究的分析流程和工具。涉及1)SARS-CoV-2的检测,2)测序数据的分析,3)COVID-19流行病学的追踪,4)病毒的进化,5)潜在药物靶标,治疗策略等方面。

详细的工具列表链接,可以在EVBC网站查看:http://evbc.uni-jena.de/tools/coronavirus-tools/

1…789…26

六六

Seize the day! Collect the moment! Share the memory!

130 日志
5 分类
52 标签
RSS
0%
© 2023 六六 | Site words total count: 87.3k
博客全站共87.3k字