零、前言
前端时间搞的东西都是基于Spark的,与常规环境还是差别挺大的,小数据规模的实验Spark其实没啥用处,有时候反而会增加时间负担。昨天尝试搭建了下普通的机器学习的环境,在安装一些Python包时总是出错,因为有些包时很底层的,windows下容易遇到意外情况。然后发现了一个集成环境Anaconda,一键安装后可以调用几乎所需的所有Python包。
一、环境搭建
可以去官网下载相应的版本,但是速度比较慢,我这有一个Python2.7的版本的网盘链接
http://pan.baidu.com/s/1nvuUJeL
下载后一键安装即可,安装成功后进入安装目录,可以看到它自带的Python终端
然后再去配置编辑器,这里以Pycharm为例,最新版的Pycharm直接去官网下载
https://www.jetbrains.com/pycharm/
破解方法参考下面两个链接
http://blog.csdn.net/fx677588/article/details/58164902
在Pycharm中构建项目后依次点击Files>>settings>>Project:Machine Learning>>Project Interpreter,在如图所示的位置选中安装的Anaconda
然后可尝试运行一些算法,一个支持向量机的简单程序
# -*- coding: utf-8 -*- from sklearn import svm # 数据 x = [[2, 0], [1, 1], [2, 3]] # 标签 y = [0, 0, 1] # 线性可分的svm分类器,用线性的核函数 clf = svm.SVC(kernel='linear') # 训练 clf.fit(x, y) print clf # 获得支持向量 print clf.support_vectors_ # 获得支持向量点在原数据中的下标 print clf.support_ # 获得每个类支持向量的个数 print clf.n_support_ # 预测 print "预测" print clf.predict([2, 0])