机器学习环境搭建及运行常规机器学习算法

零、前言

前端时间搞的东西都是基于Spark的,与常规环境还是差别挺大的,小数据规模的实验Spark其实没啥用处,有时候反而会增加时间负担。昨天尝试搭建了下普通的机器学习的环境,在安装一些Python包时总是出错,因为有些包时很底层的,windows下容易遇到意外情况。然后发现了一个集成环境Anaconda,一键安装后可以调用几乎所需的所有Python包。

一、环境搭建

可以去官网下载相应的版本,但是速度比较慢,我这有一个Python2.7的版本的网盘链接

http://pan.baidu.com/s/1nvuUJeL

下载后一键安装即可,安装成功后进入安装目录,可以看到它自带的Python终端

然后再去配置编辑器,这里以Pycharm为例,最新版的Pycharm直接去官网下载

https://www.jetbrains.com/pycharm/

破解方法参考下面两个链接

http://blog.csdn.net/fx677588/article/details/58164902

http://idea.lanyus.com/

在Pycharm中构建项目后依次点击Files>>settings>>Project:Machine Learning>>Project Interpreter,在如图所示的位置选中安装的Anaconda

然后可尝试运行一些算法,一个支持向量机的简单程序

# -*- coding: utf-8 -*-
from sklearn import svm

# 数据
x = [[2, 0], [1, 1], [2, 3]]
# 标签
y = [0, 0, 1]
# 线性可分的svm分类器,用线性的核函数
clf = svm.SVC(kernel='linear')
# 训练
clf.fit(x, y)
print clf

# 获得支持向量
print clf.support_vectors_

# 获得支持向量点在原数据中的下标
print clf.support_

# 获得每个类支持向量的个数
print clf.n_support_

# 预测
print "预测"
print clf.predict([2, 0])

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注