在 Torch 中的聚类

我正在学习机器学习库Torch

我知道Torch的重点是神经网络,但是出于好奇,我想在它上面运行kmeans。即使它没有做到什么,Torch实现了快速的连续存储,这应该类似于numpy数组,并且Torch cheatsheet引用了无监督学习的unsup库,所以为什么不尝试呢?

我已经有一个基准,我用它来实现K-means。即使所有实现都有意使用未经优化的算法(README说明了原因),LuaJIT仍然能够在611毫秒内聚类100000个点。Nim中经过优化(或者说,没有故意减速的)实现(不在存储库中)在68毫秒内运行,因此我期望介于二者之间。

不幸的是,情况要糟糕得多,所以我怀疑我做错了什么。我编写的代码是

require 'io'
cjson = require 'cjson'
require 'torch'
require 'unsup'

content = io.open("points.json"):read("*a")
data = cjson.decode(content)
points = torch.Tensor(data)
timer = torch.Timer()
centroids, counts = unsup.kmeans(points, 10, 15)

print(string.format('Time required: %f s', timer:time().real))

运行时间约为6秒!

有人能否检查我在使用Torch/unsup时是否犯了什么错误?

如果有人想尝试,那么文件points.json就在上面的存储库中。

点赞
用户1688185
用户1688185

有人可以检查一下我在使用Torch/unsup过程中是否有错误吗?

一切听起来都正确(注:建议使用local变量):

  • data 是一个二维表,你使用了对应的Torch构造函数
  • points 是一个二维张量,行数=点的数量,列数=点的维度(这里是2)。这是unsup.kmeans期望的输入

你可以改变批量大小(第4个参数)。这可能会影响性能。你也可以使用详细模式,输出每次迭代的平均时间:

--批量大小=5000,无回调,详细模式
centroids, counts = unsup.kmeans(points, 10, 15, 5000, nil, true)
2015-03-21 11:38:54