在 Torch 中的聚类

2015-3-20 10:51:36

收藏：0

阅读：88

评论：1

我正在学习机器学习库Torch。

我知道Torch的重点是神经网络，但是出于好奇，我想在它上面运行kmeans。即使它没有做到什么，Torch实现了快速的连续存储，这应该类似于numpy数组，并且Torch cheatsheet引用了无监督学习的unsup库，所以为什么不尝试呢？

我已经有一个基准，我用它来实现K-means。即使所有实现都有意使用未经优化的算法(README说明了原因)，LuaJIT仍然能够在611毫秒内聚类100000个点。Nim中经过优化(或者说，没有故意减速的)实现(不在存储库中)在68毫秒内运行，因此我期望介于二者之间。

不幸的是，情况要糟糕得多，所以我怀疑我做错了什么。我编写的代码是

require 'io'
cjson = require 'cjson'
require 'torch'
require 'unsup'

content = io.open("points.json"):read("*a")
data = cjson.decode(content)
points = torch.Tensor(data)
timer = torch.Timer()
centroids, counts = unsup.kmeans(points, 10, 15)

print(string.format('Time required: %f s', timer:time().real))

运行时间约为6秒！

有人能否检查我在使用Torch/unsup时是否犯了什么错误？

如果有人想尝试，那么文件points.json就在上面的存储库中。

用户1688185

有人可以检查一下我在使用Torch/unsup过程中是否有错误吗？

一切听起来都正确（注：建议使用local变量）：

data 是一个二维表，你使用了对应的Torch构造函数，
points 是一个二维张量，行数=点的数量，列数=点的维度（这里是2）。这是unsup.kmeans期望的输入。

你可以改变批量大小（第4个参数）。这可能会影响性能。你也可以使用详细模式，输出每次迭代的平均时间：

--批量大小=5000，无回调，详细模式
centroids, counts = unsup.kmeans(points, 10, 15, 5000, nil, true)

2015-03-21 11:38:54

评论区的留言会收到邮件通知哦~

作者:

用户249001

技术支撑

Nana 框架
Kong API 网关
Nuxt 服务端渲染

统计信息

会员 0
文章数: 0
话题数: ...