请选择 进入手机版 | 继续访问电脑版

技术控

    今日:33| 主题:61282
收藏本版 (1)
最新软件应用技术尽在掌握

[其他] Fregata: TalkingData开源的轻量级大规模机器学习库

[复制链接]
林深处 发表于 2016-11-30 11:16:30
158 2
Fregata是TalkingData开源的一个基于Spark的轻量级、超快速的大规模机器学习库,并在Scala中提供高级API。
  显著特征:  
       
  • 更加准确:Fregata的精确度要高于MLLib;   
  • 高速度:对于广义线性模型,Fregata通常汇合在一个数据历元。对于10亿*10亿的数据集,Fregata可以在1分钟内使用内存缓存或10分钟完成一个广义线性模型训练,速度要比MLLib快10-100倍;   
  • 参数自由:Fregata使用GSA SGD优化,无需学习速率调整,原因是研发团队找到了一种在训练过程中计算学习速率的方法。当面对超高维问题时,Fregata会动态计算剩余内存来确定输出的稀疏性,自动平衡精度和效率;   
  • 轻量:Fregata只使用了Spark的标准API即可快速、无缝地集成到Spark上的大多数业务数据处理流程中。  
   架构
   这里主要介绍1.0版本架构。核心部分主要基于GSA独立算法实现,包括分类,回归和聚类:
  
       
  • 分类:支持二进制和多重分类   
  • 回归:在下面的版本中发布   
  • 聚类:在下面的版本中发布  
  Spark:主要通过封装core.jar实现基于Spark的大规模机器学习算法,并提供相应的算法。
   如何安装及快速入门,大家可以访问其在 Github上的开源地址 。
  引用
   130+位讲师,16大分论坛,中国科学院院士陈润生、滴滴出行高级副总裁章文嵩、联想集团高级副总裁兼CTO芮勇、上交所前总工程师白硕等专家将亲临 2016中国大数据技术大会 ,票价折扣即将结束, 预购从速 。
  

Fregata: TalkingData开源的轻量级大规模机器学习库

Fregata: TalkingData开源的轻量级大规模机器学习库-1-技术控-二进制,动态,模型,平衡,如何
qdkk 发表于 2016-12-8 00:50:01
赞一个!
回复 支持 反对

使用道具 举报

xgbkxngw 发表于 2016-12-22 15:44:26
边撸边过
回复 支持 反对

使用道具 举报

我要投稿

推荐阅读


回页顶回复上一篇下一篇回列表
手机版/c.CoLaBug.com ( 粤ICP备05003221号 | 文网文[2010]257号 | 粤公网安备 44010402000842号 )

© 2001-2017 Comsenz Inc.

返回顶部 返回列表