GHOST系统之家 - Windows系统光盘下载网站!
当前位置:GHOST系统之家>手机教程 > 寻找全球最强算法!通过手机安装的 App,从二十万人中挑出你

寻找全球最强算法!通过手机安装的 App,从二十万人中挑出你

来源:Ghost系统之家浏览:时间:2023-03-15 08:06:50

如果你走在咖啡馆外面,服务员就知道你每周三早上8点15分一定会准时来这儿,并提前准备好你最喜欢的玛奇朵,这种感觉一定很棒。

这段话写在全球知名预测建模与分析平台 kaggle 的 TalkingData 全球算法大赛介绍页面上。

Kaggle 平台的注册用户现在已经超过60万,来自于全球194个国家,具有各行各业的背景,Kaggle平台因为赛制的科学和开放的态度,也成为了很多重要数据科学竞赛的支持平台。目前,在 Kaggle算法众包平台上一共举办了超过1200场比赛,多数比赛来自于工业界,提供了很多数据科学的解决方案。

从另外一个角度而言,这个平台类似于一个江湖武林排行榜,有一些人会借此一战成名。

2012年,美国制药公司默克(Merck)在 Kaggle上发布了一项为期60天的挑战赛,由参赛者通过15种药物的各种数据预测它们的生物活性,如药物的靶点和非预期靶点(off-target)等等。结果,一个来自加拿大多伦多大学的5人团队 gggg 获得了第一。

如果直接介绍这支队伍,大家可能要翻一个白眼——这是谁?,但是他们背后的人却来头不小。相信很多从事数据科学的人都不陌生,他就是 Geoffrey hinton。

三大牛 Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton在深度学习领域的地位无人不知,吃瓜群众可以看看,他长这样。

寻找全球最强算法!通过手机安装的App,从二十万人中挑出你

说了这么多,意思就是,kaggle 很牛X,不服就来参加个比赛试试。

在 kaggle 这个牛气的平台上,中国第三方移动数据平台 TalkingData 和机器学习公司 Turi联合举办了一场全球算法大赛。这场比赛在7月11日开始,9月5日结束。

按照 TalkingData 数据科学部直接负责大赛的科学家路瑶告诉的信息,原本在国内看上去稀松平常的一个算法大赛,应该是搞不出一个什么大新闻的,但是,最终的比赛经过账号排重之后,居然有1689支队伍参加,囊括了1961个选手,一共有24000多次提交。

而且,路瑶还盘点了这次大赛上有意思的一些事儿,在勾起大家的兴趣前,先说说这是个什么样的比赛。

牛!感觉不会再爱了

本次大赛的挑战题目是通过移动设备行为数据来预测设备使用者的性别和年龄分组。

大赛提供了约20万用户的脱敏数据,分成了12组,比如,男性,22到25岁,女性,30到35岁等。同时也提供了用户行为属性,比如,时间点、地理位置、手机品牌、机型等,选手要通过这些信息推测用户属于哪一个组。

嗯,看上去有点难。

大赛的评估方式是——选手需算出用户在不同分组上的概率,一个用户只能在一个分组,理想状态下,如果能算出概率是1,其他为0的话,那么就是没有任何概率损失,但他们的答案一般是在不同的分组上,这个用户以不同的概率属于这个组别,这时就有概率损失,大赛的评估指标就是概率损失。

再看一次,很复杂对不对?好吧,我们可以再复杂一些。

寻找全球最强算法!通过手机安装的App,从二十万人中挑出你

表格里的数据首先是年龄性别分组,每个用户用是一个ID表示。一个用户的行为是在一系列的事件里,每一个事件里的信息包括:ID在什么时间点出现在哪个经纬度上,安装了哪些APP、使用了哪些APP,手机品牌和机型。

当然,APP 的 ID,包括经纬度等都进行了严格和科学的脱敏。

然而,APP 上呈现的只是脱敏后的 ID,选手对 APP 本身没有什么概念,为了让选手更好地解读数据,主办方给 APP贴了一些标签,比如社交、游戏等,一共有1000多个标签。

围观群众表示,看样子像大海捞针对不对?

可对这些数据的解读仅仅是成功的第一步,下一步是特征工程。

选手提取了哪些特征?比如,用户是在什么时间活跃?休息日还是工作日?白天还是晚上?

数据还包括海外数据,有时差的问题。用户有了轨迹,轨迹分布是怎样?是聚集在某一块?还是聚集在几个点?之间距离有多远?常出现的位置是在中国的东南沿海还是在西北地区?这些地点又有什么样的特性。

另外,安装的APP哪些是安装了但是好长时间没有用?这又能提供什么样的信息。

天了噜,十万个为什么?不可否认的是,这些特征取值很有学问,是取01值还是更具体的权重,完全是个技术活。

路瑶一边介绍,一边冒出“星星眼”。因为在比赛中出现了非常有想象力的做法,而她在做项目过程中根本没有想到!

当你预测出结果之后,结果是不是可以作为特征反馈到模型?比如,预测年龄和性别的分组,性别相对是好预测的,准确率高一些,预测后把性别特征返回来是不是可以提高年龄的预测?年龄准确率会低一些,但是一些特殊的年龄段特征比较明显。如果把这些找出来之后再返回到模型里面,是不是也能提高整体的结果?

做完特征工程之后,进入到调模型的环节,这也是考验数据科学家经验和技巧的活。单一模型下调参数的时候,最简单的初始参数怎么选?是给一个随机值,还是给一个特别值?对于收敛速度可能会有很大的影响。

在模型集成上,学问就更多了。以神经网络为例,在神经网络里设计神经元,要知道每一层有多少个、有多少层,在模型集成里面也要有类似的思想。这些模型分成几层,谁和谁是并联、谁和谁是串联关系,如果是串联关系,下一层要处理上一层什么样的信息,是直接处理结果,还是误差或是什么。

有了好模型、好特征,提交了结果,在排名上很靠前,是不是这个事就搞定了,就可以拿到奖金了?

呵呵哒,真不一定。

还有一个大敌叫过拟合。

过拟合的方法在特定数据集里会表现非常好,但是这个数据集稍微一变,模型性能就迅速下降。

此次比赛分测试集和训练集,训练集是把所有的信息都告诉了选手,然后在测试集里要推测分组。

选手可以看到的是提交结果后的公开榜单,但私密榜单却只有管理员能看到,但比赛结果却是由私密榜单决定的,公开榜单仅供参考。

公开榜单的测试集只包括了1/4~1/3的数据,而 Kaggle 又不限制提交次数,如果你在公开榜单排名靠前,那么呵呵,有可能在私密榜单排名很惨。

寻找全球最强算法!通过手机安装的App,从二十万人中挑出你

如何解决这个问题,Kaggle 的老司机告诉你,永远要做交叉验证!!!!拿小本本记下来!!

迄今为止,虽然大赛还未正式公布获奖名单,但是在kaggle该大赛主页上,私密榜单已经出炉!我们来看一下——

寻找全球最强算法!通过手机安装的App,从二十万人中挑出你

这次比赛也有几个有趣的点,可以简单扒一扒!

1.TalkingData首席数据科学家张夏天告诉,虽然数据量比较小,只有约20万组,但是却是“稀疏”数据,即拿来真实数据进行脱敏后,有些数据可能维度不齐全,相比于一些比赛提供的标签齐全的数据,意思是,难度加大,你开心就好。

2.在 Kaggle 社区,第一次出现 TalkingData 中国的数据,上面的大神对此很感兴趣,甚至把kaggle排行榜上所谓的“上古神兽”炸出来不少,Kaggle比较牛的那些人玩的时间长了,兴趣不大,已经不太爱在平台上出现。Kaggle榜单前10名里有7名参加TalkingData 的比赛,前20名中有14名。是的,中国就是个神秘的国度……

3.最后有70多个国家的参赛选手提交了结果,选手最多的不是中国……是美国。那第二呢?第二依然不是中国,是印度,第三才是中国,含台湾、香港地区,第四是俄罗斯,第五是英国。

4.在 kaggle 的 TalkingData 大赛社区里,由于数据来自中国,很多选手需要讨论中国国情,最热衷给大家科普中国国情特征的是一个法国兄弟……

推荐系统

  • 微软Win11原版22H2下载_Win11GHOST 免 激活密钥 22H2正式版64位免费下载

    微软Win11原版22H2下载_Win11GHOST 免 激活密钥 22H2正式版64位免费下载

    语言:中文版系统大小:5.13GB系统类型:Win11

    微软Win11原版22H2下载_Win11GHOST 免 激活密钥 22H2正式版64位免费下载系统在家用办公上跑分表现都是非常优秀,完美的兼容各种硬件和软件,运行环境安全可靠稳定。Win11 64位 Office办公版(免费)优化  1、保留 Edge浏览器。  2、隐藏“操作中心”托盘图标。  3、保留常用组件(微软商店,计算器,图片查看器等)。  5、关闭天气资讯。 

  • Win11 21H2 官方正式版下载_Win11 21H2最新系统免激活下载

    Win11 21H2 官方正式版下载_Win11 21H2最新系统免激活下载

    语言:中文版系统大小:4.75GB系统类型:Win11

    Ghost Win11 21H2是微软在系统方面技术积累雄厚深耕多年,Ghost Win11 21H2系统在家用办公上跑分表现都是非常优秀,完美的兼容各种硬件和软件,运行环境安全可靠稳定。Ghost Win11 21H2是微软最新发布的KB5019961补丁升级而来的最新版的21H2系统,以Windows 11 21H2 22000 1219 专业版为基础进行优化,保持原汁原味,系统流畅稳定,保留常用组件

  • windows11中文版镜像 微软win11正式版简体中文GHOST ISO镜像64位系统下载

    windows11中文版镜像 微软win11正式版简体中文GHOST ISO镜像64位系统下载

    语言:中文版系统大小:5.31GB系统类型:Win11

    windows11中文版镜像 微软win11正式版简体中文GHOST ISO镜像64位系统下载,微软win11发布快大半年了,其中做了很多次补丁和修复一些BUG,比之前的版本有一些功能上的调整,目前已经升级到最新版本的镜像系统,并且优化了自动激活,永久使用。windows11中文版镜像国内镜像下载地址微软windows11正式版镜像 介绍:1、对函数算法进行了一定程度的简化和优化

  • 微软windows11正式版GHOST ISO镜像 win11下载 国内最新版渠道下载

    微软windows11正式版GHOST ISO镜像 win11下载 国内最新版渠道下载

    语言:中文版系统大小:5.31GB系统类型:Win11

    微软windows11正式版GHOST ISO镜像 win11下载 国内最新版渠道下载,微软2022年正式推出了win11系统,很多人迫不及待的要体验,本站提供了最新版的微软Windows11正式版系统下载,微软windows11正式版镜像 是一款功能超级强大的装机系统,是微软方面全新推出的装机系统,这款系统可以通过pe直接的完成安装,对此系统感兴趣,想要使用的用户们就快来下载

  • 微软windows11系统下载 微软原版 Ghost win11 X64 正式版ISO镜像文件

    微软windows11系统下载 微软原版 Ghost win11 X64 正式版ISO镜像文件

    语言:中文版系统大小:0MB系统类型:Win11

    微软Ghost win11 正式版镜像文件是一款由微软方面推出的优秀全新装机系统,这款系统的新功能非常多,用户们能够在这里体验到最富有人性化的设计等,且全新的柔软界面,看起来非常的舒服~微软Ghost win11 正式版镜像文件介绍:1、与各种硬件设备兼容。 更好地完成用户安装并有效地使用。2、稳定使用蓝屏,系统不再兼容,更能享受无缝的系统服务。3、为

  • 雨林木风Windows11专业版 Ghost Win11官方正式版 (22H2) 系统下载

    雨林木风Windows11专业版 Ghost Win11官方正式版 (22H2) 系统下载

    语言:中文版系统大小:4.75GB系统类型:

    雨林木风Windows11专业版 Ghost Win11官方正式版 (22H2) 系统下载在系统方面技术积累雄厚深耕多年,打造了国内重装系统行业的雨林木风品牌,其系统口碑得到许多人认可,积累了广大的用户群体,雨林木风是一款稳定流畅的系统,一直以来都以用户为中心,是由雨林木风团队推出的Windows11国内镜像版,基于国内用户的习惯,做了系统性能的优化,采用了新的系统

  • 雨林木风win7旗舰版系统下载 win7 32位旗舰版 GHOST 免激活镜像ISO

    雨林木风win7旗舰版系统下载 win7 32位旗舰版 GHOST 免激活镜像ISO

    语言:中文版系统大小:5.91GB系统类型:Win7

    雨林木风win7旗舰版系统下载 win7 32位旗舰版 GHOST 免激活镜像ISO在系统方面技术积累雄厚深耕多年,加固了系统安全策略,雨林木风win7旗舰版系统在家用办公上跑分表现都是非常优秀,完美的兼容各种硬件和软件,运行环境安全可靠稳定。win7 32位旗舰装机版 v2019 05能够帮助用户们进行系统的一键安装、快速装机等,系统中的内容全面,能够为广大用户

  • 番茄花园Ghost Win7 x64 SP1稳定装机版2022年7月(64位) 高速下载

    番茄花园Ghost Win7 x64 SP1稳定装机版2022年7月(64位) 高速下载

    语言:中文版系统大小:3.91GB系统类型:Win7

    欢迎使用 番茄花园 Ghost Win7 x64 SP1 2022.07 极速装机版 专业装机版具有更安全、更稳定、更人性化等特点。集成最常用的装机软件,集成最全面的硬件驱动,精心挑选的系统维护工具,加上独有人性化的设计。是电脑城、个人、公司快速装机之首选!拥有此系统