被微博屏蔽 ChatGLM三代我们训了一个1.5B的模型,效果还不错,我们在想做点公益还是开源了,大家支持哪一个,1. 开源2. 公益:每个license一点点钱,拿去扶贫 写了KDD 20周年庆典的报告,2014投稿最多是social,录用率最高是big data。5个主题报告、大会最佳论文、采访了KDD现任主席Bing Liu、KDD创始人Gregory Piatetsky、PC主席Jure Leskovec和Wei Wang、KDD 创新奖Pedro Domingos和Jon Kleinberg 🔗 网页链接 感谢@glgl9 和@Yuxiao_DONG 展开全文 今年首次评选了SIGKDD Test of Time Award(等同十年最佳论文)🔗 网页链接 ,因为之前一直没发,大家讨论半天这次发了3个,第一个是Martin Ester,Kriegel等人的基于密度的聚类算法、第二个是Bing Liu等人的基于关联规则的分类,第三个是Kempe和Kleinberg等人的influence maximizaiton. 展开全文 好吧,昨天发错设置了,KDD终于开完,今年的Madness session,强烈推荐,每个作者有30秒时间讲自己的工作。我们把所有的slides合并成3个文档,大家可以下载,看完就知道所有KDD的papers了,一目了然。下面的图各种best paper的slide 🔗 网页链接 🔗 网页链接 🔗 网页链接 实验室新做了一个从社交媒体数据中自动挖掘用户活动知识库的系统🔗 网页链接 。系统自动识别用户活动(时间、地点、人物、活动类型),构建活动之间的关联关系, 如:赌完了之后就去酒吧;系统还提供情感分析、影响力分析等功能。系统刚上线,还有很多地方待提高。感谢@杨洋THU 等人的努力 前天在CCF ADL的报告主要关于用户建模、社交关系分析和群体形成,以及相关方法在游戏中的付费用户发现和MOOC中的证书用于预测中的应用, ppt放在这里了 🔗 网页链接 ,希望对大家有用。所有讲者的ppt和视频将随后放到CCF ADL的网站上。 CCF ADL上John Hopcroft的talk开始了。主要讲social network里面的数学基础 再发布一个作者-论文-引用网络 AMiner-APC Network,包含2百万论文,8百万引用,1.7百万作者,4百万合作关系。每位作者还提供单位、统计信息(#paper, h-index, # citation)、研究兴趣(如:data mining),可用来做社区发现、异构信息网络挖掘、tagging prediction、合作关系预测等,🔗 网页链接 展开全文 在CCCF上发表了社交网络用户情感及其建模方法,概述了最近进展和我们的工作,包括在Flickr数据上通过社交网络、图片和朋友评论自动推断用户心情;及通过对搜狗语音助手的数据分析研究搜索用户的心情(尽管大部分用户用来骂人发泄了。。)希望对大家有用,感谢@杨洋THU @张阔_搜狗搜索 美国科学院、工程院联合发布的一个《大数据分析前沿》报告,Committee由Michael Jordan领衔,成员包括CMU的Kathleen Carley, 哈弗的Trevor Hastie, Google的Diane Lambert等,内容包括:数据管理、实时算法、大数据表示、人和数据交互、Sampling、模型等 🔗 网页链接 。很值得一看,推荐! 展开全文 最热的21个社交网络用户总数达到57亿,接近地球人数了。没想到Google plus也有5亿多用户了。Mark Zuckerberg 来了个社交定律:每18个月社交网络中的共享数量就会翻一倍 🔗 网页链接 人工智能发展的脉络图, 给出重要的发展分支,重大事件,从阿兰.图灵,到贝叶斯,到svm,再到话题模型,深度学习,ibm 沃森,google无人驾驶。🔗 网页链接 powered by @ArnetMiner 为人工智能献个小礼(如有遗漏,请抱歉) 和俏竹一起总结了国内最近几年在数据挖掘国际会议KDD上发表的关于基础理论、社交网络分析和大数据挖掘三方面的工作,简单分析了国际学科发展趋势,国内的研究特色,以及国内外的差距。总的来说,用SIGKDD主席Bing Liu的话是:“人类社会在经历一场数据革命:数据挖掘幸运地成为了这场数据革命的中心。 展开全文 【用户影响力vs. 转发】在微博上T数据上发现一个很有意思的现象:用户转发概率和已转发的朋友数成正比,但和已转发朋友之间形成的圈子数却成反比:6个朋友转发了,如果他们是不同圈子的(不互粉),你的转发概率只有他们是一个圈子的1/3到1/4,发表在IJCAI 2013,感谢@xiaojingzioo 🔗 网页链接 展开全文 社交网络和社交媒体处理的盛会,下午演示开始,20多个演示,每人3分钟报告,演示包括来自拓尔思、微软、海量、微众、人人、北理、清华、中科院、北航、山大、猎人舆情、宏博知微、数据堂。学术界和企业界的结合。敬请关注! 我们在贵系创建了面向全体研究生的“酒井学堂”,目标是提高研究水平、促进师生交流。第一讲请了《Crafting Your Research Future》一书作者Charles Ling (凌晓峰)教授,时间地点:5月17日(周五)下午14:00 FIT多功能厅,到时候见。多谢Jia和Peng的努力。@文光围脖 @马少平THU @孙茂松 展开全文 写了一个关于Knowledge Graph的简介。概念2001年Tim已经提出,10多年后Google开始真的大规模使用,Bing和Facebook也紧随其后, @搜狗搜索 的知立方算是国内代表了,@王海勋haixun 的probase也很猛。另外列出几个开源库,DBPedia、Wikilinks、Freebase、Data.gov、Wolframalpha。 展开全文 受CCF委托组织“社交数据挖掘”前沿讲习班。问问大家对的意见,初步想到的讲者:Jon Kleinberg(科学院院士), Qiang Yang(IEEE Fellow), Jure Leskovec (Stanford U), Irwin King (CUHK), Huan Liu (IEEE Fellow), Jiawei Han(大牛)等。我还没邀请呢,也请建议其他人。时间7月26-29,或者8月3-5日? 展开全文 "如何作研究"一书作者Charles Ling来系里交流,主要面向老师,计划还会组织一次面向学生的讲座。大家如果有兴趣,吱一声,我好安排会议室。也可以签名哟:) 实验室有个200G内存的机器,还计划买一个1T内存的机器,以为无敌了,今天碰到Panos,告诉我他有个2T内存的,400个核的机器给学生做实验用。。。效果好了再放到一个几千个核的super computer上去运行。。。于是,然后。。。没有了。。。 5月份去WWW做关于异构网络信息挖掘的Tutorial,从信息获取、异构数据集成、搜索再到异构网络中的结构分析。还将以@ArnetMiner ,PatentMiner等实际系统为例分享架构设计、系统搭建、算法实现等方面的经验和教训。敬请关注,巴西见! 1%的结构洞用户控制了25%的信息传播流量!我们的结构洞分析论文被WWW 2013录用,论文给出了结构洞的两个理论模型HIS和MaxD,证明了NP难,给出了近似解,并在Twitter网络、Coauthor网络、专利网络上分别进行了验证。论文全文很快可以在线下载。 顺着Charles和Qiang的“如何做研究”的书,也说说我总结的博士研究四个阶段吧(在清华计算机系内给研究生讲过几次)。研究的终极目标是要培养独立研究的能力。四个阶段具体来说如下:What is, Idea Storm, Novel Idea, 和Team Leader。导师的作用在这四个阶段逐渐下降。 展开全文 教育部的计算机学科评估结果,清华连续第一,北大貌似上升不少了,排名并列成为主旋律。。。 昨天碰到多位CCF 优秀博士论文获得者,做的都非常牛。简单聊了聊,发现大部分都留在自己学校继续科研,有中大、清华、南大、哈工大、东北。可喜的是牛人都继续学术,可持续发展;有点遗憾的是,大部分还是自己学校留自己的人,近亲繁殖还是存在。。不过@南大周志华 老师的学生连续获得CCF优博,可贺! 展开全文 【Deep Learning之工业/学术届】中午和友人吃饭,聊到Deep Learning很火,百度建立DL研究院,毕竟DL出来了近10年,若干竞赛也得了第一,工业追随很合理。但学术界要谨慎,10年了,论文一大把,虽然不说DL都不好意思说自己搞ML,但也不要随意成为提高Hinton们Citation的工具,@邓侃 @老师木 @梁斌penny 展开全文