首先我是想用java来爬的,可用url爬下来的代码不是加载js后的代码。之后在网上搜着怎么爬加载js后的代码。很多人说htmlunit,可是最终无果,可能是我自己不会用。之后试着在学校内网爬。爬内网下来的直接就有地址,但是需要模拟js的unescape函数。之后发现了用js可以很简单的获取视频的地址,但缺点就是需要播放那个视频,这样很麻烦。于是我就继续探索。之后用python,然后发现了phantomojs,但还是无果。最终在网上找到了一个获取慕课网视频链接的源代码,它用scrapy,但最终发现关键的代码只有http://www.imooc.com/course/ajaxmediainfo/?mid={}这行。最终我才明白了有些视频链接需要抓包分析。中国大学mooc的视频链接可以从http://www.icourse163.org/dwr/call/plaincall/CourseBean.getLessonUnitLearnVo.dwr这个下手,不过需要传递一些参数。