[2014-1-12]cnki elearning批量下載的文檔質(zhì)量太差了,打印效果猶如PS的模糊濾鏡,無(wú)語(yǔ)。
[2013-04-23]軟件恢復(fù)使用.但工作實(shí)在太忙,盡量在一個(gè)星期內(nèi)回復(fù).
[2013-03-31]前幾日有熱心的網(wǎng)友反映當(dāng)前批量下載版本已無(wú)法下載.今天有空試了一試,果真無(wú)法下載了.出現(xiàn)的錯(cuò)誤是"對(duì)不起,您的請(qǐng)求未經(jīng)授權(quán)服務(wù)器拒絕該下載!",經(jīng)過(guò)分析,發(fā)現(xiàn)知網(wǎng)在下載頁(yè)面做了處理,不能直接下載了.想要獲得真實(shí)的地址,還得從錯(cuò)誤的地址中進(jìn)行分析,再進(jìn)一層方可得到下載地址.該思路已經(jīng)實(shí)現(xiàn),但還沒(méi)有時(shí)間整合到免費(fèi)版本中,先忙過(guò)這一陣,再補(bǔ)上吧.
[2013-1-20]對(duì)于躲避監(jiān)控,最好的辦法是執(zhí)行分布式批量下載.當(dāng)然,最安全的做法是,在幾十個(gè)學(xué)校中執(zhí)行.數(shù)據(jù)庫(kù)商家及學(xué)校,都無(wú)法防得了.大多知名的迅速"暴富"的商業(yè)公司就是利用這種方法來(lái)積累資源的.只是可惜,學(xué)校里頭的防控只防學(xué)生,卻不防大蟲.真所謂"竊鉤者誅,竊國(guó)者為諸侯".有人指責(zé)我非法采集超星的視頻,可這些道貌岸然的人物,為何不指責(zé)超星掏掉CNKI?不才只是為了方便窮書生找資源的苦楚,面對(duì)商業(yè)公司,而對(duì)國(guó)家科研機(jī)構(gòu)的重重壁壘,讓些小蟲有點(diǎn)活路不壞壟斷大局.知識(shí)越來(lái)越容易共享,也越來(lái)越不會(huì)分享.不管是商還是官,還是官商勾結(jié),窮書生從不是他們的服務(wù)對(duì)象.我沒(méi)有用上百臺(tái)機(jī)器分布采集,也沒(méi)有直接掛機(jī)到鏡像下載,我只是想從那個(gè)高墻處挖個(gè)小水溝,供窮書生們啜食.我只提供了省掉個(gè)人點(diǎn)擊之苦的CNKI批量下載器,而且也做了數(shù)量的限制,別的下載器都限內(nèi)部使用,沒(méi)有在互聯(lián)網(wǎng)上散播,希望那些高尚的大人物,莫太指責(zé)我惡意踐踏知識(shí)產(chǎn)權(quán),不尊重作者的研究成果.我只是一只小蟲,挖個(gè)小洞,給窮書生們解解渴,因?yàn)楦F書生們不能公款吃喝,大魚大肉.
[2013-1-14]批量下載數(shù)據(jù)庫(kù)的全文是違規(guī)的,該工具只是幫大家節(jié)省點(diǎn)擊之苦而已,不要用于大批量的下載,雖然本人已在軟件中進(jìn)行了一些限制,但還是希望各位同學(xué)能遵守CNKI的規(guī)則.將時(shí)間間隔設(shè)置長(zhǎng)一些,約似手工下載的間隔,避免涉及違規(guī)之嫌.
[2012-5-14]淘寶上有人出售此軟件,或是使用此軟件批量下載的期刊。在此再次聲明,本程序只是減少文獻(xiàn)下載時(shí)的點(diǎn)擊之苦,切勿用于商業(yè)用途,請(qǐng)慎重使用。本程序也不會(huì)提供無(wú)帳號(hào)下載功能,已暫停對(duì)本程序的的更新,如果實(shí)在覺(jué)得使用太麻煩,那就請(qǐng)卸載了吧。
[2012-5-4]cnkiforpdf已能將分析結(jié)果保存到本地,可從數(shù)據(jù)管理界面進(jìn)行選擇性下載。解決文章標(biāo)題小于10時(shí)被跳過(guò)下載的問(wèn)題。
[2012-3-5]如果只想下載某期刊全年的文章,可參看此:批量下載全年期刊的方法
[2012-3-6]推出特別版,支持下載PDF格式??蓞⒖矗褐袊?guó)知網(wǎng)期刊總庫(kù)PDF下載
知網(wǎng)推出的批量下載工具:http://www.cnki.net/software/study.htm#1[使用時(shí),切勿貪“快”,避免下載不完整,或是IP被禁用。時(shí)間間隔的設(shè)置依據(jù)你所處的網(wǎng)速而定,我一般是設(shè)置20s。如果下載速度快,間隔就設(shè)置長(zhǎng),如果下載速度慢,則間隔可短些。知網(wǎng)是有連續(xù)下載的時(shí)間限制,為了安全使用,請(qǐng)勿超速。]
[2012-3-26]下載的時(shí)候,有時(shí)會(huì)出現(xiàn)有文件夾的情況,這主要是因?yàn)樵诮o文件命名的文件名里頭有“/”字符,結(jié)果被當(dāng)做文件夾路徑了,比如“面向B/S的。。。”,這個(gè)文章就會(huì)生成文件夾“面向B”,而后里面的文章是“S的。。?!?。解決辦法是在采集文章標(biāo)題時(shí),把一些特殊符號(hào)給去除掉。(未改)。
[2012-3-25]在進(jìn)行大批量下載時(shí)(比如一千條記錄以上),就算是已合法登錄,也仍然會(huì)碰到.5下載失敗的情況,這主要是由于連續(xù)下載過(guò)多,CNKI會(huì)提示諸如“對(duì)不起,你的操作太過(guò)頻繁”的錯(cuò)誤,然后需要重新退出登錄才能下載。目前已在CNKI批量下載特別版(優(yōu)碩庫(kù))中解決此問(wèn)題,即當(dāng)出現(xiàn)錯(cuò)誤提示后,自動(dòng)注銷又再自動(dòng)登錄。
[2012-3-24]CNKI博士庫(kù)特別版實(shí)現(xiàn)導(dǎo)入下載列表后下載,這樣就不用每次都分析頁(yè)面了,直接從URL下載。
[2012-3-7]CNKI-Elearning支持的cnt格式是文本形式的XML文件,里面包含了很多信息,包括下載頁(yè)面。將來(lái)可以從這里獲取文章的元數(shù)據(jù),省去分析頁(yè)面所花的時(shí)間,效率定會(huì)提高不少。
[2012-3-6]有時(shí)下載的文章太多,時(shí)間長(zhǎng)了,就有不少文章下不來(lái)了,都成了.5的,那可能是在頁(yè)面上長(zhǎng)時(shí)間不操作,帳號(hào)自動(dòng)退出了。
[2012-3-1]對(duì)有些完全有權(quán)限下載的文章,在連續(xù)下載時(shí)會(huì)有下載不了的情況(下載的文件名后綴如.5),但單獨(dú)下載是可以的。這可能是因?yàn)榫W(wǎng)絡(luò)原因下載失敗之后,程序不再繼續(xù)嘗試下載該文章了。這要增加個(gè)校驗(yàn)的功能,對(duì)于搜索到的文章是否是完整下載到硬盤上進(jìn)行檢查。這對(duì)于收集成套的期刊之類是用法是需要的。
[2012-3-1]有的網(wǎng)友反映下載到一半之后停電或者系統(tǒng)死機(jī)什么的,又得重頭開始下載,這個(gè)太耗時(shí)了。目前的確沒(méi)有選擇下載,或是下載狀態(tài)保存的功能,下一版本要添加。更多的人希望提供PDF下載,因?yàn)閺腒DH之類的格式轉(zhuǎn)換到PDF后就只是個(gè)圖片而已,無(wú)法進(jìn)行復(fù)制粘貼。嗯,這個(gè)很早之前就有人強(qiáng)烈要求了,技術(shù)上的思路也早就有,但,,一種所謂“殘缺之美”吧,先湊合著用,還是待下一版推出吧,前提是“如果還有下一版”。
[2012-2-27]下其指定期刊的方法??稍诓樵儣l件頁(yè)面的“文獻(xiàn)出版來(lái)源”輸入期刊名,比如“社會(huì)學(xué)研究”,再在“發(fā)表時(shí)間”處選擇起始日期,比如想下載2012年第一期的,就設(shè)置2012-1-1,2012-1-31。如果想下載全年的,就設(shè)置2011-1-1到2012-1-1。
[2012-2-27]BUG。有些可下載的文章,下載后顯示0KB,但在網(wǎng)頁(yè)中是可以正常下載的。其原因原來(lái)是該文章的標(biāo)題含有一些特殊字符是WINDOWS文件名不允許的,所以以標(biāo)題做為文件名生成文件時(shí)發(fā)生了錯(cuò)誤,文件就保存不下來(lái),顯示為0KB了。解決方法需要在程序中生成保存路徑的時(shí)候,把文件名中不被WINDOWS接受的字符先過(guò)濾掉。這個(gè)在寫anSpringer下載器時(shí)已處理,可參看。(2012-2-27fixed)
[2011-12-14]希望能支持維普數(shù)據(jù)庫(kù)。這個(gè)的確可以考慮,反正是同樣的方法。UI要改改,畢竟不少用戶并不關(guān)心分析的過(guò)程?,F(xiàn)在這個(gè)用戶界面比較亂的原因主要是為了方便調(diào)試而已。如果把這些分析過(guò)程,隱藏起來(lái),那用戶界面就可以做得更簡(jiǎn)潔,操作起來(lái)就更方便了,而且不用HTML組件,更能提高性能。
[2011-12-12]兩個(gè)新的建議:1、“無(wú)帳號(hào)”下載。這個(gè)朋友說(shuō)可提供有效的知網(wǎng)帳號(hào),只要在程序中從遠(yuǎn)程讀取賬號(hào)及密碼在程序后臺(tái)自動(dòng)登錄,就算是實(shí)現(xiàn)了“無(wú)帳號(hào)”下載?!盁o(wú)帳號(hào)”只是相對(duì)于用戶來(lái)說(shuō),因?yàn)橛脩舨恍枰卿浿W(wǎng)了,而是由程序自動(dòng)從遠(yuǎn)端獲取可用的帳號(hào)來(lái)登錄。這一過(guò)程是不需要用戶參與的,而賬號(hào)密碼也是會(huì)及時(shí)更新,保持總能獲取可用的賬號(hào)。該功能不打算做,畢竟這涉及到知識(shí)產(chǎn)權(quán)的問(wèn)題;2、期刊下載。這個(gè)功能看似挺實(shí)用的。比如說(shuō)有人想要下載《中國(guó)電化教育》的所有電子檔,雖說(shuō)現(xiàn)在可以從查詢頁(yè)面的“文獻(xiàn)來(lái)源”輸入關(guān)鍵詞,從時(shí)間范圍輸入要下載哪一期,但下載回來(lái)的文章并無(wú)組織結(jié)構(gòu)(意指所有文章全放到一個(gè)文件夾里),不方便管理。如果提供界面,請(qǐng)界戶輸入期刊名,選擇期號(hào),即可將該期的全部文章下載,或是下載某年度的所有期號(hào),或是某期刊多年來(lái)的所有文章,而下載回來(lái)的文章按年/期/的組織形式存放好,這樣就好收藏了。
[2011-11-28]有網(wǎng)友反饋目前的版本不能換庫(kù),換庫(kù)之后無(wú)法分析地址。原因有可能是查詢的結(jié)果頁(yè)面HTML內(nèi)容有變化,但更可能是一些相關(guān)鏈接的路徑寫死在程序里頭,導(dǎo)致適應(yīng)不到不同的庫(kù)。這個(gè)問(wèn)題先記下,過(guò)段有時(shí)間再修改了。
[2011-11-09]文獻(xiàn)檢索結(jié)果的表格,不提供pdf格式的直接下載,想要下載PDF格式,可以進(jìn)入其詳細(xì)頁(yè)面,再分析出pdf格式的下載地址,其處理方式類似分析碩士庫(kù)中論文的方式(碩士庫(kù)的文章在文獻(xiàn)檢索結(jié)果中也不提供直接下載,只在一個(gè)在線閱讀的鏈接)。不同的是在詳細(xì)頁(yè)面中碩士庫(kù)文章分析的目標(biāo)元素是“整本下載”,而PDF文章要分析的目標(biāo)元素是“PDF下載”。

[2011-11-07]在批量下載的文件中,有些文件無(wú)效的,主要有幾種情況,1、有文件名,無(wú)后綴名。這種情況主要是在檢索結(jié)果頁(yè)面里的下載鏈接是一個(gè)在線閱讀的鏈接readonline.asp.caa,并不是真實(shí)的下載路徑。解決方法是通過(guò)其詳細(xì)鏈接地址,進(jìn)入論文的detail.aspx頁(yè)面,在其內(nèi)容的“整本下載"處獲得其真實(shí)下載地址。這種情況主要是來(lái)自中國(guó)優(yōu)秀碩士學(xué)位論文全文的數(shù)據(jù)庫(kù)。2、后綴名為.5和.0的文件。這種情況是服務(wù)器返回來(lái)的不是文件地址,http包頭中的Content-Disposition字段信息是WEB服務(wù)器的版本,比如IIS7.5或IIS7.0。解決方法也還是像問(wèn)題1那樣,進(jìn)入詳細(xì)頁(yè)面中重新分析其下載地址。
[2011-11-05]由于anCNKI一直是在舊版的平臺(tái)中調(diào)試,有網(wǎng)友反映anCNKI不支持新版的平臺(tái),今天試了試,果然不行,新平臺(tái)的部分頁(yè)面信息已有變動(dòng),改了改相關(guān)的代碼,重新發(fā)布了一個(gè)版本anCNKIfor grid2008。
該工具由于只是利用閑暇時(shí)間寫的,并沒(méi)有進(jìn)行充分的測(cè)試,也沒(méi)有提供更易操作的UI,而有時(shí)會(huì)出現(xiàn)有部分文章下載不了的情況,做得還不是很完善,待將來(lái)有了更多的閑暇時(shí)間,逐步完善吧。
在此就記下一些筆記。
1、開發(fā)工具及相關(guān)類
FlashBuilder, Flex SDK4.5 , AIR ,URLStream,要分析http頭(URLLoader的ResponseHeaders)
1、分析頁(yè)面
分析的頁(yè)面是中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù):http://acad.cnki.net/Kns55/brief/result.aspx?dbPrefix=CJFQ,也可以選擇其它庫(kù);
2、結(jié)果頁(yè)面
CNKI的頁(yè)面使用的是frame,單從主頁(yè)面是獲取不到查詢結(jié)果的頁(yè)面的,通過(guò)firefox的firebug及webdevelpoer等工具來(lái)輔助找到結(jié)果frame的src為:http://acad.cnki.net/Kns55/brief/brief.aspx?&PageName=ASP.brief_result_aspx&DbPrefix=CJFQ&DbCatalog=中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)&ConfigFile=CJFQ.xml
3、分析結(jié)果表格
這里需要兩個(gè)信息,一個(gè)是下載的地址,一個(gè)是文章標(biāo)題(作為文件名)。下載地址有如:href="../download.aspx?filename=aNDMmx0Yr90bqZFSUxEasxUazETY3QWb4R2KYF0cWZ1R3RWW3Rma4RndxtyRaBFaXJEdysWWn12dYdXakZnb34UcUx2bQJEazt2N3czbXxkWhN1azoXME5WR38GV0VDb0QjaaZlTL9WOvJzTxt2YJVzbwMHcPVja&tablename=CJFD0608
文章標(biāo)題可分析表格中的“篇名”列。
4、下載文件
FlexSDK4.5中有多種下載方式,可以使用URLStream按二進(jìn)制方式下載,在此使用URLLoader(其實(shí)也是用到URLStream),當(dāng)下載完成后,再使用FileStream將二進(jìn)制文件寫到硬盤上。
5、下載文件名
光有文件名還不行,還需要知道下載文件的后綴名,知網(wǎng)上主要有kdh和caj(pdf不能從查詢結(jié)果頁(yè)直接下載),雖然通過(guò)URLLoader的HTTPStatusEvent.HTTP_RESPONSE_STATUS事件可以從responseHeaders中獲得下載的文件名,但由于亂碼,在FLEX中還找不到好的辦法來(lái)處理,故而在responseHeaders分析出http頭的Content-Disposition字段,獲得其filename,析出后綴名,再與之前的文章標(biāo)題結(jié)合起來(lái)形成文件名。
6、下載時(shí)設(shè)置了個(gè)延時(shí),避免連續(xù)下載,會(huì)被服務(wù)器檢測(cè)出,IP被封。
愛(ài)華網(wǎng)本文地址 » http://www.klfzs.com/a/25101011/97490.html
愛(ài)華網(wǎng)



