1. 創(chuàng)業(yè)頭條
  2. 創(chuàng)業(yè)故事
  3. 正文

專訪李進(jìn)斌:火車頭采集器 站長的伴侶

 2009-03-05 10:14  來源:門戶通  我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競價(jià),好“米”不錯(cuò)過

本次采訪站長是火車頭采集器網(wǎng)站 ()站長李進(jìn)斌。 采訪人:一滴水  被采訪人:李進(jìn)斌 相信大家對(duì)火車頭采集器非常的熟悉,它的發(fā)開者就是李進(jìn)斌,一個(gè)80后年輕小伙子,網(wǎng)名火車頭。

      一滴水:你之前是程序員出身嗎?
     
      李進(jìn)斌:不是。我是學(xué)水利的,大學(xué)畢業(yè)后還從事了一年的水利設(shè)計(jì)工作,辭職后才轉(zhuǎn)行IT發(fā)展的。
     
      一滴水:原來是這樣的。那當(dāng)時(shí)是如何想到轉(zhuǎn)行做 IT的呢?
     
      李進(jìn)斌:兩方面吧,對(duì)電腦及網(wǎng)絡(luò)濃厚的興 趣,以及對(duì)枯燥的工程設(shè)計(jì)的反感,最終還是放棄了原來的主專業(yè),不過還好。我在大學(xué)學(xué)了雙專業(yè),辭職前收到了phpcms老大加入團(tuán)隊(duì)的邀請。
     
      一滴水:去phpcms那邊工作了嗎?
     
      李進(jìn)斌:恩,我在phpcms做了大半年。 參 與開發(fā)了phpcms2007里面的很多功能。當(dāng)然。這期間對(duì)我的提高很大。
     
      一滴水:那火車頭采集器是什么時(shí)候開始開發(fā)的,當(dāng)初開發(fā)這樣的軟件的想法和初衷是什么,開發(fā)過程中有沒有遇到什么困難?
     
      李進(jìn)斌:火車采集器最早開發(fā)是在05年的11 月份。當(dāng)時(shí)工作之余,業(yè)余維護(hù)著自己的一個(gè)小網(wǎng)站,有了和多數(shù)站長朋友一樣在在網(wǎng)站添加內(nèi)容及需要頻繁數(shù)據(jù)更新的苦惱,在借鑒了當(dāng)時(shí)dede的采集思想后開始開發(fā)的這一款采集器。
     
      火車采集器的發(fā)展過程中,初期也遇到過一些小的技術(shù)困難,這都在短時(shí)間內(nèi)克服了,而最大的問題是在我辭掉原本很穩(wěn)定的工作后, 采集器要繼續(xù)發(fā)展是否開發(fā)收費(fèi)的版本的問題上猶豫了很長時(shí)間。在此要感謝我們的會(huì)員的支持,
      沒有他們我們不可能一直堅(jiān)持而取得今天的成就。 
     
      一滴水:剛才提到辭掉穩(wěn)定的工作指的就是phpcms那邊嗎?
     
      李進(jìn)斌:不是,原來是在安徽水利廳的設(shè)計(jì)院工作。離開phpcms主要還是我個(gè)人生活方面的一點(diǎn)原因,西安太遠(yuǎn),然后女朋友習(xí)慣在老家這邊。
     
      其實(shí)在phpcms的時(shí)候就已經(jīng)發(fā)布了免費(fèi)的火車采集器,前期版本。2007年9月份才開始全職做這個(gè)軟件。
     
      一滴水:那phpcms的老大給你過建議嗎?
     
      李進(jìn)斌:當(dāng)然是有的。我們現(xiàn)在一直都在聯(lián)系,經(jīng)常一聊就幾個(gè)鐘頭,他和我一樣都是技術(shù)出身,很有共同語言。 
     
      一滴水:呵呵,你們是老朋友了。現(xiàn)在越來越多的站長在使用火車頭做網(wǎng)站,我們知道采集很多時(shí)候就意味著內(nèi)容的重復(fù)導(dǎo)致信息泛濫,你怎么看待這個(gè)問題,您對(duì)主要靠采集軟件來更新網(wǎng)站的站長們有什么忠告或建議?
     
      李進(jìn)斌:首先網(wǎng)站需要持續(xù)的更新大家都知道,軟件可以做為人手工的輔助工具,幫助我們做一些非常機(jī)械性的操作,采集器就是這樣的一個(gè)軟件,可以幫助你實(shí)現(xiàn)一個(gè)前期數(shù)據(jù)填充,但作為維護(hù)網(wǎng)站內(nèi)容工具,不應(yīng)該覺得越自動(dòng)化的越好。
     
      靠采集軟件維護(hù)更新網(wǎng)站也沒有錯(cuò),我們現(xiàn)在還 有一批熟練“司機(jī)”也是靠軟件在搜集資料,關(guān)鍵你應(yīng)該清楚你的網(wǎng)站需要些什么樣的內(nèi)容,你又采集更新了些什么,應(yīng)該做到心里有數(shù)。 
     
      一滴水:最近發(fā)布的2009正式版有哪些重大的更新 ?
     
      李進(jìn)斌:對(duì)前期采集和后期數(shù)據(jù)處理都進(jìn)行了不少改進(jìn),相比2008版本有很大提高,簡單列幾條:
     
      支持gzip,deflate網(wǎng)頁壓縮,可大幅度提高網(wǎng)頁 下載速度.
      重寫下載模塊,可以斷點(diǎn)下載,大文件下載不再是 問題.
      支持上傳附件.可以發(fā)布帖子時(shí)候上傳附件到網(wǎng)站 ,更方便.
      重寫本地?cái)?shù)據(jù)編輯功能,加載更快,處理更方 便.
      支持.net外部編程插件,可以做更為復(fù)雜的工作. 例如下載視頻.
      支持對(duì)多個(gè)標(biāo)簽進(jìn)行分詞.準(zhǔn)確性更好.
      可以隨機(jī)發(fā)布和隨機(jī)文件保存目錄.
      支持網(wǎng)址部分post隨機(jī)值.那些aspx類型的網(wǎng)站網(wǎng) 址獲取不再難.
      支持列表頁標(biāo)簽功能,可以在列表頁采集更多的信 息. 
     
      一滴水:功能是越來越強(qiáng)大了?。?
     
      李進(jìn)斌:恩。哈,按會(huì)員的建議一步步提升的,強(qiáng)大功能需要大家自己學(xué)習(xí)慢慢體驗(yàn)。
     
      一滴水:目前不少網(wǎng)站加了防采集的功能,新版的火車頭2009解決這個(gè)問題了嗎?
       
      李進(jìn)斌:關(guān)于防采集這一塊。打開一個(gè)網(wǎng)頁實(shí)際就是瀏覽器發(fā)送一個(gè)Http請求。還有其他的搜索引擎蜘蛛,同樣我們的采集器使用的都是一個(gè)原理--模擬http請求,我們可以根據(jù)這個(gè)原理模擬出瀏覽器、蜘蛛出來。所以絕對(duì)的防采集根本不存在,只是難度的高低。如果你認(rèn)為搜索引擎的搜錄也無所謂了。你可以用一些非常強(qiáng)大的activex,flash,全圖片文字的形式,這個(gè)我們無能為力。
     
      2009新版軟件加強(qiáng)了對(duì)來源判斷,登錄信息判斷 ,POST方式請求,多頁分頁識(shí)別以及循環(huán)內(nèi)容采集等功能,外加 php和.net外部程序接口等,我們并沒有發(fā)現(xiàn)多少做得非常好的防采集網(wǎng)站,只是一個(gè)難度高低的問題。  
     
      一滴水:哈哈!看來火車頭做的是越來越完美了。
       
      一滴水:火車采集器還分為免費(fèi)版本、個(gè)人版、標(biāo) 準(zhǔn)版、企業(yè)版。那么這些版本是如何分類的, 他們分別適用于哪些人群呢?
     
      李進(jìn)斌:主要也是按功能多少來進(jìn)行劃分的,你需要根據(jù)自己的需求來選擇。高級(jí)版本在后期數(shù)據(jù)處理,大文件下載及上傳,自動(dòng)化操作,分詞翻譯等方面功能有很大增強(qiáng)。
     
      一滴水:對(duì)于大多數(shù)站長來說,免費(fèi)版本的就足夠用了吧!
       
      李進(jìn)斌:是的。我們沒有限制采集的站點(diǎn)及任務(wù)的數(shù)量,也沒有對(duì)在線web發(fā)布做任何限制。對(duì)普通用戶來說,已經(jīng)足夠使用了。
     
      一滴水:恩?,F(xiàn)在可能有一些新的站長還不會(huì)使用火車頭,你對(duì)他們有何建議?
       
      李進(jìn)斌:首先應(yīng)該抱著一個(gè)學(xué)習(xí)的心態(tài),我們不是一個(gè)一鍵就可以采集發(fā)布的軟件。而是會(huì)有很多很多的設(shè)置,這些設(shè)置都需要你手工和操作配置一遍。
     
      當(dāng)你對(duì)軟件的各個(gè)功能都有了大致的了解后,你 就會(huì)感覺如魚得水,完全按你的意愿操作,網(wǎng)站數(shù)據(jù)更新也同樣是件很快樂,很有挑戰(zhàn)性的事情。
     
      當(dāng)然在你采集前,有幾個(gè)建議:
      1.別人經(jīng)常采的網(wǎng)站不要 去采
      2.太容易采的網(wǎng)站不要去采
      3.不要一次性采集太多,一定要注意后期處理
      4.做好關(guān)鍵詞,tag的采集分析
      5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無 關(guān)的內(nèi)容
      6.采集也要有持續(xù)性,經(jīng)常更新,自動(dòng)采集功能 我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布

      后期處理方面

      1.給標(biāo)題。內(nèi)容分詞
      2.使用同義詞近義詞替換,排除敏感詞,不同的 標(biāo)簽之間數(shù)據(jù)融合,指如標(biāo)題內(nèi)容之間數(shù)據(jù)的相互替換
      3.給文章加上摘要
      4.為文章標(biāo)題等生成拼音地址
      5.采集一些其他編碼的網(wǎng)站,我們可以做到簡繁 體轉(zhuǎn)化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應(yīng)該可以算是原創(chuàng))

      我們也發(fā)現(xiàn),高難度采集的網(wǎng)站一般內(nèi)容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂趣的事情,需要你學(xué)習(xí)一些采集相關(guān)的知識(shí)。
     
      一滴水:非常感謝你分享如此寶貴的經(jīng)驗(yàn)。謝謝!
     
      一滴水:火車頭現(xiàn)在的開發(fā)和推廣團(tuán)隊(duì)有多少人? 跟大家介紹下你的團(tuán)隊(duì)。
     
      李進(jìn)斌:前天新搬了一個(gè)辦公地點(diǎn),公司規(guī) 模又稍微擴(kuò)大了一點(diǎn)。現(xiàn)在開發(fā)主要是4個(gè)人,客服和推廣6個(gè)。還有幾個(gè)長期活躍在論 壇服務(wù)的版主。
       
      一滴水:規(guī)模慢慢在發(fā)展壯大啊!呵呵!
     
      一滴水:在這里也跟大家談?wù)勀銈儓F(tuán)隊(duì)的優(yōu)勢以及你們的服務(wù)好嗎?
     
      李進(jìn)斌:恩,好的。這里面有我的同學(xué)也有從網(wǎng)絡(luò)認(rèn)識(shí)發(fā)展到現(xiàn)實(shí)的朋友,都很年輕,為了同樣的興趣在一起拼搏。我們雖然沒有 很深的工作背景,但學(xué)歷都還可以幾個(gè)是211出來的,干勁足,非常有激情。
     
      除了運(yùn)營采集器外,也兼在做幾款其他的自動(dòng)采集搜索軟件,可以為廣大站長提供這些方面的技術(shù)服務(wù)。 
     
      李進(jìn)斌:自動(dòng)采集搜索軟件主要是指:數(shù)據(jù) 采集、轉(zhuǎn)移、處理及索引優(yōu)化??梢詾閺V大站長提供這些方面的技術(shù)服務(wù)。 
     
      一滴水:恩,慢慢拓展出更多更好的技術(shù),站長會(huì)越來越喜歡你們。
     
      李進(jìn)斌:感謝小蘇。
     
      一滴水:太客氣了!你們的盈利模式是什么?
     
      李進(jìn)斌:商業(yè)軟件的收入。部分技術(shù)服務(wù)支持,以及其他一些定制軟件的開發(fā)。不是太高但足以支撐整個(gè)團(tuán)隊(duì),公司成立還不足一 年,公司的發(fā)展和新的盈利模式還在探索中。 
     
      一滴水:恩,希望你們探索出更有價(jià)值的東西,來更好的服務(wù)站長朋友們。最后談一下你們未來的發(fā)展方向。
     
      李進(jìn)斌:穩(wěn)住采集方面的地位,繼續(xù)提高競爭力,努力轉(zhuǎn)型實(shí)現(xiàn)為更多的企業(yè)提供數(shù)據(jù)服務(wù)。 
     
      一滴水:小蘇在這里代表門戶通的所有站長朋友們祝福你們的明天越來越美好!謝謝!
     
      李進(jìn)斌:恩。感謝門戶通給提供的這次機(jī)會(huì) ,謝謝大家。

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • 暫不要?jiǎng)?chuàng)業(yè),誰創(chuàng)業(yè)誰死

    關(guān)注盧松松,會(huì)經(jīng)常給你分享一些我的經(jīng)驗(yàn)和觀點(diǎn)。盧松松視頻號(hào)會(huì)員專區(qū)有個(gè)會(huì)員提問,我感覺挺有代表性的,寫成公眾號(hào)文章,分享給大家:松哥,我花了太多時(shí)間在思考上,而一直沒有行動(dòng),名副其實(shí)的想的多做的少,同時(shí)感覺對(duì)這個(gè)世界缺乏了好奇心,不知道怎么去調(diào)整自己目前的這個(gè)狀態(tài),能量場太低。目前正值畢業(yè)季,我學(xué)的

  • 2024,你是誰?

    某種程度上“不惑”靠的不是年齡和閱歷,而是時(shí)代背景下的自我認(rèn)識(shí)和自我定位。

  • 中小微企業(yè)老板,如何講述一個(gè)引爆人心的創(chuàng)業(yè)故事?

    有粉絲留言說,我是一個(gè)中小微企業(yè)的創(chuàng)業(yè)者。我一直關(guān)注您的公眾號(hào)文章,也非常清楚私域用戶的重要性,特別是通過講述自己的創(chuàng)業(yè)故事來吸引他們。但我并不清楚如何開始講述我的創(chuàng)業(yè)故事,希望能得到秦剛老師的一些指導(dǎo)和建議。非常感謝!現(xiàn)在互聯(lián)網(wǎng)平臺(tái)上,關(guān)于普通人逆襲的十年體故事點(diǎn)贊和評(píng)論一般都是最高的,越來越多的

    標(biāo)簽:
    創(chuàng)業(yè)故事
  • 長城汽車總裁穆峰:新能源下半場競爭的是「體系與生態(tài)」| 大寶訪談

    嘉賓/長城汽車總裁穆峰出品/大寶訪談最近幾年,新能源市場風(fēng)起云涌,逐浪成勢。儲(chǔ)能、動(dòng)力電池、氫能、光伏和光電材料、可控核聚變、碳化硅芯片等細(xì)分賽道,技術(shù)指數(shù)級(jí)迭代,規(guī)模爆發(fā)式增長,整個(gè)新能源產(chǎn)業(yè)被視為中國經(jīng)濟(jì)長線躍遷的重要支柱,未來十到二十年最確定的趨勢性機(jī)會(huì)。作為重要的參賽者,業(yè)內(nèi)不可忽視的一股力

    標(biāo)簽:
    新能源汽車
  • 訪談6家區(qū)域龍頭便利店,破解“本地紅利”增長密碼

    便利店的三大“本地紅利”。

    標(biāo)簽:
    便利店
  • 請善待,那些舍得借錢給你們的人!

    這幾年的一樁樁,一件件,真的是看透了太多,認(rèn)清了太多。

  • 從微博到公眾號(hào)再到私域的創(chuàng)業(yè)彎路

    互聯(lián)網(wǎng)愛好者,打我愛好互聯(lián)網(wǎng)的那一年起,就先得了職業(yè)病,頭發(fā)就瘋狂的拋棄我,這10年每一天都在舍、得之間徘徊著,不過,現(xiàn)在不用了,因?yàn)槲也辉贀碛兴?。愛咋咋地吧,我這個(gè)就是當(dāng)觸網(wǎng)之后的回憶錄吧

    標(biāo)簽:
    創(chuàng)業(yè)故事
  • 華為寧可賠掉10個(gè)億,也要辭退這7000名老員工

    任正非曾說:華為寧可賠掉10個(gè)億,也要辭退這7000名老員工,而且年齡大多在34歲以上。到底怎么回事?2019年,華為7000多名工作滿8年的老員工,相繼向華為公司提交請辭自愿離職,辭職后的老員工需要重新競聘才能上崗。任正非之所以如此大費(fèi)周章,原因其實(shí)很簡單就是:狼性精神不能滅!

    標(biāo)簽:
    華為
  • 創(chuàng)業(yè)35年,黃光裕依然是他

    黃光裕也在進(jìn)化。除了高舉高打的早年風(fēng)格之外,他似乎也變得更具策略性。例如,他開始與先前的競爭對(duì)手走到一起,甚至包括零售后起新秀,他試圖以成本更低、效率更高的方式為國美提速。

    標(biāo)簽:
    黃光裕
  • 聯(lián)拓寶實(shí)力服務(wù)商曹金龍,如何做到日激活266臺(tái)設(shè)備

    聯(lián)拓寶是一款專為支付人打造的支付管理平臺(tái),隨著平臺(tái)的發(fā)展,涌現(xiàn)出一大批優(yōu)秀的合作伙伴,為此我們專門推出“實(shí)力派”頻道,為你介紹成功合作伙伴的心路歷程,他們曾經(jīng)也是普通人,結(jié)緣支付,通過一些思路和方法闖出了自己的一片天地。相信你能從他們的故事中受益。

    標(biāo)簽:
    移動(dòng)支付

編輯推薦