新增 regexp 講義實戰範例: 從網頁產生書單
By HUNG Chao-Kuei on Friday, December 5 2008, 11:38 - Permalink
新增 regexp 講義一篇: 「從網頁產生書單」 希望能給更多人看到 長線投資的電腦學習策略 的價值, 能給更多人一些動機, 花幾個小時學習這二三十個應用廣泛特殊符號, 花幾個月熟悉, 然後享受一輩子。 二三十年這麼古老的東西, 卻對於 web2.0/ajax 網頁設計可能也有幫助; 版權專屬軟體所強調的花俏操介面當中, 有多少知識能跟這樣的東西相比呢? (聽說 MS Word 也支援 regexp; 但是這種東西賣相不好, 不容易廣告, 對於鼓勵盲目升級也沒有幫助, 所以不會是它的賣點及支援重點。)
Comments
RegExp確實是很好用的東西。要學這技術卻又很難理解,因為它像個文字天書。
其實RegExp沒有很困難,只有幾個語法巧妙應用而已。
如果你是delphi的愛好者,可使用TRegExpr,
TRegExpr是Delphi的 class library,
(TRegExpr class library Delphi Regular Expressions http://RegExpStudio.com )
例如:如需要'全國圖書書目網'擷取網頁資訊,透過ISBN書碼查詢這本書詳細內容,請連線至
http://nbinet.ncl.edu.tw/search*chi...
957-11-4152-6及9571141526為ISBN編碼,不含978國碼。
步驟1:將此網頁顯示為純文字原始檔。
步驟2:RegExp指令為<PRE>(.*?)</PRE>
顯示
LEADER 00000cam0 2200265 450
001 00602853
008
010 0 957-11-4152-6|b平裝|dNT$180
020 tw|b94020316
042 nbi9712ba01
090 (nbi)b82398884
100 20060421d2006 k y0chiy09 e
101 0 chi
102 tw
105 a z 000yy
200 1 吃豬皮的日子|f吳晟(1944- )編著|g國立編譯館主編
205 初版
210 臺北市|c五南圖書|d2006[民95]
215 0 196面|c像|d21公分
225 2 青少年臺灣文庫|i散文讀本|v1
300 集叢卷次號據封底摺頁順序訂定
314 吳晟本名吳勝雄
410 0 |12001 |a青少年臺灣文庫|i散文讀本|v1
606 |2csh|a文學|x臺灣
681 855|b2660-5
700 0 吳|b晟|f1944-|4編著|3NO000219620
712 02 國立編譯館
801 2 tw|b清大|c20060619|gCCR
805 THU|cC402513thu|d830.86|e8477/2|pBOOK|lv.2 pt.1|fT2MCCHAO
|tCCL|w24|x24|z681
步驟3:RegExp指令為200\s(.*?)\x0D\x0A
顯示
1 吃豬皮的日子|f吳晟(1944- )編著|g國立編譯館主編
步驟4:RegExp指令為200\s(.*?)\|f(.*?)\|g
第一個括弧顯示 "1 吃豬皮的日子"
第二個括弧顯示 "吳晟(1944- )編著"
This post's comments feed