2023-03-13

AI 自動標點比較:GJ.cool vs. ChatGPT

前言

CBETA Online 已有提供「自動標點」功能,連結至 古籍酷 (GJ.cool)

2022 推出的 ChatGPT 也能做「自動標點」,誰標得比較好呢?

以下以 T2920 中部分文字為例,分別使用上述兩個 AI 進行「自動標點」比較。

GJ.cool 結果

有標底色的部分,在 ChatGPT 會有不同結果,紅色字的部分更是對語意有影響:

吾告於閻浮提中善男子、善女人:吾自生閻浮,為大慈父,教化眾生,輪迴世間,經今無始曠劫,分身萬億,救度眾生為見閻浮提眾生多造惡業,不信佛法,惡業者多,吾不忍見。吾身便入涅槃,舍利形像遍於閻浮,引化眾生。以後像法世界滿,正法興時,吾與彌勒尊佛同時下生,共坐化城,救度善緣。元居本宅,在於東海,是過去先世淨土。為眾生頑愚難化不信佛法,多造惡業,吾離本處,身至西方,教化眾生號為釋迦牟尼佛。東國遂被五百毒龍陷為大海,一切眾生沈在海中,化為黿、鼉、魚、鼈吾身已後,却從西方胡國中來,生於閻浮度善緣佛性種子吾見閻浮眾生遍境凶惡,自相吞食,不可開化,吾今遂入涅槃舍利本骨願住泗州。已後若有善男子、善女人,慈心孝順,敬吾形像,長齋菜食,念吾名字如是之人散在閻浮愍見惡世力兵競起,一切諸惡逼身,不得自在吾後與彌勒尊佛下生本國,足踏海水枯竭,遂使諸天龍神、八部聖眾,在於東海中心,修造化城,金銀為壁,琉璃為地,七寶為殿。吾後至閻浮,與流佛法,唯傳此經,教化善緣。六度弟子歸我化城,免在閻浮受其苦難,悉得安穩,衣食自然,長受極樂。天魔外道,弱水隔之,不來為害。

ChatGPT 結果

吾告於閻浮提中善男子、善女人:吾自生閻浮,為大慈父教化眾生輪迴世間。經今無始曠劫,分身萬億救度眾生為見閻浮提眾生多造惡業,不信佛法。惡業者多,吾不忍見。吾身便入涅槃,舍利形像遍於閻浮引化眾生。以後像法世界滿,正法興時,吾與彌勒尊佛同時下生,共坐化城,救度善緣。元居本宅,在於東海,是過去先世淨土。為眾生頑愚難化不信佛法,多造惡業。吾離本處身至西方教化眾生號為釋迦牟尼佛。東國遂被五百毒龍陷為大海,一切眾生沈在海中,化為黿鼉魚鼈吾身已後却從西方胡國中來生於閻浮救度善緣,佛性種子吾見閻浮眾生,遍境凶惡,自相吞食,不可開化。吾今遂入涅槃舍利本骨願住泗州已後。若有善男子、善女人,慈心孝順,敬吾形像長齋菜食,念吾名字如是之人散在閻浮吾愍見惡世力兵競起,一切諸惡逼身不得自在吾後與彌勒尊佛下生本國,足踏海水枯竭,遂使諸天龍神八部聖眾在於東海中心修造化城,金銀為壁,琉璃為地,七寶為殿。吾後至閻浮,與流佛法,唯傳此經,教化善緣,六度弟子歸我,化城免在閻浮受其苦難悉得安穩,衣食自然,長受極樂。天魔外道弱水隔,不來為害。

結論

比較以上兩種結果:

  • 有底色的部分,雙方標點不同,或許可說 GJ.cool 表現得更好,ChatGPT 標的也不能說就是錯了,這還不是決定性的差距。
  • 紅色字的部分,以我淺薄的理解能力看來,在語意上,ChatGPT 應該是標錯了!

ChatGPT 做為一個通用型的 AI,自動標點能有如此水準的表現,已經是很厲害了!

而 GJ.cool 專注於「自動標點」,表現比 ChatGPT 好,也算是合情合理!

不過這裡只隨機選用了片段文字做測試,或許還不能做為普遍性的結論。

使用 ChatGPT 時,如果使用不同的「發問方式」或「詠唱方式」也可能得到不同的結果。

2023-03-11

ChatGPT 佛經白話翻譯測試

前言

ChatGPT 的文字能力很強,以下試著使用 ChatGPT 做白話翻譯。

 《雜阿含經》第一小經 原文

參考 CBETA Online: https://cbetaonline.dila.edu.tw/T0099

以下我將 ChatGPT 翻得不好的地方做了標示:

「如是我聞:一時,佛住舍衛國祇樹給孤獨園。

爾時,世尊告諸比丘:

「當觀無常。如是觀者,則為正觀。
正觀者,則生厭離;厭離者,喜貪盡喜貪盡者,說心解脫。
「如是觀受、想、行、識無常。如是觀者,則為正觀。
正觀者,則生厭離;厭離者,喜貪盡喜貪盡者,說心解脫。

「如是,比丘!心解脫者,若欲自證,則能自證:
『我生已盡,梵行已立,所作已作,自知不受後有。』

「如觀無常,苦、空、非我亦復如是。」

時,諸比丘聞佛所說,歡喜奉行。」

ChatGPT 的白話翻譯

以下我把可能有問題的地方做了標示:

有一次,佛陀住在舍衛國的祇樹給孤獨園。
那時,佛陀告訴諸比丘:
「要觀察萬物的色彩是無常的。
當這樣觀察,就是正確的觀察方式。
正確地觀察會產生厭離的心情, 
有了厭離的心情,就會產生喜悅的感覺,因為能放下執著。
當有喜悅的感覺,就會對修行產生心解脫的體悟。
同樣地,觀察受、想、行、識也是無常的。
這樣觀察也是正確的觀察方式。
正確地觀察會產生厭離的心情,
有了厭離的心情,就會產生喜悅的感覺,因為能放下執著。
當有喜悅的感覺,就會對修行產生心解脫的體悟。
比丘們啊,
對於已經達到心解脫的人,如果想要驗證自己的修行成果,就能夠證明自己:
『我已經達到生命的盡頭,已經擺脫了生死輪迴,
已經完成了自己的所有行為,並且自己知道不會再有下一世。』
同樣地,觀察無常、苦、空、無我也是如此。」

當時,諸比丘們聽了佛陀的教導,都非常高興地去實踐。

小結

整體來說,我覺得 ChatGPT 還是翻得不錯的,雖然還是會有翻錯的地方。

後記

經 Shih Shengyin 指導,換個方式問,可以得到更好的解答。

問:

如果你是一位佛教資深學者,請你將以下文字翻譯為白話:

如是我聞:一時,佛住舍衛國祇樹給孤獨園。爾時,世尊告諸比丘:「當觀色無常。如是觀者,則為正觀。正觀者,則生厭離;厭離者,喜貪盡;喜貪盡者,說心解脫。「如是觀受、想、行、識無常。如是觀者,則為正觀。正觀者,則生厭離;厭離者,喜貪盡;喜貪盡者,說心解脫。「如是,比丘!心解脫者,若欲自證,則能自證:『我生已盡,梵行已立,所作已作,自知不受後有。』「如觀無常,苦、空、非我亦復如是。」時,諸比丘聞佛所說,歡喜奉行。」

ChatGPT 回答:

這裡有一個故事:有一次,佛陀在舍衛國的祇樹林裡孤獨園中居住。
當時,佛陀告訴比丘們,應當觀察萬物的變化無常,
如果能夠正確地觀察,便能得到正確的觀智。
正確的觀智會引發厭離心,進而讓喜愛貪瞋的心念消退。
最終,這種心念的減退將會帶來內心的解脫。

佛陀也告訴比丘們,要觀察五蘊的無常,包括感受、想法、行為和意識等。
如果能夠正確地觀察這些,同樣能夠得到正確的觀智,進而引發內心的解脫。

佛陀告訴比丘們,如果想要證明自己已經達到內心的解脫,可以這樣自我證明:
「我已經結束了所有的生命歷程,我已經走上了道路,我已經完成了我應該完成的使命,我自己知道自己不會再次投胎。」

佛陀告訴比丘們,觀察無常同樣也可以用來觀察苦、空、無我等主要佛法觀念。
當比丘們聽到佛陀的教導時,都感到非常高興並且努力實踐。

再換個方式問:

如果你是一位已有修證經驗的佛教宗教師,聽法的對象是初學者,請你將以下文字翻譯為白話:

如是我聞:一時,佛住舍衛國祇樹給孤獨園。爾時,世尊告諸比丘:「當觀色無常。如是觀者,則為正觀。正觀者,則生厭離;厭離者,喜貪盡;喜貪盡者,說心解脫。「如是觀受、想、行、識無常。如是觀者,則為正觀。正觀者,則生厭離;厭離者,喜貪盡;喜貪盡者,說心解脫。「如是,比丘!心解脫者,若欲自證,則能自證:『我生已盡,梵行已立,所作已作,自知不受後有。』「如觀無常,苦、空、非我亦復如是。」時,諸比丘聞佛所說,歡喜奉行。」

ChatGPT 答:

這段文字是說一位佛陀告訴比丘們,要觀察世間萬物的無常性。

當你正確地觀察到這一點時,你會開始厭離於它們,對它們不再執著,進而產生內心解脫的喜悅。

如果你也能如此觀察自己的感受、思想、行為和認知,同樣可以達到這種解脫的境界。

當你真正體悟到這種解脫時,你會自信地說:
「我已經完成了我的生命使命,我已經開始進行向着涅槃的修行,
我的所作所為也已經做完了,我知道自己不再有下一個生命。」

這就是觀察無常性的道理,同樣也適用於苦、空和非我等其他方面。

當比丘們聽了佛陀的教導後,都非常高興,並努力實踐。

2015-01-27

InDesign Script: 註標 字元樣式 特例處理

在使用 InDesign Script 的時候,註腳的註標字元樣式可以使用 FootnoteOption 的 footnoteMarkerStyle 來控制,一改就會套用到所有的註標,但是在某些情況下需要對某個特定的註標做個別設定。

例如,在文件裡的人名都使用底線來標示,這時如果在人名之中有個註腳,就會變成這樣:
D
人名的底線被切開了,而我們希望它的底線能夠連在一起,於是我們另設了一個字元樣式叫做 footnote-anchor-underline,設定它是有底線的,並在底線選項裡將寬度設為 0.6點,偏移量設為 8.2點,這樣可以讓註標的底線向下偏移,與人名的底線對齊。

這個做法在 InDesign 裡手動操作成功了,然後需要使用 Script 來自動處理,用下面的程式碼來找出所有註標:
app.findGrepPreferences.findWhat = "(?<=.)~F";
matches = doc.findGrep();
使用 GREP 來找東西,方法可以參考 InDesign Help 的 Search using GREP expressions。表示式裡所用的語法可以參考:Metacharacters for searching。其中的 ~F  表示要搜尋的是 Footnote Reference Marker,也就是註標。但是這會連註腳裡的註標也一起找到,而我們只要內文裡的註標,所以找到的東西前面要有個任意字元,於是在表示式裡用了 Positive Lookbehind:(?<= )。設定好要找的條件之後,使用 Document 物件的 findGrep 找出符合的東西。

現在 matches 是找到文件裡所有註標 (內文裡的),它是一個由 Text 物件組成的矩陣,我們要把最後一個新加上的註標 matches[matches.length-1] 套用新的字元樣式:
var c_style = doc.characterStyles.item('footnote-anchor-underline');
matches[matches.length-1].applyCharacterStyle(c_style);
大功告成!

InDesign Script 參考資料:Adobe InDesign CS6 (8.0) Object Model,裡面有一個 Class Index,可以很方便找到所需的物件說明。

2015-01-07

MDict 詞典 mdx 檔轉成純文字檔

convert mdict to text
convert mdx to text

網路上找到最簡單的方法是使用 GetDict.exe,但是能找到的下載點得到的都是廣告軟體,最後還是使用 readmdict.py 成功將 mdict 檔轉出 txt,方法如下:

於 windows 環境下安裝 python 2.7

安裝 python-lzo
http://www.lfd.uci.edu/~gohlke/pythonlibs/#python-lzo
下載 readmdict.py
https://github.com/ilius/pyglossary/blob/master/pyglossary/readmdict.py
執行 readmdict.py -x YourDictName.mdx

得到 YourDictName.txt

2014-12-26

Gitlab User Profile Error: 500

我在 Unbutu 14.04 上架設 Gitlab server,
測試一陣子都 OK,
後來不知道為什麼,要進入 User Profile 網頁就會出現錯誤碼:500,
每個 user 的 profile 都一樣。

網路上找了許久,沒找到解到辦法,
後來想起來,本來我是安裝 Gitlab 7.5.3,後來更新到 7.6.1,
更新方法是直接下載新版,然後直接安裝新版,
會不會是這裡出了問題?

後來找到 Gitlab 的更新說明:Updating GitLab via omnibus-gitlab
照著指示步驟做,問題就解決了!
也就是說,更新 Gitlab 時,要按指示做,不能直接安裝新版。

2014-12-19

Ubuntu + Rails + Passenger + Gitlab

如何在已有 Nginx/Passenger/Rails 的環境加裝 Gitlab?

環境:

  • Server: Ubuntu 14.04
  • Web server: Nginx + Apache
  • Ruby on Rails 

我的主機已有 Rails app 在執行,後來需要加裝 Gitlab (也是使用 Rails),使用 Gitlab 建議的 Omnibus 安裝套件,安裝之後,Gitlab 是可以執行了,但是舊的 Rails app 也不能執行了,出現 404 錯誤。

研究了好久,原來 Omnibus 安裝套件自己包了一套 Nginx,而且是使用 Unicorn,不是 Passenger。

後來在 omnibus-gitlab 的一份文件 NGINX settings 裡找到「Using an existing Passenger/Nginx installation」,依指示設定,讓 Omnibus 安裝套件使用主機原有的 Passenger/Nginx,在 Nginx 加設定執行新的 Gitlab,終於讓舊的 app 跟 Gitlab 都可以執行了!

2014-12-10

Mac版 MS Word 2011 Tahoma 字型顯示問題

有位師長 H,電腦是 2014年11月 購買的 MacBook Air,email 收到 word 附件,使用 mac 版的 Microsoft Word 2011 開啟,文件裡有一個「五蓋」的「蓋」的梵文轉寫「āvaraṇa」,其中的「ṇ」未正確顯示,僅顯示方框,字型是 Tahoma。

我的電腦是 2014年7月購買的 MacBook Air,比 H 電腦舊一點點,但也沒差幾個月,開啟相同的 word 檔卻可以正確顯示 āvaraṇa,雖然「ṇ」比週圍的字母大了一點點,週圍的字型是 Times New Roman,如果把「ṇ」的字型也改為 Times New Roman,整個字的大小就比較一致。

在網路上 Google 也有一些人有相同的 Tahoma 字型問題,情況大多是舊電腦 OK,新電腦才有問題。就有人建議把舊電腦的 Tahoma 字型安裝到新電腦。

我有點懷疑 H 電腦跟我的電腦的 Tahoma 字型會不一樣嗎?機型一樣,作業系統也一樣。

但是因為沒有更好的辦法,就複製我電腦裡的 Tahoma 字型,安裝到 H 電腦上,結果問題就解決了!

後來想,也許真的不一樣,可能 H 電腦買來就是 Mac OS X Yosemite 10.10,而我的電腦本來是 Mac OS X Maverick 10.9,後來才做的更新。