教育部台語辭典目前使用的查詢方式是以 REGEX 的理路來寫,步驟如下

比對的對象為臺羅數字版,第1、4聲也須完整寫出(如:sai1、iat4)。使用正規表達式查詢時,若需要在表達式中包含該音節的末尾,則必須將聲調數字包含在內。
例:用「iat4$」查詢結尾是iat的詞,因為有使用「$」表達整個詞的結尾,因此須寫出「4」才能正確查詢。若輸入「iat$」則會查無結果。
例:用「^ti1 .+」查詢首字為「ti」,後面有其他任意音節的詞,因為有使用空白來表達「ti1」此音節的結尾,因此需寫出「1」才能正確查詢。若輸入「^ti .+」則會查無結果。
為避免在一般查詢時,因連字符差異造成查無結果,比對的臺羅數字版將所有連字符都替換成空白。因此,以正規表達式查詢時,音節間須為空白,不可用連字符。
例:用「h(ue|e)2 tshia」可以查詢到「hué-tshia」、「hé-tshia」。若輸入「h(ue|e)2-tshia」則會查無結果。
符號說明
此處介紹常用的特殊符號及辭典查詢情境,完整符號說明請參考Python正規表達式文件。
【.】:代表有一個任何的字元。
輸入「袂.得」,查詢「袂」、「得」兩字中間有任何一個字元的詞目,如「袂用得」、「袂堪得」、「痚呴袂忍得嗽。」
【^】:置於表達式開頭,查詢以此開頭的字詞。
輸入「^食」,可查詢到「食」、「食物」、「食品」、「食暗」;輸入「^phin」可查詢到「phín」、「phìng-kim」、「phīnn-á」。
【$】:置於表達式結尾,查詢以此結尾的字詞。
輸入「尾$」可查詢到「後尾」、「菜尾」、「躡跤尾」;輸入「iat4$」可查詢到「phiat」、「oo-pe̍h-tshiat」、「phah-tsiat」。
【[ ]】:比對符合括號內表達式的任何1個字元。
有下列幾種用法:
1.直接指定括號內的字元。
輸入「^si[aptk][14]$」可查詢到「sia」、「sip」、「sit」、「sik」,聲調為第1聲或第4聲,但不會查詢到「siap」、「siak」、「siat」。
2.括號內的字元用範圍表示,如[a-z]、[1-9]。
輸入「^pa[1-9]$」可查詢到「pa」、「pá」、「pà」、「pâ」、「pā」。[1-9] 亦可用 [\d] (代表0~9任一個數字字元)替代。
3.用^排除指定的字元。
輸入「[^pb]uat」,可查詢到「gua̍t」、「bô-huat」、「pì-kuat」,但不會查詢到「pua̍t-á」、「bua̍t」。
4.用^排除特定範圍的字元。
輸入「[^a-z]hian」,可查詢到「a-hiann」、「bîng-hián」、「hiáng」,但不會查詢到「phiàn」、「khián」、「tshiâng」等等h前方還有其他字母的組合。
【(A|B)】:同時查詢AB兩種字串,例如不同腔調的音讀。
輸入「h(ue|e)2 tshia」,可查詢到「hué-tshia」、「hé-tshia」。
注意:「|」符號,若是使用在前一項的「[ ]」內,是代表「|」字元本身,無特殊意義,在辭典內會查無結果。
【?】:前方的表達式出現0次或1次。
輸入「蒜仔?」,可查詢到「蒜」、「蒜仔」、「蒜仔花」、「蒜茸」;輸入「tsah?[34]」,可查詢到「tsà」、「tsah」。前一項的範例也可以使用「hu?e2 tshia 」來查詢。
注意:此符號作用範圍是前一個表達式,若沒有使用括號,是代表前1個字元出現0次或1次。
【*】:前方的表達式出現0次或1次以上。
常用的用法是用.*代表有一個以上的任何字元或沒有任何字元。輸入「.*飯$」,可查詢到「滷肉飯」、「凊飯」、「飯」等。
注意:此符號作用範圍是前一個表達式,若沒有使用括號,是代表前1個字元出現0次或1次以上。
【\1 \2】:配合用括號「()」框起來的範圍,比對有重複的內容。
輸入「紅(.)\1」,\1代表第一個括號(.)比對到的部分(任意一個字元),可查詢到「ABB」的組合如「紅記記」、「紅絳絳」等。
輸入「(.)\1(.)\2」,可查詢到「AABB」構詞的詞目;輸入「(.)(.)\1\2」可查詢到「ABAB」構詞的詞目。
舉例~比論講:我若是欲揣任何的菜
2.佇教典查詢位置輸入正規表達式:菜$
3.就會當揣著有佮菜的台語詞
若是有一工想欲查詢各種條件的台語詞,語法袂曉寫嘛無要緊,以下一寡簡單的範例會當予逐家參考看覓,點相關的連結就會當看著需要的資料,有需要的人會當直接點網址入去看。
我若是欲揣 |
正規表達式 |
網址 |
例如 |
揣任何的菜 |
菜$ |
紅菜、鹹菜 |
|
揣中央是「仔」的詞 (前後無限制字數) |
.仔. |
鴨仔囝、鴨雄仔聲 |
|
揣中央是「仔」的詞 (限制三字詞) |
^.仔.$
|
鴨仔囝、鴨仔癉 |
|
揣「頭」囥頭前的詞 |
^頭 |
頭仔、頭目鳥、頭燒燒,尾冷冷。 |
|
揣「頭」囥後壁的詞 |
頭$ |
尪仔頭、紅蔥仔頭、淡水漁人碼頭 |
|
揣單字詞 |
^.$ |
阿、仔 |
|
揣雙字詞 |
^..$ |
阿母、阿兄 |
|
揣四字詞 |
^….$ |
阿里不達、阿不倒仔 |
|
揣四字詞 (排除羅馬字) |
^[^a-z]...$ |
||
揣包含俗諺語的四字詞(結尾的句號有也好無也好) |
^[^a-z]...。?$ |
||
揣四字詞 (排除羅馬字,上尾字是「仔」) |
^[^a-z]..仔$ |
阿不倒仔、愛睏藥仔 |
|
揣四音節詞 |
^[^ ]+ [^ ]+ [^ ]+ [^ ]+$ |
阿里不達、阿不倒仔(閣揣會著外來語詞「tsioo-kóo-lè-tòo」) |
|
揣俗諺語、熟語 |
。 |
臭焦補無熟。(藏佇「掩來扯去」詞目內底)、鴨仔聽雷。 |
|
有「菜」字的俗諺 |
[菜].*。$ |
目睭花花,匏仔看做菜瓜。六月芥菜假有心。 |
|
揣色水詞 |
[紅黃青綠藍紫烏白] |
紅、紅肉李 |
|
十二生相 俗諺語 |
[鼠牛虎兔龍蛇馬羊猴雞狗豬].*。$ |
䆀猴𠢕欠數。慢牛厚屎尿。 |
|
跤手四字詞 |
^.跤.手$
|
經跤經手、起跤動手 |
|
有無四字詞 |
^[有無].[有無].$ |
無某無猴、有空無榫 |
|
天地詞 |
[天地].*[天地] |
烏天暗地、天反地亂 |
|
揣AA詞 |
^(.)\1$ |
慢慢、萬萬 |
|
揣AAA詞 |
^(.)\1\1$ |
仁仁仁 |
|
揣AAB詞 |
^(.)\1$ |
慢慢仔、密密是 |
|
揣AA仔詞 |
:^(.)\1仔$ |
慢慢仔、微微仔 |
|
揣ABA詞 (其實有包含AAA) |
^(.).\1$ |
未曾未、現拄現 |
|
揣AABB詞 |
^(.)\1(.)\2$ |
茫茫渺渺、挨挨陣陣 |
|
揣ABBA詞 |
^(.)(.)\2\1$ |
省事事省 |
|
揣ABCB詞 |
^(.)(.)(.)\2$ |
袂博假博、好死毋死 |
|
|
^.(.).\1$ |
||
揣ABAB詞 |
^(.)(.)\1\2 |
如此如此、馬西馬西 |
|
|
^(..)\1$ |
||
揣色水ABB詞 |
^[紅黃青綠藍紫烏白](.)\1$ |
紅記記、黃錦錦 |
|
揣頭一字佮第三字攏是數字詞 |
^[一二三四五六七八九十].[一二三四五六七八九 十].$ |
一必一中、 二步七仔 |
|
揣三个以上數字詞(會使佇隔壁) |
[一二三四五六七八九十].*[一二三四五六七八九 十].*[一二三四五六七八九十 |
(14)[一二三四五六七八九十].*[一二三四五六七八九 十].*[一二三四五六七八九十]-用臺灣台語查詞目 -教育部臺灣台語常用詞辭典 |
五四三、二二八公園 |
揣三个以上數字詞(袂使佇隔壁) |
[一二三四五六七八九十].+[一二三四五六七八九 十].+[一二三四五六七八九十] |
|
暗頓減食一口,活甲九十九。一代親,二代表,三代毋捌了了。 |
|
|
|
|
羅馬字理路 |
|
|
|
|
|
|
|
揣兩个音節 |
^[^ ]+ [^ ]+$ |
阿母、阿兄 |
|
限制聲調 |
|
|
|
揣第三調結尾的詞 |
3$ |
亞鉛線suann3、鴉片phian3 |
|
兩个第四調音節 |
^[^ ]+4 [^ ]+4$ |
鴨鵤ah-kak 齷齪ak-tsak |
|
兩个入聲音節 |
^[^ ]+[48][^]+[48]$ |
鴨鵤ah-kak 曷著a̍h-tio̍h |
|
排除h尾 |
^[^ ]+[^h][48] [^ ]+[48]$ |
齷齪ak-tsak 壓力ap-li̍k |
|
聲母 |
|
|
|
揣tsh聲母的詞 |
tsh[^ ]+ |
鴨母喙tshuì 、押尾手tshiú |
|
揣順序是t、g、k的聲母三音節的詞 |
三音節 |
|
|
零聲母 (開頭是韻母的) |
^[aeuio][^ ]+$ |
|
|
零聲母 (開頭排除聲母) |
^[^tshkpgnm][^ ]+$ |
|
|
零聲母 (開頭是韻母而且包括聲化韻母) |
^((m|ng)[1-8]|[aeuio])[^ ]+$ |
|
|
聲化韻母m、ng |
^(m|ng)[1-8]+$ |
姆 ḿ、 䘼 ńg |
|
揣出所有以入聲h韻尾做結尾的詞 |
[^ ]+h[48]$ |
阿爸pah、阿伯peh |
|
揣出佮「台北 Tâi-pak」兩字仝款聲母的詞 |
^t[^sh]+ p[^h]+$ |
帶病tài-pēnn、代辦 tāi-pān |
|
佮台北兩字仝款聲母聲調的詞目 |
^t[^sh][^ ]+5 p[^h][^ ]+4$ |
牢腹tiâu-pak |
|
韻母 |
|
|
|
揣兩个ing韻母 |
先寫兩個音節^[^ ]+ [^ ]+$ 共聲調寫出來^[^ ]+[1-9] [^ ]+[1-9]$ 韻母限制中央^[^ ]+ing[1-9] [^ ]+ing[1-9]$ 排除零聲母頭前可能無符號 ^[^ ]*ing[1-9] [^ ] *ing[1-9]$
|
(51)^[^ ]+ing[1-9] [^ ]+ing[1-9]$-用臺灣台語查詞目 -教育部臺灣台語常用詞辭典有51筆 (42)^[^ ]*ing[1-9] [^ ] *ing[1-9]$-用臺灣台語查詞目 -教育部臺灣台語常用詞辭典有42筆(閒閒、往往ing-ing)
|
明明 bîng-bîng 命令 bīng-līng 聲明 sing-bîng |
若是想欲了解閣較濟 REGEX 的理路kah《教育部臺灣台語常用詞辭典》應用工作坊的內容會當點遮→ 20250111十作實作—《教育部臺灣台語常用詞辭典》應用工作坊(台中場)