Character set ของภาษาไทย

Rate this item
(1 Vote)
Character set ของภาษาไทย
character set ของภาษาไทย
  • ภาษาไทยปัจจุบันจะมีอยู่สองมาตรฐานที่ใช้กันครับ คือ TIS-620 และ ISO-8859-11
  • TIS-620 เป็นที่ยอมรับกันในมาตรฐานสากล ประเทศไทยมีมาตรฐานอักขระซึ่งกำหนดโดย สำนักงานมาตรฐานอุตสาหกรรม ดังที่เรียกกันโดยทั่วไปว่ารหัส สมอ. แต่รหัส สมอ. หรือที่มีชื่อทางการว่า มอก.620 หรือ TIS-620 นี้ เป็นมาตรฐานของประเทศไทย ซึ่งเมื่อนำไปใช้บนเครือข่ายอินเทอร์เน็ต ก็อาจเกิดความเข้าใจไม่ตรงกันได้ ดังนั้นจึงมีความพยายามที่จะจดทะเบียน รหัส สมอ. ที่ Internet Assigned Numbers Authority (IANA) ซึ่งเป็นผู้ควบคุมมาตรฐานของเครือข่ายอินเทอร์เน็ต และได้ดำเนินการจดทะเบียนจนสำเร็จ เมื่อวันที่ 22 กันยายน 2541
  • รหัส TIS-620 มีรายละเอียดคล้ายรหัส ISO-8859-11 มาก แตกต่างกันแค่เพียงที่ ISO-8859-11 กำหนดให้ A0 เป็น "เว้นวรรคแบบไม่ตัดคำ" (no-break space) ส่วน TIS-620 นั้นแม้จะสงวนตำแหน่ง A0 เอาไว้ แต่ก็ไม่ได้กำหนดค่าใด ๆ ให้

ตาราง Reference

วิธีการอ่านตารางนี้ ถ้าเราต้องการตัวอักษร ก ให้เราดูที่ column ด้านซ้ายสุดก่อนแลัวค่อยดูว่าตรงกับ header ด้านบนว่าตรงกับตัวอะไรนะครับ เช่น ก ก็จะเป็น A1 ครับ

นอกจากสองมาตรฐานนี้แล้วยังมีมาตรฐานอื่นอีก เช่น UTF-8 และ Windows-874 (Windows-874 พัฒนามาจาก Microsoft โดยเป็นเสมือน Subset ของ TIS-620 ครับ แต่ไม่ได้เป็นมาตรฐานทั่วไป จะเห็นได้ตามโปรแกรมของ Microsoft นะครับ) ที่เราอาจจะเคยผ่านตามาบ้าง ซึ่งจริงๆก็ยังมีมาตรฐานอื่นอีกมากมายนะครับ ตัวอย่างเช่น ตัวอักษร ก ก็จะมีค่ามากมายตามมาตรฐานต่างๆ ดังนี้

Character SetHex Byte(s)
CESU-8 e0b881
GB18030 8132ce39
IBM-Thai 42
TIS-620 a1
UTF-16 feff0e01
UTF-16BE 0e01
UTF-16LE 010e
UTF-32 00000e01
UTF-32BE 00000e01
UTF-32LE 010e0000
UTF-8 e0b881
x-IBM874 a1
x-iso-8859-11 a1
x-MacThai a1
x-UTF-16LE-BOM fffe010e
X-UTF-32BE-BOM 0000feff00000e01
X-UTF-32LE-BOM fffe0000010e0000
x-windows-874 a1

 

ดังนั้น สำหรับนักเขียนโปรแกรมก็สามารถเข้าไปดูข้อมูลเพิ่มเติมได้ที่ www.fileformat.info ครับ

อ้างอิง :

http://www.thailibrary.in.th/2014/02/13/char-set/

https://th.wikipedia.org/wiki/TIS-620