string_utils.go 7.5 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205
  1. package utils
  2. // 字符串处理工具类
  3. import (
  4. "golang.org/x/text/encoding/simplifiedchinese"
  5. "regexp"
  6. "strings"
  7. )
  8. type Charset string
  9. const (
  10. UTF8 = Charset("UTF-8")
  11. GB18030 = Charset("GB18030")
  12. GBK = Charset("GBK")
  13. )
  14. var (
  15. GB18030Decoder = simplifiedchinese.GB18030.NewDecoder()
  16. GBKDecoder = simplifiedchinese.GBK.NewDecoder()
  17. )
  18. func ConvertToEncodingBytes(bytes []byte, charset Charset) []byte {
  19. switch charset {
  20. case GB18030:
  21. var decodeBytes, _ = GB18030Decoder.Bytes(bytes)
  22. return decodeBytes
  23. case GBK:
  24. var decodeBytes, _ = GBKDecoder.Bytes(bytes)
  25. return decodeBytes
  26. case UTF8:
  27. fallthrough
  28. default:
  29. return bytes
  30. }
  31. }
  32. func SplitChineseName(name string) (string, string) {
  33. if len(strings.TrimSpace(name)) == 0 {
  34. return "", ""
  35. }
  36. name = strings.TrimSpace(name)
  37. for _, str := range surnames {
  38. if strings.Index(name, str) == 0 {
  39. return str, strings.TrimLeft(name, str)
  40. }
  41. }
  42. return SubStr(name, 0, 1), SubStr(name, 1, -1)
  43. }
  44. // 支持中文的字符串Index
  45. func IndexOfStr(str, substr string) int {
  46. // 子串在字符串的字节位置
  47. result := strings.Index(str, substr)
  48. if result >= 0 {
  49. // 获得子串之前的字符串并转换成[]byte
  50. prefix := []byte(str)[0:result]
  51. // 将子串之前的字符串转换成[]rune
  52. rs := []rune(string(prefix))
  53. // 获得子串之前的字符串的长度,便是子串在字符串的字符位置
  54. result = len(rs)
  55. }
  56. return result
  57. }
  58. // 支持中文的字符串截取, end传-1为无限大
  59. func SubStr(input string, begin, end int) string {
  60. if begin < 0 {
  61. begin = 0
  62. }
  63. if end >= 0 && end <= begin {
  64. return ""
  65. }
  66. rs := []rune(input)
  67. ls := len(rs)
  68. if ls <= begin {
  69. return ""
  70. } else if ls <= end || end < 0 {
  71. return string(rs[begin:])
  72. } else {
  73. return string(rs[begin:end])
  74. }
  75. }
  76. var SurNames = []string{
  77. "赵", "钱", "孙", "李", "周", "吴", "郑", "王",
  78. "冯", "陈", "卫", "蒋", "沈", "韩", "杨",
  79. "朱", "秦", "尤", "许", "何", "吕", "施", "张",
  80. "孔", "曹", "严", "金", "魏", "陶", "姜",
  81. "戚", "谢", "邹", "喻", "章",
  82. "云", "苏", "潘", "葛", "范", "彭", "郎",
  83. "鲁", "马", "花", "方",
  84. "俞", "任", "袁", "柳", "史", "唐",
  85. }
  86. var surnames = []string{
  87. "赵", "钱", "孙", "李", "周", "吴", "郑", "王",
  88. "冯", "陈", "楮", "卫", "蒋", "沈", "韩", "杨",
  89. "朱", "秦", "尤", "许", "何", "吕", "施", "张",
  90. "孔", "曹", "严", "华", "金", "魏", "陶", "姜",
  91. "戚", "谢", "邹", "喻", "柏", "水", "窦", "章",
  92. "云", "苏", "潘", "葛", "奚", "范", "彭", "郎",
  93. "鲁", "韦", "昌", "马", "苗", "凤", "花", "方",
  94. "俞", "任", "袁", "柳", "酆", "鲍", "史", "唐",
  95. "费", "廉", "岑", "薛", "雷", "贺", "倪", "汤",
  96. "滕", "殷", "罗", "毕", "郝", "邬", "安", "常",
  97. "乐", "于", "时", "傅", "皮", "卞", "齐", "康",
  98. "伍", "余", "元", "卜", "顾", "孟", "平", "黄",
  99. "和", "穆", "萧", "尹", "姚", "邵", "湛", "汪",
  100. "祁", "毛", "禹", "狄", "米", "贝", "明", "臧",
  101. "计", "伏", "成", "戴", "谈", "宋", "茅", "庞",
  102. "熊", "纪", "舒", "屈", "项", "祝", "董", "梁",
  103. "杜", "阮", "蓝", "闽", "席", "季", "麻", "强",
  104. "贾", "路", "娄", "危", "江", "童", "颜", "郭",
  105. "梅", "盛", "林", "刁", "锺", "徐", "丘", "骆",
  106. "高", "夏", "蔡", "田", "樊", "胡", "凌", "霍",
  107. "虞", "万", "支", "柯", "昝", "管", "卢", "莫",
  108. "经", "房", "裘", "缪", "干", "解", "应", "宗",
  109. "丁", "宣", "贲", "邓", "郁", "单", "杭", "洪",
  110. "包", "诸", "左", "石", "崔", "吉", "钮", "龚",
  111. "程", "嵇", "邢", "滑", "裴", "陆", "荣", "翁",
  112. "荀", "羊", "於", "惠", "甄", "麹", "家", "封",
  113. "芮", "羿", "储", "靳", "汲", "邴", "糜", "松",
  114. "井", "段", "富", "巫", "乌", "焦", "巴", "弓",
  115. "牧", "隗", "山", "谷", "车", "侯", "宓", "蓬",
  116. "全", "郗", "班", "仰", "秋", "仲", "伊", "宫",
  117. "宁", "仇", "栾", "暴", "甘", "斜", "厉", "戎",
  118. "祖", "武", "符", "刘", "景", "詹", "束", "龙",
  119. "叶", "幸", "司", "韶", "郜", "黎", "蓟", "薄",
  120. "印", "宿", "白", "怀", "蒲", "邰", "从", "鄂",
  121. "索", "咸", "籍", "赖", "卓", "蔺", "屠", "蒙",
  122. "池", "乔", "阴", "郁", "胥", "能", "苍", "双",
  123. "闻", "莘", "党", "翟", "谭", "贡", "劳", "逄",
  124. "姬", "申", "扶", "堵", "冉", "宰", "郦", "雍",
  125. "郤", "璩", "桑", "桂", "濮", "牛", "寿", "通",
  126. "边", "扈", "燕", "冀", "郏", "浦", "尚", "农",
  127. "温", "别", "庄", "晏", "柴", "瞿", "阎", "充",
  128. "慕", "连", "茹", "习", "宦", "艾", "鱼", "容",
  129. "向", "古", "易", "慎", "戈", "廖", "庾", "终",
  130. "暨", "居", "衡", "步", "都", "耿", "满", "弘",
  131. "匡", "国", "文", "寇", "广", "禄", "阙", "东",
  132. "欧", "殳", "沃", "利", "蔚", "越", "夔", "隆",
  133. "师", "巩", "厍", "聂", "晁", "勾", "敖", "融",
  134. "冷", "訾", "辛", "阚", "那", "简", "饶", "空",
  135. "曾", "毋", "沙", "乜", "养", "鞠", "须", "丰",
  136. "巢", "关", "蒯", "相", "查", "后", "荆", "红",
  137. "游", "竺", "权", "逑", "盖", "益", "桓", "公",
  138. "旷", "肖", "付", "钟",
  139. "万俟", "司马", "上官", "欧阳",
  140. "夏侯", "诸葛", "闻人", "东方",
  141. "赫连", "皇甫", "尉迟", "公羊",
  142. "澹台", "公冶", "宗政", "濮阳",
  143. "淳于", "单于", "太叔", "申屠",
  144. "公孙", "仲孙", "轩辕", "令狐",
  145. "锺离", "宇文", "长孙", "慕容",
  146. "鲜于", "闾丘", "司徒", "司空",
  147. "丌官", "司寇", "仉", "督", "子车",
  148. "颛孙", "端木", "巫马", "公西",
  149. "漆雕", "乐正", "壤驷", "公良",
  150. "拓拔", "夹谷", "宰父", "谷梁",
  151. "晋", "楚", "阎", "法", "汝", "鄢", "涂", "钦",
  152. "段干", "百里", "东郭", "南门",
  153. "呼延", "归", "海", "羊舌", "微生",
  154. "岳", "帅", "缑", "亢", "况", "后", "有", "琴",
  155. "梁丘", "左丘", "东门", "西门",
  156. "商", "牟", "佘", "佴", "伯", "赏", "南宫",
  157. "墨", "哈", "谯", "笪", "年", "爱", "阳", "佟",
  158. }
  159. var (
  160. locationPostfixPattern *regexp.Regexp
  161. nationPattern *regexp.Regexp
  162. emptyBytes []byte
  163. )
  164. func init() {
  165. locationPostfixPattern, _ = regexp.Compile(`(省|市|特别行政区|特区|自治区|自治州|自治县|自治乡|自治旗|盟|地区|县|乡|镇|旗|街道办|街道|区)*$`)
  166. nationPattern, _ = regexp.Compile(`(布朗族|布朗|佤族|拉祜族|拉祜|水族|怒族|独龙族|普米族|普米|保安族|纳西族|纳西|哈尼族|哈尼|达斡尔族|阿昌族|阿昌|达斡尔|乌孜别克族|乌孜别克|僳僳族|僳僳|俄罗斯族|俄罗斯|京族|塔塔尔族|塔塔尔|鄂伦春族|鄂伦春|赫哲族|赫哲|基诺族|基诺|门巴族|门巴|东乡族|高山族|珞巴族|珞巴|鄂温克族|鄂温克|撒拉族|德昂族|焉耆族|焉耆|锡伯族|锡伯|撒拉|裕固族|裕固|布依族|布依|毛南族|毛南|各族|仫佬族|仫佬|侗族|羌族|朝鲜族|鲜族|朝鲜|壮族|蒙古族|蒙古|蒙族|苗族|畲族|瑶族|彝族|白族|土家族|土族|傣族|景颇族|黎族|维吾尔族|维吾尔|吉尔吉斯|吉尔吉斯族|柯尔克孜|柯尔克孜族|塔吉克族|塔吉克|哈萨克族|哈萨克|藏族|回族|满族)$`)
  167. emptyBytes = []byte("")
  168. }
  169. // 获取干净的中国省份、城市、区域名称
  170. func GetCleanLocationName(name string) string {
  171. name = strings.TrimSpace(name)
  172. if name == "" {
  173. return ""
  174. }
  175. rs := []rune(name)
  176. if len(rs) <= 2 {
  177. return name
  178. }
  179. b := []byte(name)
  180. b = locationPostfixPattern.ReplaceAll(b, emptyBytes)
  181. if string(b) != "内蒙古" {
  182. for nationPattern.Match(b) {
  183. b = nationPattern.ReplaceAll(b, emptyBytes)
  184. }
  185. }
  186. return string(b)
  187. }