|
@@ -0,0 +1,195 @@
|
|
|
+package utils
|
|
|
+
|
|
|
+// 字符串处理工具类
|
|
|
+
|
|
|
+import (
|
|
|
+ "golang.org/x/text/encoding/simplifiedchinese"
|
|
|
+ "regexp"
|
|
|
+ "strings"
|
|
|
+)
|
|
|
+
|
|
|
+type Charset string
|
|
|
+
|
|
|
+const (
|
|
|
+ UTF8 = Charset("UTF-8")
|
|
|
+ GB18030 = Charset("GB18030")
|
|
|
+ GBK = Charset("GBK")
|
|
|
+)
|
|
|
+
|
|
|
+func ConvertToEncodingBytes(bytes []byte, charset Charset) []byte {
|
|
|
+ switch charset {
|
|
|
+ case GB18030:
|
|
|
+ var decodeBytes, _ = simplifiedchinese.GB18030.NewDecoder().Bytes(bytes)
|
|
|
+ return decodeBytes
|
|
|
+ case GBK:
|
|
|
+ var decodeBytes, _ = simplifiedchinese.GBK.NewDecoder().Bytes(bytes)
|
|
|
+ return decodeBytes
|
|
|
+ case UTF8:
|
|
|
+ fallthrough
|
|
|
+ default:
|
|
|
+ return bytes
|
|
|
+ }
|
|
|
+}
|
|
|
+
|
|
|
+func SplitChineseName(name string) (string, string) {
|
|
|
+ if len(strings.TrimSpace(name)) == 0 {
|
|
|
+ return "", ""
|
|
|
+ }
|
|
|
+
|
|
|
+ name = strings.TrimSpace(name)
|
|
|
+ for _, str := range surnames {
|
|
|
+ if strings.Index(name, str) == 0 {
|
|
|
+ return str, strings.TrimLeft(name, str)
|
|
|
+ }
|
|
|
+ }
|
|
|
+
|
|
|
+ return SubStr(name, 0, 1), SubStr(name, 1, -1)
|
|
|
+}
|
|
|
+
|
|
|
+// 支持中文的字符串Index
|
|
|
+func IndexOfStr(str, substr string) int {
|
|
|
+ // 子串在字符串的字节位置
|
|
|
+ result := strings.Index(str, substr)
|
|
|
+ if result >= 0 {
|
|
|
+ // 获得子串之前的字符串并转换成[]byte
|
|
|
+ prefix := []byte(str)[0:result]
|
|
|
+ // 将子串之前的字符串转换成[]rune
|
|
|
+ rs := []rune(string(prefix))
|
|
|
+ // 获得子串之前的字符串的长度,便是子串在字符串的字符位置
|
|
|
+ result = len(rs)
|
|
|
+ }
|
|
|
+ return result
|
|
|
+}
|
|
|
+
|
|
|
+// 支持中文的字符串截取, end传-1为无限大
|
|
|
+func SubStr(input string, begin, end int) string {
|
|
|
+ if begin < 0 {
|
|
|
+ begin = 0
|
|
|
+ }
|
|
|
+ if end >= 0 && end <= begin {
|
|
|
+ return ""
|
|
|
+ }
|
|
|
+ rs := []rune(input)
|
|
|
+ ls := len(rs)
|
|
|
+ if ls <= begin {
|
|
|
+ return ""
|
|
|
+ } else if ls <= end || end < 0 {
|
|
|
+ return string(rs[begin:])
|
|
|
+ } else {
|
|
|
+ return string(rs[begin:end])
|
|
|
+ }
|
|
|
+}
|
|
|
+
|
|
|
+var SurNames = []string{
|
|
|
+ "赵", "钱", "孙", "李", "周", "吴", "郑", "王",
|
|
|
+ "冯", "陈", "卫", "蒋", "沈", "韩", "杨",
|
|
|
+ "朱", "秦", "尤", "许", "何", "吕", "施", "张",
|
|
|
+ "孔", "曹", "严", "金", "魏", "陶", "姜",
|
|
|
+ "戚", "谢", "邹", "喻", "章",
|
|
|
+ "云", "苏", "潘", "葛", "范", "彭", "郎",
|
|
|
+ "鲁", "马", "花", "方",
|
|
|
+ "俞", "任", "袁", "柳", "史", "唐",
|
|
|
+}
|
|
|
+
|
|
|
+var surnames = []string{
|
|
|
+ "赵", "钱", "孙", "李", "周", "吴", "郑", "王",
|
|
|
+ "冯", "陈", "楮", "卫", "蒋", "沈", "韩", "杨",
|
|
|
+ "朱", "秦", "尤", "许", "何", "吕", "施", "张",
|
|
|
+ "孔", "曹", "严", "华", "金", "魏", "陶", "姜",
|
|
|
+ "戚", "谢", "邹", "喻", "柏", "水", "窦", "章",
|
|
|
+ "云", "苏", "潘", "葛", "奚", "范", "彭", "郎",
|
|
|
+ "鲁", "韦", "昌", "马", "苗", "凤", "花", "方",
|
|
|
+ "俞", "任", "袁", "柳", "酆", "鲍", "史", "唐",
|
|
|
+ "费", "廉", "岑", "薛", "雷", "贺", "倪", "汤",
|
|
|
+ "滕", "殷", "罗", "毕", "郝", "邬", "安", "常",
|
|
|
+ "乐", "于", "时", "傅", "皮", "卞", "齐", "康",
|
|
|
+ "伍", "余", "元", "卜", "顾", "孟", "平", "黄",
|
|
|
+ "和", "穆", "萧", "尹", "姚", "邵", "湛", "汪",
|
|
|
+ "祁", "毛", "禹", "狄", "米", "贝", "明", "臧",
|
|
|
+ "计", "伏", "成", "戴", "谈", "宋", "茅", "庞",
|
|
|
+ "熊", "纪", "舒", "屈", "项", "祝", "董", "梁",
|
|
|
+ "杜", "阮", "蓝", "闽", "席", "季", "麻", "强",
|
|
|
+ "贾", "路", "娄", "危", "江", "童", "颜", "郭",
|
|
|
+ "梅", "盛", "林", "刁", "锺", "徐", "丘", "骆",
|
|
|
+ "高", "夏", "蔡", "田", "樊", "胡", "凌", "霍",
|
|
|
+ "虞", "万", "支", "柯", "昝", "管", "卢", "莫",
|
|
|
+ "经", "房", "裘", "缪", "干", "解", "应", "宗",
|
|
|
+ "丁", "宣", "贲", "邓", "郁", "单", "杭", "洪",
|
|
|
+ "包", "诸", "左", "石", "崔", "吉", "钮", "龚",
|
|
|
+ "程", "嵇", "邢", "滑", "裴", "陆", "荣", "翁",
|
|
|
+ "荀", "羊", "於", "惠", "甄", "麹", "家", "封",
|
|
|
+ "芮", "羿", "储", "靳", "汲", "邴", "糜", "松",
|
|
|
+ "井", "段", "富", "巫", "乌", "焦", "巴", "弓",
|
|
|
+ "牧", "隗", "山", "谷", "车", "侯", "宓", "蓬",
|
|
|
+ "全", "郗", "班", "仰", "秋", "仲", "伊", "宫",
|
|
|
+ "宁", "仇", "栾", "暴", "甘", "斜", "厉", "戎",
|
|
|
+ "祖", "武", "符", "刘", "景", "詹", "束", "龙",
|
|
|
+ "叶", "幸", "司", "韶", "郜", "黎", "蓟", "薄",
|
|
|
+ "印", "宿", "白", "怀", "蒲", "邰", "从", "鄂",
|
|
|
+ "索", "咸", "籍", "赖", "卓", "蔺", "屠", "蒙",
|
|
|
+ "池", "乔", "阴", "郁", "胥", "能", "苍", "双",
|
|
|
+ "闻", "莘", "党", "翟", "谭", "贡", "劳", "逄",
|
|
|
+ "姬", "申", "扶", "堵", "冉", "宰", "郦", "雍",
|
|
|
+ "郤", "璩", "桑", "桂", "濮", "牛", "寿", "通",
|
|
|
+ "边", "扈", "燕", "冀", "郏", "浦", "尚", "农",
|
|
|
+ "温", "别", "庄", "晏", "柴", "瞿", "阎", "充",
|
|
|
+ "慕", "连", "茹", "习", "宦", "艾", "鱼", "容",
|
|
|
+ "向", "古", "易", "慎", "戈", "廖", "庾", "终",
|
|
|
+ "暨", "居", "衡", "步", "都", "耿", "满", "弘",
|
|
|
+ "匡", "国", "文", "寇", "广", "禄", "阙", "东",
|
|
|
+ "欧", "殳", "沃", "利", "蔚", "越", "夔", "隆",
|
|
|
+ "师", "巩", "厍", "聂", "晁", "勾", "敖", "融",
|
|
|
+ "冷", "訾", "辛", "阚", "那", "简", "饶", "空",
|
|
|
+ "曾", "毋", "沙", "乜", "养", "鞠", "须", "丰",
|
|
|
+ "巢", "关", "蒯", "相", "查", "后", "荆", "红",
|
|
|
+ "游", "竺", "权", "逑", "盖", "益", "桓", "公",
|
|
|
+ "旷", "肖", "付", "钟",
|
|
|
+ "万俟", "司马", "上官", "欧阳",
|
|
|
+ "夏侯", "诸葛", "闻人", "东方",
|
|
|
+ "赫连", "皇甫", "尉迟", "公羊",
|
|
|
+ "澹台", "公冶", "宗政", "濮阳",
|
|
|
+ "淳于", "单于", "太叔", "申屠",
|
|
|
+ "公孙", "仲孙", "轩辕", "令狐",
|
|
|
+ "锺离", "宇文", "长孙", "慕容",
|
|
|
+ "鲜于", "闾丘", "司徒", "司空",
|
|
|
+ "丌官", "司寇", "仉", "督", "子车",
|
|
|
+ "颛孙", "端木", "巫马", "公西",
|
|
|
+ "漆雕", "乐正", "壤驷", "公良",
|
|
|
+ "拓拔", "夹谷", "宰父", "谷梁",
|
|
|
+ "晋", "楚", "阎", "法", "汝", "鄢", "涂", "钦",
|
|
|
+ "段干", "百里", "东郭", "南门",
|
|
|
+ "呼延", "归", "海", "羊舌", "微生",
|
|
|
+ "岳", "帅", "缑", "亢", "况", "后", "有", "琴",
|
|
|
+ "梁丘", "左丘", "东门", "西门",
|
|
|
+ "商", "牟", "佘", "佴", "伯", "赏", "南宫",
|
|
|
+ "墨", "哈", "谯", "笪", "年", "爱", "阳", "佟",
|
|
|
+}
|
|
|
+
|
|
|
+var (
|
|
|
+ locationPostfixPattern *regexp.Regexp
|
|
|
+ nationPattern *regexp.Regexp
|
|
|
+ emptyBytes []byte
|
|
|
+)
|
|
|
+
|
|
|
+func init() {
|
|
|
+ locationPostfixPattern, _ = regexp.Compile(`(省|市|特别行政区|特区|自治区|自治州|自治县|自治乡|自治旗|盟|地区|县|乡|镇|旗|街道办|街道)*$`)
|
|
|
+ nationPattern, _ = regexp.Compile(`(布朗族|布朗|佤族|拉祜族|拉祜|水族|怒族|独龙族|普米族|普米|保安族|纳西族|纳西|哈尼族|哈尼|达斡尔族|阿昌族|阿昌|达斡尔|乌孜别克族|乌孜别克|僳僳族|僳僳|俄罗斯族|俄罗斯|京族|塔塔尔族|塔塔尔|鄂伦春族|鄂伦春|赫哲族|赫哲|基诺族|基诺|门巴族|门巴|东乡族|高山族|珞巴族|珞巴|鄂温克族|鄂温克|撒拉族|德昂族|焉耆族|焉耆|锡伯族|锡伯|撒拉|裕固族|裕固|布依族|布依|毛南族|毛南|各族|仫佬族|仫佬|侗族|羌族|朝鲜族|鲜族|朝鲜|壮族|蒙古族|蒙古|蒙族|苗族|畲族|瑶族|彝族|白族|土家族|土族|傣族|景颇族|黎族|维吾尔族|维吾尔|吉尔吉斯|吉尔吉斯族|柯尔克孜|柯尔克孜族|塔吉克族|塔吉克|哈萨克族|哈萨克|藏族|回族|满族)$`)
|
|
|
+ emptyBytes = []byte("")
|
|
|
+}
|
|
|
+
|
|
|
+// 获取干净的中国省份、城市、区域名称
|
|
|
+func GetCleanLocationName(name string) string {
|
|
|
+ name = strings.TrimSpace(name)
|
|
|
+ if name == "" {
|
|
|
+ return ""
|
|
|
+ }
|
|
|
+
|
|
|
+ b := []byte(name)
|
|
|
+ b = locationPostfixPattern.ReplaceAll(b, emptyBytes)
|
|
|
+ if string(b) != "内蒙古" {
|
|
|
+ for nationPattern.Match(b) {
|
|
|
+ b = nationPattern.ReplaceAll(b, emptyBytes)
|
|
|
+ }
|
|
|
+ }
|
|
|
+ return string(b)
|
|
|
+}
|