package utils // 字符串处理工具类 import ( "golang.org/x/text/encoding/simplifiedchinese" "regexp" "strings" ) type Charset string const ( UTF8 = Charset("UTF-8") GB18030 = Charset("GB18030") GBK = Charset("GBK") ) var ( GB18030Decoder = simplifiedchinese.GB18030.NewDecoder() GBKDecoder = simplifiedchinese.GBK.NewDecoder() ) func ConvertToEncodingBytes(bytes []byte, charset Charset) []byte { switch charset { case GB18030: var decodeBytes, _ = GB18030Decoder.Bytes(bytes) return decodeBytes case GBK: var decodeBytes, _ = GBKDecoder.Bytes(bytes) return decodeBytes case UTF8: fallthrough default: return bytes } } func SplitChineseName(name string) (string, string) { if len(strings.TrimSpace(name)) == 0 { return "", "" } name = strings.TrimSpace(name) for _, str := range surnames { if strings.Index(name, str) == 0 { return str, strings.TrimLeft(name, str) } } return SubStr(name, 0, 1), SubStr(name, 1, -1) } // 支持中文的字符串Index func IndexOfStr(str, substr string) int { // 子串在字符串的字节位置 result := strings.Index(str, substr) if result >= 0 { // 获得子串之前的字符串并转换成[]byte prefix := []byte(str)[0:result] // 将子串之前的字符串转换成[]rune rs := []rune(string(prefix)) // 获得子串之前的字符串的长度,便是子串在字符串的字符位置 result = len(rs) } return result } // 支持中文的字符串截取, end传-1为无限大 func SubStr(input string, begin, end int) string { if begin < 0 { begin = 0 } if end >= 0 && end <= begin { return "" } rs := []rune(input) ls := len(rs) if ls <= begin { return "" } else if ls <= end || end < 0 { return string(rs[begin:]) } else { return string(rs[begin:end]) } } var SurNames = []string{ "赵", "钱", "孙", "李", "周", "吴", "郑", "王", "冯", "陈", "卫", "蒋", "沈", "韩", "杨", "朱", "秦", "尤", "许", "何", "吕", "施", "张", "孔", "曹", "严", "金", "魏", "陶", "姜", "戚", "谢", "邹", "喻", "章", "云", "苏", "潘", "葛", "范", "彭", "郎", "鲁", "马", "花", "方", "俞", "任", "袁", "柳", "史", "唐", } var surnames = []string{ "赵", "钱", "孙", "李", "周", "吴", "郑", "王", "冯", "陈", "楮", "卫", "蒋", "沈", "韩", "杨", "朱", "秦", "尤", "许", "何", "吕", "施", "张", "孔", "曹", "严", "华", "金", "魏", "陶", "姜", "戚", "谢", "邹", "喻", "柏", "水", "窦", "章", "云", "苏", "潘", "葛", "奚", "范", "彭", "郎", "鲁", "韦", "昌", "马", "苗", "凤", "花", "方", "俞", "任", "袁", "柳", "酆", "鲍", "史", "唐", "费", "廉", "岑", "薛", "雷", "贺", "倪", "汤", "滕", "殷", "罗", "毕", "郝", "邬", "安", "常", "乐", "于", "时", "傅", "皮", "卞", "齐", "康", "伍", "余", "元", "卜", "顾", "孟", "平", "黄", "和", "穆", "萧", "尹", "姚", "邵", "湛", "汪", "祁", "毛", "禹", "狄", "米", "贝", "明", "臧", "计", "伏", "成", "戴", "谈", "宋", "茅", "庞", "熊", "纪", "舒", "屈", "项", "祝", "董", "梁", "杜", "阮", "蓝", "闽", "席", "季", "麻", "强", "贾", "路", "娄", "危", "江", "童", "颜", "郭", "梅", "盛", "林", "刁", "锺", "徐", "丘", "骆", "高", "夏", "蔡", "田", "樊", "胡", "凌", "霍", "虞", "万", "支", "柯", "昝", "管", "卢", "莫", "经", "房", "裘", "缪", "干", "解", "应", "宗", "丁", "宣", "贲", "邓", "郁", "单", "杭", "洪", "包", "诸", "左", "石", "崔", "吉", "钮", "龚", "程", "嵇", "邢", "滑", "裴", "陆", "荣", "翁", "荀", "羊", "於", "惠", "甄", "麹", "家", "封", "芮", "羿", "储", "靳", "汲", "邴", "糜", "松", "井", "段", "富", "巫", "乌", "焦", "巴", "弓", "牧", "隗", "山", "谷", "车", "侯", "宓", "蓬", "全", "郗", "班", "仰", "秋", "仲", "伊", "宫", "宁", "仇", "栾", "暴", "甘", "斜", "厉", "戎", "祖", "武", "符", "刘", "景", "詹", "束", "龙", "叶", "幸", "司", "韶", "郜", "黎", "蓟", "薄", "印", "宿", "白", "怀", "蒲", "邰", "从", "鄂", "索", "咸", "籍", "赖", "卓", "蔺", "屠", "蒙", "池", "乔", "阴", "郁", "胥", "能", "苍", "双", "闻", "莘", "党", "翟", "谭", "贡", "劳", "逄", "姬", "申", "扶", "堵", "冉", "宰", "郦", "雍", "郤", "璩", "桑", "桂", "濮", "牛", "寿", "通", "边", "扈", "燕", "冀", "郏", "浦", "尚", "农", "温", "别", "庄", "晏", "柴", "瞿", "阎", "充", "慕", "连", "茹", "习", "宦", "艾", "鱼", "容", "向", "古", "易", "慎", "戈", "廖", "庾", "终", "暨", "居", "衡", "步", "都", "耿", "满", "弘", "匡", "国", "文", "寇", "广", "禄", "阙", "东", "欧", "殳", "沃", "利", "蔚", "越", "夔", "隆", "师", "巩", "厍", "聂", "晁", "勾", "敖", "融", "冷", "訾", "辛", "阚", "那", "简", "饶", "空", "曾", "毋", "沙", "乜", "养", "鞠", "须", "丰", "巢", "关", "蒯", "相", "查", "后", "荆", "红", "游", "竺", "权", "逑", "盖", "益", "桓", "公", "旷", "肖", "付", "钟", "万俟", "司马", "上官", "欧阳", "夏侯", "诸葛", "闻人", "东方", "赫连", "皇甫", "尉迟", "公羊", "澹台", "公冶", "宗政", "濮阳", "淳于", "单于", "太叔", "申屠", "公孙", "仲孙", "轩辕", "令狐", "锺离", "宇文", "长孙", "慕容", "鲜于", "闾丘", "司徒", "司空", "丌官", "司寇", "仉", "督", "子车", "颛孙", "端木", "巫马", "公西", "漆雕", "乐正", "壤驷", "公良", "拓拔", "夹谷", "宰父", "谷梁", "晋", "楚", "阎", "法", "汝", "鄢", "涂", "钦", "段干", "百里", "东郭", "南门", "呼延", "归", "海", "羊舌", "微生", "岳", "帅", "缑", "亢", "况", "后", "有", "琴", "梁丘", "左丘", "东门", "西门", "商", "牟", "佘", "佴", "伯", "赏", "南宫", "墨", "哈", "谯", "笪", "年", "爱", "阳", "佟", } var ( locationPostfixPattern *regexp.Regexp nationPattern *regexp.Regexp emptyBytes []byte ) func init() { locationPostfixPattern, _ = regexp.Compile(`(省|市|特别行政区|特区|自治区|自治州|自治县|自治乡|自治旗|盟|地区|县|乡|镇|旗|街道办|街道|区)*$`) nationPattern, _ = regexp.Compile(`(布朗族|布朗|佤族|拉祜族|拉祜|水族|怒族|独龙族|普米族|普米|保安族|纳西族|纳西|哈尼族|哈尼|达斡尔族|阿昌族|阿昌|达斡尔|乌孜别克族|乌孜别克|僳僳族|僳僳|俄罗斯族|俄罗斯|京族|塔塔尔族|塔塔尔|鄂伦春族|鄂伦春|赫哲族|赫哲|基诺族|基诺|门巴族|门巴|东乡族|高山族|珞巴族|珞巴|鄂温克族|鄂温克|撒拉族|德昂族|焉耆族|焉耆|锡伯族|锡伯|撒拉|裕固族|裕固|布依族|布依|毛南族|毛南|各族|仫佬族|仫佬|侗族|羌族|朝鲜族|鲜族|朝鲜|壮族|蒙古族|蒙古|蒙族|苗族|畲族|瑶族|彝族|白族|土家族|土族|傣族|景颇族|黎族|维吾尔族|维吾尔|吉尔吉斯|吉尔吉斯族|柯尔克孜|柯尔克孜族|塔吉克族|塔吉克|哈萨克族|哈萨克|藏族|回族|满族)$`) emptyBytes = []byte("") } // 获取干净的中国省份、城市、区域名称 func GetCleanLocationName(name string) string { name = strings.TrimSpace(name) if name == "" { return "" } rs := []rune(name) if len(rs) <= 2 { return name } b := []byte(name) b = locationPostfixPattern.ReplaceAll(b, emptyBytes) if string(b) != "内蒙古" { for nationPattern.Match(b) { b = nationPattern.ReplaceAll(b, emptyBytes) } } return string(b) }