123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205 |
- package utils
- // 字符串处理工具类
- import (
- "golang.org/x/text/encoding/simplifiedchinese"
- "regexp"
- "strings"
- )
- type Charset string
- const (
- UTF8 = Charset("UTF-8")
- GB18030 = Charset("GB18030")
- GBK = Charset("GBK")
- )
- var (
- GB18030Decoder = simplifiedchinese.GB18030.NewDecoder()
- GBKDecoder = simplifiedchinese.GBK.NewDecoder()
- )
- func ConvertToEncodingBytes(bytes []byte, charset Charset) []byte {
- switch charset {
- case GB18030:
- var decodeBytes, _ = GB18030Decoder.Bytes(bytes)
- return decodeBytes
- case GBK:
- var decodeBytes, _ = GBKDecoder.Bytes(bytes)
- return decodeBytes
- case UTF8:
- fallthrough
- default:
- return bytes
- }
- }
- func SplitChineseName(name string) (string, string) {
- if len(strings.TrimSpace(name)) == 0 {
- return "", ""
- }
- name = strings.TrimSpace(name)
- for _, str := range surnames {
- if strings.Index(name, str) == 0 {
- return str, strings.TrimLeft(name, str)
- }
- }
- return SubStr(name, 0, 1), SubStr(name, 1, -1)
- }
- // 支持中文的字符串Index
- func IndexOfStr(str, substr string) int {
- // 子串在字符串的字节位置
- result := strings.Index(str, substr)
- if result >= 0 {
- // 获得子串之前的字符串并转换成[]byte
- prefix := []byte(str)[0:result]
- // 将子串之前的字符串转换成[]rune
- rs := []rune(string(prefix))
- // 获得子串之前的字符串的长度,便是子串在字符串的字符位置
- result = len(rs)
- }
- return result
- }
- // 支持中文的字符串截取, end传-1为无限大
- func SubStr(input string, begin, end int) string {
- if begin < 0 {
- begin = 0
- }
- if end >= 0 && end <= begin {
- return ""
- }
- rs := []rune(input)
- ls := len(rs)
- if ls <= begin {
- return ""
- } else if ls <= end || end < 0 {
- return string(rs[begin:])
- } else {
- return string(rs[begin:end])
- }
- }
- var SurNames = []string{
- "赵", "钱", "孙", "李", "周", "吴", "郑", "王",
- "冯", "陈", "卫", "蒋", "沈", "韩", "杨",
- "朱", "秦", "尤", "许", "何", "吕", "施", "张",
- "孔", "曹", "严", "金", "魏", "陶", "姜",
- "戚", "谢", "邹", "喻", "章",
- "云", "苏", "潘", "葛", "范", "彭", "郎",
- "鲁", "马", "花", "方",
- "俞", "任", "袁", "柳", "史", "唐",
- }
- var surnames = []string{
- "赵", "钱", "孙", "李", "周", "吴", "郑", "王",
- "冯", "陈", "楮", "卫", "蒋", "沈", "韩", "杨",
- "朱", "秦", "尤", "许", "何", "吕", "施", "张",
- "孔", "曹", "严", "华", "金", "魏", "陶", "姜",
- "戚", "谢", "邹", "喻", "柏", "水", "窦", "章",
- "云", "苏", "潘", "葛", "奚", "范", "彭", "郎",
- "鲁", "韦", "昌", "马", "苗", "凤", "花", "方",
- "俞", "任", "袁", "柳", "酆", "鲍", "史", "唐",
- "费", "廉", "岑", "薛", "雷", "贺", "倪", "汤",
- "滕", "殷", "罗", "毕", "郝", "邬", "安", "常",
- "乐", "于", "时", "傅", "皮", "卞", "齐", "康",
- "伍", "余", "元", "卜", "顾", "孟", "平", "黄",
- "和", "穆", "萧", "尹", "姚", "邵", "湛", "汪",
- "祁", "毛", "禹", "狄", "米", "贝", "明", "臧",
- "计", "伏", "成", "戴", "谈", "宋", "茅", "庞",
- "熊", "纪", "舒", "屈", "项", "祝", "董", "梁",
- "杜", "阮", "蓝", "闽", "席", "季", "麻", "强",
- "贾", "路", "娄", "危", "江", "童", "颜", "郭",
- "梅", "盛", "林", "刁", "锺", "徐", "丘", "骆",
- "高", "夏", "蔡", "田", "樊", "胡", "凌", "霍",
- "虞", "万", "支", "柯", "昝", "管", "卢", "莫",
- "经", "房", "裘", "缪", "干", "解", "应", "宗",
- "丁", "宣", "贲", "邓", "郁", "单", "杭", "洪",
- "包", "诸", "左", "石", "崔", "吉", "钮", "龚",
- "程", "嵇", "邢", "滑", "裴", "陆", "荣", "翁",
- "荀", "羊", "於", "惠", "甄", "麹", "家", "封",
- "芮", "羿", "储", "靳", "汲", "邴", "糜", "松",
- "井", "段", "富", "巫", "乌", "焦", "巴", "弓",
- "牧", "隗", "山", "谷", "车", "侯", "宓", "蓬",
- "全", "郗", "班", "仰", "秋", "仲", "伊", "宫",
- "宁", "仇", "栾", "暴", "甘", "斜", "厉", "戎",
- "祖", "武", "符", "刘", "景", "詹", "束", "龙",
- "叶", "幸", "司", "韶", "郜", "黎", "蓟", "薄",
- "印", "宿", "白", "怀", "蒲", "邰", "从", "鄂",
- "索", "咸", "籍", "赖", "卓", "蔺", "屠", "蒙",
- "池", "乔", "阴", "郁", "胥", "能", "苍", "双",
- "闻", "莘", "党", "翟", "谭", "贡", "劳", "逄",
- "姬", "申", "扶", "堵", "冉", "宰", "郦", "雍",
- "郤", "璩", "桑", "桂", "濮", "牛", "寿", "通",
- "边", "扈", "燕", "冀", "郏", "浦", "尚", "农",
- "温", "别", "庄", "晏", "柴", "瞿", "阎", "充",
- "慕", "连", "茹", "习", "宦", "艾", "鱼", "容",
- "向", "古", "易", "慎", "戈", "廖", "庾", "终",
- "暨", "居", "衡", "步", "都", "耿", "满", "弘",
- "匡", "国", "文", "寇", "广", "禄", "阙", "东",
- "欧", "殳", "沃", "利", "蔚", "越", "夔", "隆",
- "师", "巩", "厍", "聂", "晁", "勾", "敖", "融",
- "冷", "訾", "辛", "阚", "那", "简", "饶", "空",
- "曾", "毋", "沙", "乜", "养", "鞠", "须", "丰",
- "巢", "关", "蒯", "相", "查", "后", "荆", "红",
- "游", "竺", "权", "逑", "盖", "益", "桓", "公",
- "旷", "肖", "付", "钟",
- "万俟", "司马", "上官", "欧阳",
- "夏侯", "诸葛", "闻人", "东方",
- "赫连", "皇甫", "尉迟", "公羊",
- "澹台", "公冶", "宗政", "濮阳",
- "淳于", "单于", "太叔", "申屠",
- "公孙", "仲孙", "轩辕", "令狐",
- "锺离", "宇文", "长孙", "慕容",
- "鲜于", "闾丘", "司徒", "司空",
- "丌官", "司寇", "仉", "督", "子车",
- "颛孙", "端木", "巫马", "公西",
- "漆雕", "乐正", "壤驷", "公良",
- "拓拔", "夹谷", "宰父", "谷梁",
- "晋", "楚", "阎", "法", "汝", "鄢", "涂", "钦",
- "段干", "百里", "东郭", "南门",
- "呼延", "归", "海", "羊舌", "微生",
- "岳", "帅", "缑", "亢", "况", "后", "有", "琴",
- "梁丘", "左丘", "东门", "西门",
- "商", "牟", "佘", "佴", "伯", "赏", "南宫",
- "墨", "哈", "谯", "笪", "年", "爱", "阳", "佟",
- }
- var (
- locationPostfixPattern *regexp.Regexp
- nationPattern *regexp.Regexp
- emptyBytes []byte
- )
- func init() {
- locationPostfixPattern, _ = regexp.Compile(`(省|市|特别行政区|特区|自治区|自治州|自治县|自治乡|自治旗|盟|地区|县|乡|镇|旗|街道办|街道|区)*$`)
- nationPattern, _ = regexp.Compile(`(布朗族|布朗|佤族|拉祜族|拉祜|水族|怒族|独龙族|普米族|普米|保安族|纳西族|纳西|哈尼族|哈尼|达斡尔族|阿昌族|阿昌|达斡尔|乌孜别克族|乌孜别克|僳僳族|僳僳|俄罗斯族|俄罗斯|京族|塔塔尔族|塔塔尔|鄂伦春族|鄂伦春|赫哲族|赫哲|基诺族|基诺|门巴族|门巴|东乡族|高山族|珞巴族|珞巴|鄂温克族|鄂温克|撒拉族|德昂族|焉耆族|焉耆|锡伯族|锡伯|撒拉|裕固族|裕固|布依族|布依|毛南族|毛南|各族|仫佬族|仫佬|侗族|羌族|朝鲜族|鲜族|朝鲜|壮族|蒙古族|蒙古|蒙族|苗族|畲族|瑶族|彝族|白族|土家族|土族|傣族|景颇族|黎族|维吾尔族|维吾尔|吉尔吉斯|吉尔吉斯族|柯尔克孜|柯尔克孜族|塔吉克族|塔吉克|哈萨克族|哈萨克|藏族|回族|满族)$`)
- emptyBytes = []byte("")
- }
- // 获取干净的中国省份、城市、区域名称
- func GetCleanLocationName(name string) string {
- name = strings.TrimSpace(name)
- if name == "" {
- return ""
- }
- rs := []rune(name)
- if len(rs) <= 2 {
- return name
- }
- b := []byte(name)
- b = locationPostfixPattern.ReplaceAll(b, emptyBytes)
- if string(b) != "内蒙古" {
- for nationPattern.Match(b) {
- b = nationPattern.ReplaceAll(b, emptyBytes)
- }
- }
- return string(b)
- }
|