aionnect
/
go-common


			
				
					
						
						
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205
							package utils

// 字符串处理工具类

import (
	"golang.org/x/text/encoding/simplifiedchinese"
	"regexp"
	"strings"
)

type Charset string

const (
	UTF8    = Charset("UTF-8")
	GB18030 = Charset("GB18030")
	GBK     = Charset("GBK")
)

var (
	GB18030Decoder = simplifiedchinese.GB18030.NewDecoder()
	GBKDecoder     = simplifiedchinese.GBK.NewDecoder()
)

func ConvertToEncodingBytes(bytes []byte, charset Charset) []byte {
	switch charset {
	case GB18030:
		var decodeBytes, _ = GB18030Decoder.Bytes(bytes)
		return decodeBytes
	case GBK:
		var decodeBytes, _ = GBKDecoder.Bytes(bytes)
		return decodeBytes
	case UTF8:
		fallthrough
	default:
		return bytes
	}
}

func SplitChineseName(name string) (string, string) {
	if len(strings.TrimSpace(name)) == 0 {
		return "", ""
	}

	name = strings.TrimSpace(name)
	for _, str := range surnames {
		if strings.Index(name, str) == 0 {
			return str, strings.TrimLeft(name, str)
		}
	}

	return SubStr(name, 0, 1), SubStr(name, 1, -1)
}

// 支持中文的字符串Index
func IndexOfStr(str, substr string) int {
	// 子串在字符串的字节位置
	result := strings.Index(str, substr)
	if result >= 0 {
		// 获得子串之前的字符串并转换成[]byte
		prefix := []byte(str)[0:result]
		// 将子串之前的字符串转换成[]rune
		rs := []rune(string(prefix))
		// 获得子串之前的字符串的长度，便是子串在字符串的字符位置
		result = len(rs)
	}
	return result
}

// 支持中文的字符串截取, end传-1为无限大
func SubStr(input string, begin, end int) string {
	if begin < 0 {
		begin = 0
	}
	if end >= 0 && end <= begin {
		return ""
	}
	rs := []rune(input)
	ls := len(rs)
	if ls <= begin {
		return ""
	} else if ls <= end || end < 0 {
		return string(rs[begin:])
	} else {
		return string(rs[begin:end])
	}
}

var SurNames = []string{
	"赵", "钱", "孙", "李", "周", "吴", "郑", "王",
	"冯", "陈", "卫", "蒋", "沈", "韩", "杨",
	"朱", "秦", "尤", "许", "何", "吕", "施", "张",
	"孔", "曹", "严", "金", "魏", "陶", "姜",
	"戚", "谢", "邹", "喻", "章",
	"云", "苏", "潘", "葛", "范", "彭", "郎",
	"鲁", "马", "花", "方",
	"俞", "任", "袁", "柳", "史", "唐",
}

var surnames = []string{
	"赵", "钱", "孙", "李", "周", "吴", "郑", "王",
	"冯", "陈", "楮", "卫", "蒋", "沈", "韩", "杨",
	"朱", "秦", "尤", "许", "何", "吕", "施", "张",
	"孔", "曹", "严", "华", "金", "魏", "陶", "姜",
	"戚", "谢", "邹", "喻", "柏", "水", "窦", "章",
	"云", "苏", "潘", "葛", "奚", "范", "彭", "郎",
	"鲁", "韦", "昌", "马", "苗", "凤", "花", "方",
	"俞", "任", "袁", "柳", "酆", "鲍", "史", "唐",
	"费", "廉", "岑", "薛", "雷", "贺", "倪", "汤",
	"滕", "殷", "罗", "毕", "郝", "邬", "安", "常",
	"乐", "于", "时", "傅", "皮", "卞", "齐", "康",
	"伍", "余", "元", "卜", "顾", "孟", "平", "黄",
	"和", "穆", "萧", "尹", "姚", "邵", "湛", "汪",
	"祁", "毛", "禹", "狄", "米", "贝", "明", "臧",
	"计", "伏", "成", "戴", "谈", "宋", "茅", "庞",
	"熊", "纪", "舒", "屈", "项", "祝", "董", "梁",
	"杜", "阮", "蓝", "闽", "席", "季", "麻", "强",
	"贾", "路", "娄", "危", "江", "童", "颜", "郭",
	"梅", "盛", "林", "刁", "锺", "徐", "丘", "骆",
	"高", "夏", "蔡", "田", "樊", "胡", "凌", "霍",
	"虞", "万", "支", "柯", "昝", "管", "卢", "莫",
	"经", "房", "裘", "缪", "干", "解", "应", "宗",
	"丁", "宣", "贲", "邓", "郁", "单", "杭", "洪",
	"包", "诸", "左", "石", "崔", "吉", "钮", "龚",
	"程", "嵇", "邢", "滑", "裴", "陆", "荣", "翁",
	"荀", "羊", "於", "惠", "甄", "麹", "家", "封",
	"芮", "羿", "储", "靳", "汲", "邴", "糜", "松",
	"井", "段", "富", "巫", "乌", "焦", "巴", "弓",
	"牧", "隗", "山", "谷", "车", "侯", "宓", "蓬",
	"全", "郗", "班", "仰", "秋", "仲", "伊", "宫",
	"宁", "仇", "栾", "暴", "甘", "斜", "厉", "戎",
	"祖", "武", "符", "刘", "景", "詹", "束", "龙",
	"叶", "幸", "司", "韶", "郜", "黎", "蓟", "薄",
	"印", "宿", "白", "怀", "蒲", "邰", "从", "鄂",
	"索", "咸", "籍", "赖", "卓", "蔺", "屠", "蒙",
	"池", "乔", "阴", "郁", "胥", "能", "苍", "双",
	"闻", "莘", "党", "翟", "谭", "贡", "劳", "逄",
	"姬", "申", "扶", "堵", "冉", "宰", "郦", "雍",
	"郤", "璩", "桑", "桂", "濮", "牛", "寿", "通",
	"边", "扈", "燕", "冀", "郏", "浦", "尚", "农",
	"温", "别", "庄", "晏", "柴", "瞿", "阎", "充",
	"慕", "连", "茹", "习", "宦", "艾", "鱼", "容",
	"向", "古", "易", "慎", "戈", "廖", "庾", "终",
	"暨", "居", "衡", "步", "都", "耿", "满", "弘",
	"匡", "国", "文", "寇", "广", "禄", "阙", "东",
	"欧", "殳", "沃", "利", "蔚", "越", "夔", "隆",
	"师", "巩", "厍", "聂", "晁", "勾", "敖", "融",
	"冷", "訾", "辛", "阚", "那", "简", "饶", "空",
	"曾", "毋", "沙", "乜", "养", "鞠", "须", "丰",
	"巢", "关", "蒯", "相", "查", "后", "荆", "红",
	"游", "竺", "权", "逑", "盖", "益", "桓", "公",
	"旷", "肖", "付", "钟",
	"万俟", "司马", "上官", "欧阳",
	"夏侯", "诸葛", "闻人", "东方",
	"赫连", "皇甫", "尉迟", "公羊",
	"澹台", "公冶", "宗政", "濮阳",
	"淳于", "单于", "太叔", "申屠",
	"公孙", "仲孙", "轩辕", "令狐",
	"锺离", "宇文", "长孙", "慕容",
	"鲜于", "闾丘", "司徒", "司空",
	"丌官", "司寇", "仉", "督", "子车",
	"颛孙", "端木", "巫马", "公西",
	"漆雕", "乐正", "壤驷", "公良",
	"拓拔", "夹谷", "宰父", "谷梁",
	"晋", "楚", "阎", "法", "汝", "鄢", "涂", "钦",
	"段干", "百里", "东郭", "南门",
	"呼延", "归", "海", "羊舌", "微生",
	"岳", "帅", "缑", "亢", "况", "后", "有", "琴",
	"梁丘", "左丘", "东门", "西门",
	"商", "牟", "佘", "佴", "伯", "赏", "南宫",
	"墨", "哈", "谯", "笪", "年", "爱", "阳", "佟",
}

var (
	locationPostfixPattern *regexp.Regexp
	nationPattern          *regexp.Regexp
	emptyBytes             []byte
)

func init() {
	locationPostfixPattern, _ = regexp.Compile(`(省|市|特别行政区|特区|自治区|自治州|自治县|自治乡|自治旗|盟|地区|县|乡|镇|旗|街道办|街道|区)*$`)
	nationPattern, _ = regexp.Compile(`(布朗族|布朗|佤族|拉祜族|拉祜|水族|怒族|独龙族|普米族|普米|保安族|纳西族|纳西|哈尼族|哈尼|达斡尔族|阿昌族|阿昌|达斡尔|乌孜别克族|乌孜别克|僳僳族|僳僳|俄罗斯族|俄罗斯|京族|塔塔尔族|塔塔尔|鄂伦春族|鄂伦春|赫哲族|赫哲|基诺族|基诺|门巴族|门巴|东乡族|高山族|珞巴族|珞巴|鄂温克族|鄂温克|撒拉族|德昂族|焉耆族|焉耆|锡伯族|锡伯|撒拉|裕固族|裕固|布依族|布依|毛南族|毛南|各族|仫佬族|仫佬|侗族|羌族|朝鲜族|鲜族|朝鲜|壮族|蒙古族|蒙古|蒙族|苗族|畲族|瑶族|彝族|白族|土家族|土族|傣族|景颇族|黎族|维吾尔族|维吾尔|吉尔吉斯|吉尔吉斯族|柯尔克孜|柯尔克孜族|塔吉克族|塔吉克|哈萨克族|哈萨克|藏族|回族|满族)$`)
	emptyBytes = []byte("")
}

// 获取干净的中国省份、城市、区域名称
func GetCleanLocationName(name string) string {
	name = strings.TrimSpace(name)
	if name == "" {
		return ""
	}

	rs := []rune(name)
	if len(rs) <= 2 {
		return name
	}

	b := []byte(name)
	b = locationPostfixPattern.ReplaceAll(b, emptyBytes)
	if string(b) != "内蒙古" {
		for nationPattern.Match(b) {
			b = nationPattern.ReplaceAll(b, emptyBytes)
		}
	}
	return string(b)
}