当前位置：首页 > news >正文

网站建设采用thinkphp框架的优势现在哪个公司家庭网络好用

news 2026/4/19 4:50:26

网站建设采用thinkphp框架的优势,现在哪个公司家庭网络好用,电商网站建设开发公司,erp系统哪个品牌最好一、说明文本预处理涉及许多将文本转换为干净格式的任务#xff0c;以供进一步处理或与机器学习模型一起使用。预处理文本所需的具体步骤取决于具体数据和您手头的自然语言处理任务。常见的预处理任务包括#xff1a; 文本规范化——将文本转换为标准表示形式#xff0c;… 一、说明文本预处理涉及许多将文本转换为干净格式的任务以供进一步处理或与机器学习模型一起使用。预处理文本所需的具体步骤取决于具体数据和您手头的自然语言处理任务。常见的预处理任务包括文本规范化——将文本转换为标准表示形式例如全部小写。删除停用词、标点符号、特殊单词或文本片段例如井号标签、URL、表情符号、非 ASCII 字符等。词干提取——从文本单词中删除后缀词形化 - 将单词转化为它们的引理形式引理是字典中存在的单词的形式。拼写更正——更正任何拼写错误通过绘图进行探索性分析 NLTK、SpaCy 等库提供内置的文本预处理功能。二、文本预处理 2.1 文本预处理的好处降维包含许多单词的文本文档可以表示为多维向量。文档的每个单词都是向量的维度之一。应用文本处理有助于删除对您所针对的实际 NLP 任务可能没有意义的单词从而减少数据的维度这反过来又有助于解决维数灾难问题并提高 NLP 任务的性能。 2.2 文本预处理下载到您的计算机并将其加载到 pandas 数据框中。如果使用 read_csv()请使用编码 latin-1。数据集有很多列我们只对这篇关于文本预处理的文章的原始推文列感兴趣。 # Read the dataset into a dataframe import pandas as pd train_data pd.read_csv(Corona_NLP_train.csv, encodinglatin-1) train_data.head()# Remove the columns not relevant to Text-Preprocessing Task train_data train_data.drop([UserName, ScreenName, Location, TweetAt, Sentiment], axis 1) train_data.columns 2.3 小写转换 #1. Case Conversion to Lower Case train_data[OriginalTweet] train_data[OriginalTweet].str.lower() train_data.head() 2.4 删除停用词和标点符号 #Remove stop words and punctuation marks #https://stackoverflow.com/questions/29523254/python-remove-stop-words-from-pandas-dataframe import nltk import string from nltk.corpus import stopwords stop_words stopwords.words(english) stopwordsandpunct stop_words list(string.punctuation)train_data[OriginalTweet] train_data[OriginalTweet].apply(lambda w: .join(w for w in w.split() if w not in stopwordsandpunct)) train_data[OriginalTweet] 2.5 删除 URL # Remove URLs from all the tweets import re def remove_url(tweet):tweet re.sub(r\w:\/{2}[\d\w-](\.[\d\w-])*(?:(?:\/[^\s/]*))*, , tweet)return tweettrain_data[OriginalTweet] train_data[OriginalTweet].apply(remove_url) train_data[OriginalTweet].head() 2.6 删除提及和井号标签 # remove mentions and hashtags def remove_mentions_hashs(tweet):tweet re.sub([A-Za-z0-9_],, tweet) #Remove mentionstweet re.sub(#[A-Za-z0-9_],, tweet) #Remove hashtagsreturn tweettrain_data[OriginalTweet] train_data[OriginalTweet].apply(remove_mentions_hashs) train_data[OriginalTweet].head() 2.7 删除表情符号 # Removing emojis from tweets # Source Credit: https://stackoverflow.com/a/49146722/330558 import re def remove_emojis(tweet):pat re.compile([u\U0001F600-\U0001F64F # emoticonsu\U0001F300-\U0001F5FF # symbols pictographsu\U0001F680-\U0001F6FF # transport map symbolsu\U0001F1E0-\U0001F1FF # flags (iOS)u\U00002702-\U000027B0u\U000024C2-\U0001F251], flagsre.UNICODE)return pat.sub(r, tweet)train_data[OriginalTweet] train_data[OriginalTweet].apply(remove_emojis) train_data.head() 2.8 删除非 ASCII 字符 #https://docs.python.org/2/library/unicodedata.html#unicodedata.normalize import unicodedata def remove_nonascii(text):text unicodedata.normalize(NFKD, text).encode(ascii, ignore).decode(utf-8, ignore)# apply compatibility decompositionreturn text train_data[OriginalTweet] train_data[OriginalTweet].apply(remove_nonascii) train_data.head() 2.9 删除空字符串 import string def remove_empty_strings1(tweet):tweet re.sub(r^\s|\s$, NaN, tweet)return tweet train_data[OriginalTweet] train_data[OriginalTweet].apply(remove_empty_strings1) 2.10 删除主题标签、URL 后删除所有包含 NaN 的行 train_data train_data[train_data[OriginalTweet] ! NaN]# Now resetting index of Data frame train_data train_data.reset_index(drop True) 三、文本内容预处理 3.1 使用 TextBlob 进行拼写更正 # Spelling correction import warnings warnings.filterwarnings(ignore) from textblob import TextBlob train_data[SpellCorrectedTweet] train_data[OriginalTweet].apply(lambda x : str(TextBlob(x).correct())) train_data.head() 3.2 使用 NLTK 的内置 Tokenizer 进行标记化 # Now we will perform tokenization import nltk from nltk import word_tokenize tokenizer nltk.tokenize.WhitespaceTokenizer() def tokenize(text):return tokenizer.tokenize(text)train_data[OriginalTweet] train_data[OriginalTweet].apply(tokenize) train_data[OriginalTweet].head() 3.3 使用 NLTK 的 WordNetLemmatizer 进行词形还原 import nltk tokenizer nltk.tokenize.WhitespaceTokenizer() lemmatizer nltk.stem.WordNetLemmatizer()def lemmatize(text):return [lemmatizer.lemmatize(w) for w in text]train_data[OriginalTweet] train_data[OriginalTweet].apply(lemmatize) train_data.head() 3.4 使用 NLTK 的 PorterStemmer 进行词干提取 # Stemming from nltk.stem import PorterStemmer stemmer PorterStemmer()def stemming(text):return [stemmer.stem(w) for w in text]train_data[OriginalTweet] train_data[OriginalTweet].apply(stemming) train_data.head() 3.5 计算推文中最常见的单词 # Counting most frequent words in tweets #https://docs.python.org/3/library/itertools.html#itertools.chain import itertools import collections all_tweets list(train_data[OriginalTweet]) all_tokens list(itertools.chain(*all_tweets)) token_counts collections.Counter(all_tokens)# Print 10 most common words with their frequency print(token_counts.most_common(10))# Convert above words and frequencies to a dataframe df pd.DataFrame(token_counts.most_common(20), columns[Token,Count]) df.head()# Plotting frequencies using Matplotlib barplot import matplotlib.pyplot as plt plt.rcParams[figure.figsize] (12,8) df.sort_values(by Count).plot.bar(xToken, yCount) plt.title(Most Used Words) plt.show() 四、总结本文总结出关于文本预处理的大多数处理方法。对于文本处理的实际过程可以抽取某些过程进行整合处理。对于更加特殊的处理也可以特别处理。下一篇文章介绍文本表示技术使用 Python 进行自然语言处理第 4 部分文本表示

查看全文

http://www.hkea.cn/news/14323524/