明輝手游網(wǎng)中心:是一個免費提供流行視頻軟件教程、在線學(xué)習(xí)分享的學(xué)習(xí)平臺!

web文本數(shù)據(jù)清洗流程及案例 (案例代碼)

[摘要]本篇文章給大家?guī)淼膬?nèi)容是關(guān)于web文本數(shù)據(jù)清洗流程及實例 (實例代碼),有一定的參考價值,有需要的朋友可以參考一下,希望對你有所幫助。今天,超過80%的數(shù)據(jù)是非結(jié)構(gòu)化的。文本數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析前的必經(jīng)之路。大多數(shù)可用的文本數(shù)據(jù)本質(zhì)上是高度非結(jié)構(gòu)化和嘈雜的,需要更好的見解或建立更好的算法來處理數(shù)...
本篇文章給大家?guī)淼膬?nèi)容是關(guān)于web文本數(shù)據(jù)清洗流程及實例 (實例代碼),有一定的參考價值,有需要的朋友可以參考一下,希望對你有所幫助。

今天,超過80%的數(shù)據(jù)是非結(jié)構(gòu)化的。文本數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析前的必經(jīng)之路。大多數(shù)可用的文本數(shù)據(jù)本質(zhì)上是高度非結(jié)構(gòu)化和嘈雜的,需要更好的見解或建立更好的算法來處理數(shù)據(jù)。

我們知道,社交媒體數(shù)據(jù)是高度非結(jié)構(gòu)化的,因其非正式的交流,存在包括拼寫錯誤、語法不好、俚語的使用、諸如URL、停用詞、表達(dá)式等不必要內(nèi)容。

一個典型的商業(yè)問題,假設(shè)你感興趣的是:這是iPhone在粉絲中更受歡迎的特點。下面你已經(jīng)提取了與iPhone相關(guān)的消費者意見的一條推特:

下面對這條推特做文本預(yù)處理:

1、去掉HTML 字符:

從Web獲得的數(shù)據(jù)通常包含許多HTML實體,如lt;& gt;& &;它嵌入到原始數(shù)據(jù)中。因此,必須擺脫這些實體。一種方法是通過使用特定的正則表達(dá)式直接刪除它們。另一種方法是使用適當(dāng)?shù)陌湍K(例如Python的HTMLPARSER),它可以將這些實體轉(zhuǎn)換成標(biāo)準(zhǔn)的HTML標(biāo)記。例如:& lt;轉(zhuǎn)換為“<”,轉(zhuǎn)換為“&”。

1.png

2、解碼數(shù)據(jù):

這是將信息從復(fù)雜符號轉(zhuǎn)換為簡單易懂字符的過程。文本數(shù)據(jù)可能會受到不同形式的解碼,如“拉丁語”、“UTF8”等。因此,為了更好地分析,有必要保持完整的數(shù)據(jù)以標(biāo)準(zhǔn)的編碼格式。UTF-8編碼被廣泛接受并推薦使用。

2.png

3、撇號查找:為了避免文本中的任何詞義消歧,建議在文章中保持適當(dāng)?shù)慕Y(jié)構(gòu),并遵守上下文無關(guān)文法的規(guī)則。當(dāng)使用撇號時,消歧的機(jī)會增加。

For example “it’s is a contraction for it is or it has”.

所有撇號都應(yīng)該轉(zhuǎn)換成標(biāo)準(zhǔn)詞典?梢允褂盟锌赡艿年P(guān)鍵字的查找表來消除歧義。

3.png

4、停用詞的去除:當(dāng)數(shù)據(jù)分析需要在字級上進(jìn)行數(shù)據(jù)驅(qū)動時,應(yīng)刪除通常出現(xiàn)的單詞(停用詞)。通過創(chuàng)建的一個長長的停止詞列表,或者可以使用預(yù)定義的語言特定的庫。

5、刪除標(biāo)點符號:所有的標(biāo)點符號應(yīng)根據(jù)優(yōu)先級來處理。例如:“,”,“,”,“?”“重要標(biāo)點應(yīng)該保留,而其他標(biāo)點需要刪除。

6、刪除表達(dá)式:文本數(shù)據(jù)(通常是語音轉(zhuǎn)錄)可能包含人類的表達(dá),如[笑],[哭],[觀眾暫停]。這些表達(dá)式通常與語音內(nèi)容無關(guān),因此需要刪除。在這種情況下,簡單正則表達(dá)式可能是有用的。

7、分裂的附加詞:人在社交論壇中的生成文本數(shù)據(jù),本質(zhì)上是完全非正式的。大多數(shù)推文伴隨著多個附加詞,例如RayyDay. PrimeCythOrth.等,這些實體可以用簡單的規(guī)則和正則表達(dá)式分裂成它們的正常形式.

8、俚語查找:同樣,社交媒體包括大多數(shù)俚語詞匯。這些詞應(yīng)該轉(zhuǎn)換成標(biāo)準(zhǔn)詞來制作自由文本。像LUV這樣的詞將被轉(zhuǎn)換成愛,Helo到Hello。撇號查找的類似方法可以用來將俚語轉(zhuǎn)換成標(biāo)準(zhǔn)詞。網(wǎng)上有大量的信息源,它提供了所有可能的俚語的列表,可以用它們作為查找字典來進(jìn)行轉(zhuǎn)換。

9、規(guī)范詞:有時詞的格式不正確。例如:“I looooveee you” 應(yīng)為 “I love you”。簡單的規(guī)則和正則表達(dá)式可以幫助解決這些情況。

10、刪除URL:應(yīng)刪除文本數(shù)據(jù)中的URL和超鏈接,如評論、評論和推文。

以上就是對web文本數(shù)據(jù)清洗流程及實例 (實例代碼)的全部介紹,如果您想了解更多有關(guān)HTML視頻教程,請關(guān)注PHP中文網(wǎng)。

以上就是web文本數(shù)據(jù)清洗流程及實例 (實例代碼)的詳細(xì)內(nèi)容,更多請關(guān)注php中文網(wǎng)其它相關(guān)文章!


網(wǎng)站建設(shè)是一個廣義的術(shù)語,涵蓋了許多不同的技能和學(xué)科中所使用的生產(chǎn)和維護(hù)的網(wǎng)站。