国产精品久久久久久久妇,激性欧美激情在线,中文字幕日韩欧美一区二区三区

首頁(yè)

後端開發(fā)

Python教學(xué)

網(wǎng)路抓取與分析外語(yǔ)數(shù)據(jù)

Susan Sarandon

Dec 24, 2024 am 11:40 AM

最近我決定做一個(gè)快速的網(wǎng)頁(yè)抓取和資料分析專案。因?yàn)槲业拇竽X喜歡想出需要花費(fèi)大量時(shí)間的大想法，所以我決定挑戰(zhàn)自己，想出一些可以在幾個(gè)小時(shí)內(nèi)完成的簡(jiǎn)單事情。

這是我想到的：

由於我的本科學(xué)位最初是外語(yǔ)（法語(yǔ)和西班牙語(yǔ)），我認(rèn)為網(wǎng)絡(luò)抓取一些語(yǔ)言相關(guān)數(shù)據(jù)會(huì)很有趣。我想使用 BeautifulSoup 庫(kù)，它可以解析靜態(tài) html，但無法處理需要 onclick 事件來顯示整個(gè)資料集的動(dòng)態(tài)網(wǎng)頁(yè)（即，如果頁(yè)面已分頁(yè)，則單擊下一頁(yè)資料）。

我決定使用最常用語(yǔ)言的維基百科頁(yè)面。

Web scraping and analysing foreign languages data

我想做以下事情：

取得頁(yè)面的 html 並輸出到 .txt 檔案
使用beautiful soup解析html檔案並擷取表格資料
將表格寫入 .csv 檔案
使用資料分析提出我想回答此資料集的 10 個(gè)問題
用 pandas 和 Jupyter Notebook 回答這些問題

我決定將專案分成這些步驟以分離關(guān)注點(diǎn)，但我也想避免透過重新運(yùn)行腳本來發(fā)出多個(gè)不必要的請(qǐng)求以從維基百科獲取 html。保存 html 文件，然後在單獨(dú)的腳本中使用它意味著您不需要不斷重新請(qǐng)求數(shù)據(jù)，因?yàn)槟呀?jīng)擁有了數(shù)據(jù)。

項(xiàng)目連結(jié)

此專案的 github 儲(chǔ)存庫(kù)的連結(jié)為：https://github.com/gabrielrowan/Foreign-Languages-Analysis

取得html

首先，我檢索並輸出 html。使用 C# 和 C 後，我總是對(duì) Python 程式碼如此簡(jiǎn)短和簡(jiǎn)潔感到新奇？

url = 'https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers'

response = requests.get(url)
html = response.text

with open("languages_html.txt", "w", encoding="utf-8") as file:
    file.write(html)

解析 html

為了用 Beautiful soup 解析 html 並選擇我感興趣的表，我做了：

with open("languages_html.txt", "r", encoding="utf-8") as file:
    soup = BeautifulSoup(file, 'html.parser')

# get table
top_languages_table = soup.select_one('.wikitable.sortable.static-row-numbers')

然後，我取得了表格標(biāo)題文字來取得 pandas 資料框的列名稱：

# get column names
columns = top_languages_table.find_all("th")
column_titles = [column.text.strip() for column in columns]

之後，我建立了資料框，設(shè)定列名稱，檢索每個(gè)表格行並將每一行寫入資料框：

# get table rows
table_data = top_languages_table.find_all("tr")

# define dataframe
df = pd.DataFrame(columns=column_titles)

# get table data
for row in table_data[1:]:
    row_data = row.find_all('td')
    row_data_txt = [row.text.strip() for row in row_data]
    print(row_data_txt)
    df.loc[len(df)] = row_data_txt

注意 - 不使用 strip() 時(shí)，文字中有 n 個(gè)不需要的字元。

最後，我將資料幀寫入 .csv。

分析數(shù)據(jù)

事先，我從數(shù)據(jù)中提出了我想回答的這些問題：

資料集中所有語(yǔ)言的母語(yǔ)總數(shù)是多少？
有多少種不同類型的語(yǔ)系？
每個(gè)語(yǔ)系的母語(yǔ)總數(shù)是多少？
最常用的 3 個(gè)語(yǔ)係是什麼？
建立一個(gè)圓餅圖，顯示最常用的 3 個(gè)語(yǔ)系
最常見的語(yǔ)系-分支對(duì)是什麼？
表中哪些語(yǔ)言屬於漢藏語(yǔ)系？
顯示所有羅曼語(yǔ)系和日耳曼語(yǔ)系語(yǔ)言的母語(yǔ)人士的長(zhǎng)條圖
前 5 種語(yǔ)言佔(zhàn)母語(yǔ)使用者總數(shù)的百分比是多少？
哪個(gè)分支的母語(yǔ)使用者最多，哪個(gè)分支最少？

結(jié)果

雖然我不會(huì)透過程式碼來回答所有這些問題，但我會(huì)討論涉及圖表的兩個(gè)問題。

顯示所有羅曼語(yǔ)和日耳曼語(yǔ)母語(yǔ)的長(zhǎng)條圖

首先，我建立了一個(gè)資料框，僅包含分支名稱為「Romance」或「Germanic」的行

url = 'https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers'

response = requests.get(url)
html = response.text

with open("languages_html.txt", "w", encoding="utf-8") as file:
    file.write(html)

然後我指定了圖表的 x 軸、y 軸和條形顏色：

with open("languages_html.txt", "r", encoding="utf-8") as file:
    soup = BeautifulSoup(file, 'html.parser')

# get table
top_languages_table = soup.select_one('.wikitable.sortable.static-row-numbers')

這創(chuàng)建了：

Web scraping and analysing foreign languages data

建立一個(gè)圓餅圖，顯示 3 個(gè)最常用的語(yǔ)系

為了建立圓餅圖，我檢索了最常見的 3 個(gè)語(yǔ)系並將它們放入資料框中。

此代碼組取得每個(gè)語(yǔ)系的母語(yǔ)人士總數(shù)，按降序排序，並提取前 3 個(gè)條目。

# get column names
columns = top_languages_table.find_all("th")
column_titles = [column.text.strip() for column in columns]

然後我將資料放入圓餅圖中，指定「母語(yǔ)者」的 y 軸和圖例，這為圖表中顯示的每個(gè)語(yǔ)言系列建立顏色編碼標(biāo)籤。

# get table rows
table_data = top_languages_table.find_all("tr")

# define dataframe
df = pd.DataFrame(columns=column_titles)

# get table data
for row in table_data[1:]:
    row_data = row.find_all('td')
    row_data_txt = [row.text.strip() for row in row_data]
    print(row_data_txt)
    df.loc[len(df)] = row_data_txt

Web scraping and analysing foreign languages data

其餘問題的程式碼和答案可以在這裡找到。我在筆記本中使用 Markdown 寫下問題及其答案。

下次：

對(duì)於我的網(wǎng)頁(yè)抓取和資料分析專案的下一個(gè)迭代，我想讓事情變得更複雜：

網(wǎng)頁(yè)抓取動(dòng)態(tài)頁(yè)面，點(diǎn)擊/捲動(dòng)時(shí)會(huì)顯示更多資料
分析較大的資料集，可能需要在分析之前進(jìn)行一些資料清理工作

Web scraping and analysing foreign languages data

最後的想法

儘管速度很快，但我很喜歡做這個(gè)專案。它提醒我，簡(jiǎn)短、可管理的專案對(duì)於讓練習(xí)代表參與其中有多有用？另外，從互聯(lián)網(wǎng)提取數(shù)據(jù)並從中創(chuàng)建圖表，即使數(shù)據(jù)集很小，也很有趣？

以上是網(wǎng)路抓取與分析外語(yǔ)數(shù)據(jù)的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願(yuàn)投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序，用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

視覺化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程

1597

PHP教程

1488

Related knowledge

Python類中的多態(tài)性 Jul 05, 2025 am 02:58 AM

多態(tài)是Python面向?qū)ο缶幊讨械暮诵母拍?，指“一種接口，多種實(shí)現(xiàn)”，允許統(tǒng)一處理不同類型的對(duì)象。 1.多態(tài)通過方法重寫實(shí)現(xiàn)，子類可重新定義父類方法，如Animal類的speak()方法在Dog和Cat子類中有不同實(shí)現(xiàn)。 2.多態(tài)的實(shí)際用途包括簡(jiǎn)化代碼結(jié)構(gòu)、增強(qiáng)可擴(kuò)展性，例如圖形繪製程序中統(tǒng)一調(diào)用draw()方法，或遊戲開發(fā)中處理不同角色的共同行為。 3.Python實(shí)現(xiàn)多態(tài)需滿足：父類定義方法，子類重寫該方法，但不要求繼承同一父類，只要對(duì)象實(shí)現(xiàn)相同方法即可，這稱為“鴨子類型”。 4.注意事項(xiàng)包括保持方

解釋Python發(fā)電機(jī)和迭代器。 Jul 05, 2025 am 02:55 AM

迭代器是實(shí)現(xiàn)__iter__()和__next__()方法的對(duì)象，生成器是簡(jiǎn)化版的迭代器，通過yield關(guān)鍵字自動(dòng)實(shí)現(xiàn)這些方法。 1.迭代器每次調(diào)用next()返回一個(gè)元素，無更多元素時(shí)拋出StopIteration異常。 2.生成器通過函數(shù)定義，使用yield按需生成數(shù)據(jù)，節(jié)省內(nèi)存且支持無限序列。 3.處理已有集合時(shí)用迭代器，動(dòng)態(tài)生成大數(shù)據(jù)或需惰性求值時(shí)用生成器，如讀取大文件時(shí)逐行加載。注意：列表等可迭代對(duì)像不是迭代器，迭代器到盡頭後需重新創(chuàng)建，生成器只能遍歷一次。

如何處理Python中的API身份驗(yàn)證 Jul 13, 2025 am 02:22 AM

處理API認(rèn)證的關(guān)鍵在於理解並正確使用認(rèn)證方式。 1.APIKey是最簡(jiǎn)單的認(rèn)證方式，通常放在請(qǐng)求頭或URL參數(shù)中；2.BasicAuth使用用戶名和密碼進(jìn)行Base64編碼傳輸，適合內(nèi)部系統(tǒng)；3.OAuth2需先通過client_id和client_secret獲取Token，再在請(qǐng)求頭中帶上BearerToken；4.為應(yīng)對(duì)Token過期，可封裝Token管理類自動(dòng)刷新Token；總之，根據(jù)文檔選擇合適方式，並安全存儲(chǔ)密鑰信息是關(guān)鍵。

如何一次迭代兩個(gè)列表 Jul 09, 2025 am 01:13 AM

在Python中同時(shí)遍歷兩個(gè)列表的常用方法是使用zip()函數(shù)，它會(huì)按順序配對(duì)多個(gè)列表並以最短為準(zhǔn)；若列表長(zhǎng)度不一致，可使用itertools.zip_longest()以最長(zhǎng)為準(zhǔn)並填充缺失值；結(jié)合enumerate()可同時(shí)獲取索引。 1.zip()簡(jiǎn)潔實(shí)用，適合成對(duì)數(shù)據(jù)迭代；2.zip_longest()處理不一致長(zhǎng)度時(shí)可填充默認(rèn)值；3.enumerate(zip())可在遍歷時(shí)獲取索引，滿足多種複雜場(chǎng)景需求。

解釋Python斷言。 Jul 07, 2025 am 12:14 AM

Assert是Python用於調(diào)試的斷言工具，當(dāng)條件不滿足時(shí)拋出AssertionError。其語(yǔ)法為assert條件加可選錯(cuò)誤信息，適用於內(nèi)部邏輯驗(yàn)證如參數(shù)檢查、狀態(tài)確認(rèn)等，但不能用於安全或用戶輸入檢查，且應(yīng)配合清晰提示信息使用，僅限開發(fā)階段輔助調(diào)試而非替代異常處理。

什麼是Python迭代器？ Jul 08, 2025 am 02:56 AM

Inpython，IteratorSareObjectSthallowloopingThroughCollectionsByImplementing_iter __（）和__next __（）。 1）iteratorsWiaTheIteratorProtocol，使用__ITER __（）toreTurnterateratoratoranteratoratoranteratoratorAnterAnteratoratorant antheittheext__（）

什麼是Python型提示？ Jul 07, 2025 am 02:55 AM

typeHintsInpyThonsolverbromblemboyofambiguityandPotentialBugSindyNamalytyCodeByallowingDevelopsosteSpecefectifyExpectedTypes.theyenhancereadability，enablellybugdetection，andimprovetool.typehintsupport.typehintsareadsareadsareadsareadsareadsareadsareadsareadsareaddedusidocolon（

Python Fastapi教程 Jul 12, 2025 am 02:42 AM

要使用Python創(chuàng)建現(xiàn)代高效的API，推薦使用FastAPI；其基於標(biāo)準(zhǔn)Python類型提示，可自動(dòng)生成文檔，性能優(yōu)越。安裝FastAPI和ASGI服務(wù)器uvicorn後，即可編寫接口代碼。通過定義路由、編寫處理函數(shù)並返回?cái)?shù)據(jù)，可以快速構(gòu)建API。 FastAPI支持多種HTTP方法，並提供自動(dòng)生成的SwaggerUI和ReDoc文檔系統(tǒng)。 URL參數(shù)可通過路徑定義捕獲，查詢參數(shù)則通過函數(shù)參數(shù)設(shè)置默認(rèn)值實(shí)現(xiàn)。合理使用Pydantic模型有助於提升開發(fā)效率和準(zhǔn)確性。

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

網(wǎng)路抓取與分析外語(yǔ)數(shù)據(jù)

項(xiàng)目連結(jié)

取得html

解析 html

分析數(shù)據(jù)

結(jié)果

顯示所有羅曼語(yǔ)和日耳曼語(yǔ)母語(yǔ)的長(zhǎng)條圖

建立一個(gè)圓餅圖，顯示 3 個(gè)最常用的語(yǔ)系

下次：

最後的想法

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題