亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁(yè) 後端開發(fā) Python教學(xué) 網(wǎng)路抓取與分析外語(yǔ)數(shù)據(jù)

網(wǎng)路抓取與分析外語(yǔ)數(shù)據(jù)

Dec 24, 2024 am 11:40 AM

最近我決定做一個(gè)快速的網(wǎng)頁(yè)抓取和資料分析專案。因?yàn)槲业拇竽X喜歡想出需要花費(fèi)大量時(shí)間的大想法,所以我決定挑戰(zhàn)自己,想出一些可以在幾個(gè)小時(shí)內(nèi)完成的簡(jiǎn)單事情。

這是我想到的:

由於我的本科學(xué)位最初是外語(yǔ)(法語(yǔ)和西班牙語(yǔ)),我認(rèn)為網(wǎng)絡(luò)抓取一些語(yǔ)言相關(guān)數(shù)據(jù)會(huì)很有趣。我想使用 BeautifulSoup 庫(kù),它可以解析靜態(tài) html,但無法處理需要 onclick 事件來顯示整個(gè)資料集的動(dòng)態(tài)網(wǎng)頁(yè)(即,如果頁(yè)面已分頁(yè),則單擊下一頁(yè)資料)。

我決定使用最常用語(yǔ)言的維基百科頁(yè)面。

Web scraping and analysing foreign languages data

我想做以下事情:

  • 取得頁(yè)面的 html 並輸出到 .txt 檔案
  • 使用beautiful soup解析html檔案並擷取表格資料
  • 將表格寫入 .csv 檔案
  • 使用資料分析提出我想回答此資料集的 10 個(gè)問題
  • 用 pandas 和 Jupyter Notebook 回答這些問題

我決定將專案分成這些步驟以分離關(guān)注點(diǎn),但我也想避免透過重新運(yùn)行腳本來發(fā)出多個(gè)不必要的請(qǐng)求以從維基百科獲取 html。保存 html 文件,然後在單獨(dú)的腳本中使用它意味著您不需要不斷重新請(qǐng)求數(shù)據(jù),因?yàn)槟呀?jīng)擁有了數(shù)據(jù)。

項(xiàng)目連結(jié)

此專案的 github 儲(chǔ)存庫(kù)的連結(jié)為:https://github.com/gabrielrowan/Foreign-Languages-Analysis

取得html

首先,我檢索並輸出 html。使用 C# 和 C 後,我總是對(duì) Python 程式碼如此簡(jiǎn)短和簡(jiǎn)潔感到新奇?

url = 'https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers'

response = requests.get(url)
html = response.text

with open("languages_html.txt", "w", encoding="utf-8") as file:
    file.write(html)

解析 html

為了用 Beautiful soup 解析 html 並選擇我感興趣的表,我做了:

with open("languages_html.txt", "r", encoding="utf-8") as file:
    soup = BeautifulSoup(file, 'html.parser')

# get table
top_languages_table = soup.select_one('.wikitable.sortable.static-row-numbers')


然後,我取得了表格標(biāo)題文字來取得 pandas 資料框的列名稱:

# get column names
columns = top_languages_table.find_all("th")
column_titles = [column.text.strip() for column in columns]

之後,我建立了資料框,設(shè)定列名稱,檢索每個(gè)表格行並將每一行寫入資料框:

# get table rows
table_data = top_languages_table.find_all("tr")

# define dataframe
df = pd.DataFrame(columns=column_titles)

# get table data
for row in table_data[1:]:
    row_data = row.find_all('td')
    row_data_txt = [row.text.strip() for row in row_data]
    print(row_data_txt)
    df.loc[len(df)] = row_data_txt 


注意 - 不使用 strip() 時(shí),文字中有 n 個(gè)不需要的字元。

最後,我將資料幀寫入 .csv。

分析數(shù)據(jù)

事先,我從數(shù)據(jù)中提出了我想回答的這些問題:

  1. 資料集中所有語(yǔ)言的母語(yǔ)總數(shù)是多少?
  2. 有多少種不同類型的語(yǔ)系?
  3. 每個(gè)語(yǔ)系的母語(yǔ)總數(shù)是多少?
  4. 最常用的 3 個(gè)語(yǔ)係是什麼?
  5. 建立一個(gè)圓餅圖,顯示最常用的 3 個(gè)語(yǔ)系
  6. 最常見的語(yǔ)系-分支對(duì)是什麼?
  7. 表中哪些語(yǔ)言屬於漢藏語(yǔ)系?
  8. 顯示所有羅曼語(yǔ)系和日耳曼語(yǔ)系語(yǔ)言的母語(yǔ)人士的長(zhǎng)條圖
  9. 前 5 種語(yǔ)言佔(zhàn)母語(yǔ)使用者總數(shù)的百分比是多少?
  10. 哪個(gè)分支的母語(yǔ)使用者最多,哪個(gè)分支最少?

結(jié)果

雖然我不會(huì)透過程式碼來回答所有這些問題,但我會(huì)討論涉及圖表的兩個(gè)問題。

顯示所有羅曼語(yǔ)和日耳曼語(yǔ)母語(yǔ)的長(zhǎng)條圖

首先,我建立了一個(gè)資料框,僅包含分支名稱為「Romance」或「Germanic」的行

url = 'https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers'

response = requests.get(url)
html = response.text

with open("languages_html.txt", "w", encoding="utf-8") as file:
    file.write(html)

然後我指定了圖表的 x 軸、y 軸和條形顏色:

with open("languages_html.txt", "r", encoding="utf-8") as file:
    soup = BeautifulSoup(file, 'html.parser')

# get table
top_languages_table = soup.select_one('.wikitable.sortable.static-row-numbers')


這創(chuàng)建了:

Web scraping and analysing foreign languages data

建立一個(gè)圓餅圖,顯示 3 個(gè)最常用的語(yǔ)系

為了建立圓餅圖,我檢索了最常見的 3 個(gè)語(yǔ)系並將它們放入資料框中。

此代碼組取得每個(gè)語(yǔ)系的母語(yǔ)人士總數(shù),按降序排序,並提取前 3 個(gè)條目。

# get column names
columns = top_languages_table.find_all("th")
column_titles = [column.text.strip() for column in columns]

然後我將資料放入圓餅圖中,指定「母語(yǔ)者」的 y 軸和圖例,這為圖表中顯示的每個(gè)語(yǔ)言系列建立顏色編碼標(biāo)籤。

# get table rows
table_data = top_languages_table.find_all("tr")

# define dataframe
df = pd.DataFrame(columns=column_titles)

# get table data
for row in table_data[1:]:
    row_data = row.find_all('td')
    row_data_txt = [row.text.strip() for row in row_data]
    print(row_data_txt)
    df.loc[len(df)] = row_data_txt 


Web scraping and analysing foreign languages data

其餘問題的程式碼和答案可以在這裡找到。我在筆記本中使用 Markdown 寫下問題及其答案。

下次:

對(duì)於我的網(wǎng)頁(yè)抓取和資料分析專案的下一個(gè)迭代,我想讓事情變得更複雜:

  • 網(wǎng)頁(yè)抓取動(dòng)態(tài)頁(yè)面,點(diǎn)擊/捲動(dòng)時(shí)會(huì)顯示更多資料
  • 分析較大的資料集,可能需要在分析之前進(jìn)行一些資料清理工作

Web scraping and analysing foreign languages data

最後的想法

儘管速度很快,但我很喜歡做這個(gè)專案。它提醒我,簡(jiǎn)短、可管理的專案對(duì)於讓練習(xí)代表參與其中有多有用?另外,從互聯(lián)網(wǎng)提取數(shù)據(jù)並從中創(chuàng)建圖表,即使數(shù)據(jù)集很小,也很有趣?

以上是網(wǎng)路抓取與分析外語(yǔ)數(shù)據(jù)的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
Python類中的多態(tài)性 Python類中的多態(tài)性 Jul 05, 2025 am 02:58 AM

多態(tài)是Python面向?qū)ο缶幊讨械暮诵母拍?,指“一種接口,多種實(shí)現(xiàn)”,允許統(tǒng)一處理不同類型的對(duì)象。 1.多態(tài)通過方法重寫實(shí)現(xiàn),子類可重新定義父類方法,如Animal類的speak()方法在Dog和Cat子類中有不同實(shí)現(xiàn)。 2.多態(tài)的實(shí)際用途包括簡(jiǎn)化代碼結(jié)構(gòu)、增強(qiáng)可擴(kuò)展性,例如圖形繪製程序中統(tǒng)一調(diào)用draw()方法,或遊戲開發(fā)中處理不同角色的共同行為。 3.Python實(shí)現(xiàn)多態(tài)需滿足:父類定義方法,子類重寫該方法,但不要求繼承同一父類,只要對(duì)象實(shí)現(xiàn)相同方法即可,這稱為“鴨子類型”。 4.注意事項(xiàng)包括保持方

解釋Python發(fā)電機(jī)和迭代器。 解釋Python發(fā)電機(jī)和迭代器。 Jul 05, 2025 am 02:55 AM

迭代器是實(shí)現(xiàn)__iter__()和__next__()方法的對(duì)象,生成器是簡(jiǎn)化版的迭代器,通過yield關(guān)鍵字自動(dòng)實(shí)現(xiàn)這些方法。 1.迭代器每次調(diào)用next()返回一個(gè)元素,無更多元素時(shí)拋出StopIteration異常。 2.生成器通過函數(shù)定義,使用yield按需生成數(shù)據(jù),節(jié)省內(nèi)存且支持無限序列。 3.處理已有集合時(shí)用迭代器,動(dòng)態(tài)生成大數(shù)據(jù)或需惰性求值時(shí)用生成器,如讀取大文件時(shí)逐行加載。注意:列表等可迭代對(duì)像不是迭代器,迭代器到盡頭後需重新創(chuàng)建,生成器只能遍歷一次。

如何處理Python中的API身份驗(yàn)證 如何處理Python中的API身份驗(yàn)證 Jul 13, 2025 am 02:22 AM

處理API認(rèn)證的關(guān)鍵在於理解並正確使用認(rèn)證方式。 1.APIKey是最簡(jiǎn)單的認(rèn)證方式,通常放在請(qǐng)求頭或URL參數(shù)中;2.BasicAuth使用用戶名和密碼進(jìn)行Base64編碼傳輸,適合內(nèi)部系統(tǒng);3.OAuth2需先通過client_id和client_secret獲取Token,再在請(qǐng)求頭中帶上BearerToken;4.為應(yīng)對(duì)Token過期,可封裝Token管理類自動(dòng)刷新Token;總之,根據(jù)文檔選擇合適方式,並安全存儲(chǔ)密鑰信息是關(guān)鍵。

如何一次迭代兩個(gè)列表 如何一次迭代兩個(gè)列表 Jul 09, 2025 am 01:13 AM

在Python中同時(shí)遍歷兩個(gè)列表的常用方法是使用zip()函數(shù),它會(huì)按順序配對(duì)多個(gè)列表並以最短為準(zhǔn);若列表長(zhǎng)度不一致,可使用itertools.zip_longest()以最長(zhǎng)為準(zhǔn)並填充缺失值;結(jié)合enumerate()可同時(shí)獲取索引。 1.zip()簡(jiǎn)潔實(shí)用,適合成對(duì)數(shù)據(jù)迭代;2.zip_longest()處理不一致長(zhǎng)度時(shí)可填充默認(rèn)值;3.enumerate(zip())可在遍歷時(shí)獲取索引,滿足多種複雜場(chǎng)景需求。

解釋Python斷言。 解釋Python斷言。 Jul 07, 2025 am 12:14 AM

Assert是Python用於調(diào)試的斷言工具,當(dāng)條件不滿足時(shí)拋出AssertionError。其語(yǔ)法為assert條件加可選錯(cuò)誤信息,適用於內(nèi)部邏輯驗(yàn)證如參數(shù)檢查、狀態(tài)確認(rèn)等,但不能用於安全或用戶輸入檢查,且應(yīng)配合清晰提示信息使用,僅限開發(fā)階段輔助調(diào)試而非替代異常處理。

什麼是Python迭代器? 什麼是Python迭代器? Jul 08, 2025 am 02:56 AM

Inpython,IteratorSareObjectSthallowloopingThroughCollectionsByImplementing_iter __()和__next __()。 1)iteratorsWiaTheIteratorProtocol,使用__ITER __()toreTurnterateratoratoranteratoratoranteratoratorAnterAnteratoratorant antheittheext__()

什麼是Python型提示? 什麼是Python型提示? Jul 07, 2025 am 02:55 AM

typeHintsInpyThonsolverbromblemboyofambiguityandPotentialBugSindyNamalytyCodeByallowingDevelopsosteSpecefectifyExpectedTypes.theyenhancereadability,enablellybugdetection,andimprovetool.typehintsupport.typehintsareadsareadsareadsareadsareadsareadsareadsareadsareaddedusidocolon(

Python Fastapi教程 Python Fastapi教程 Jul 12, 2025 am 02:42 AM

要使用Python創(chuàng)建現(xiàn)代高效的API,推薦使用FastAPI;其基於標(biāo)準(zhǔn)Python類型提示,可自動(dòng)生成文檔,性能優(yōu)越。安裝FastAPI和ASGI服務(wù)器uvicorn後,即可編寫接口代碼。通過定義路由、編寫處理函數(shù)並返回?cái)?shù)據(jù),可以快速構(gòu)建API。 FastAPI支持多種HTTP方法,並提供自動(dòng)生成的SwaggerUI和ReDoc文檔系統(tǒng)。 URL參數(shù)可通過路徑定義捕獲,查詢參數(shù)則通過函數(shù)參數(shù)設(shè)置默認(rèn)值實(shí)現(xiàn)。合理使用Pydantic模型有助於提升開發(fā)效率和準(zhǔn)確性。

See all articles