核心提示:這個AI算法竟然可以聽聲辨新冠,而且準確率高達89%!
這個AI算法竟然可以聽聲辨新冠,而且準確率高達89%!
新冠病毒的出現(xiàn),真算是打開了潘多拉的魔盒。
如今不斷新出現(xiàn)的變種,打亂了整個地球人的生活。新冠之前那種不戴口罩的生活,也許再也回不去了。
最近,科學家們有了一個新發(fā)現(xiàn),或許未來可以讓我們告別捅嗓子眼兒的日子。
在西班牙巴塞羅那舉行的歐洲呼吸學會國際會議上,一項研究顯示,AI可通過手機應用程序收集到的聲音,判斷用戶有沒有感染新冠肺炎。
根據(jù)News Medical的報告,本研究中使用的AI模型比快速抗原檢測更便宜、更快、更易于使用,非常適用于PCR檢測昂貴的低收入國家。
此外,這個AI還有一個更厲害的地方——準確率更高。比起快速抗原測試,它的準確率能達到89%。
準確率達89%
研究團隊使用了來自英國劍橋大學「新冠肺炎聲音庫」APP的數(shù)據(jù),該應用程序包含來自4352名健康和非健康參與者的893個音頻樣本。
研究結(jié)果表明,簡單的語音記錄和AI算法可以精確確定哪些人感染新冠肺炎。
小編以為發(fā)現(xiàn)寶藏APP了,滿心期待地下載之后發(fā)現(xiàn),這款評分2.8的應用,目前只是用來收集數(shù)據(jù)的。
高情商:你為科學的發(fā)展出了一份力。
低情商:這軟件暫時卵用沒有。
荷蘭馬斯特里赫特大學數(shù)據(jù)科學研究所研究員Wafaa Aljbawi女士在大會上表示,AI模型在89%的情況下是準確的,而橫向流動測試的準確度就因品牌而異了,而且,橫向流動測試在檢測無癥狀人群時,準確性要低得多。
這些有希望的結(jié)果表明,簡單的錄音和微調(diào)的 AI 算法可能會在確定哪些患者感染 COVID-19方面實現(xiàn)高精度。此類測試可以免費提供,并且易于解釋。此外,它們支持遠程虛擬測試,并且周轉(zhuǎn)時間不到一分鐘。例如,它們可以用于大型集會的入口點,從而能夠快速篩查人群。”
Wafaa Aljbawi,研究員,數(shù)據(jù)科學研究所,馬斯特里赫特大學
這個結(jié)果太令人興奮了。這意味著:通過基本語音記錄和定制AI算法,我們就可以以很高的精度識別COVID-19感染患者。又免費,又好用。小編興奮地搓手:這是不是意味著,三天一捅的日子可以結(jié)束了?
這個方法的原理是:感染COVID-19后,人的上呼吸道和聲帶會受到影響,從而改變聲音。
為了驗證這個方法的可行性,來自同一數(shù)據(jù)科學研究所的Visara Urovi博士和馬斯特里赫特大學醫(yī)學中心的肺病學家Sami Simons博士也進行了測試。
他們使用了來自劍橋大學的眾包COVID-19Sounds 應用程序的信息,包括來自4,352名健康和不健康受試者的893個音頻樣本,這其中,有308人的COVID-19測試結(jié)果是陽性的。
測試時,用戶將APP下載到手機后,就要開始記錄呼吸音。這個過程中,要先咳嗽3次,再用嘴深呼吸3到5次,然后在屏幕上讀一個簡短的句子3次。
研究人員采用了一種稱為梅爾譜圖分析的語音分析方法,該技術(shù)可以識別不同的語音特征,例如響度、功率和隨時間的變化。
「通過這種方式,我們可以分解被試聲音的許多屬性,」Aljbawi 女士說。「為了區(qū)分COVID-19患者和未患病者的聲音,我們建立了不同的人工智能模型,并評估了哪一個模型最適合對COVID-19病例進行分類。」
他們發(fā)現(xiàn),一種被稱為長短期記憶(LSTM)的模型顯著優(yōu)于其他模型。LSTM基于神經(jīng)網(wǎng)絡,它會模仿人腦的運作方式,識別出數(shù)據(jù)中的潛在關(guān)系。因為適用于序列,所以它很適合對隨時間收集的信號進行建模,比如從語音中收集的信號,因為它能夠?qū)?shù)據(jù)存儲在內(nèi)存中。
其總體準確率為 89%,正確識別陽性病例的能力(真陽性率或「敏感性」)為 89%,正確識別陰性病例的能力(真陰性率或「特異性」)為 83%。
這些結(jié)果表明,與橫向流動測試等最先進的測試相比,LSTM模型診斷 COVID-19 的準確性有了顯著提高。
比較結(jié)果可以用一句話總結(jié):LSTM模型對于陽性的識別率更高,但是也更容易把陰性誤診為陽性。
具體來說,橫向流動測試的靈敏度僅為 56%,但特異性更高,為 99.5%,因此橫向流動測試會更頻繁地將陽性誤測為陰性。使用LSTM模型可能會錯過100個病例中的11個,而側(cè)向流測試則會錯過100個病例中的44個。
橫向流動測試的高特異性,意味著只有1/10的陰性會被誤診為陽性,而LSTM測試的誤診率更高,會把100名陰性中的17個誤診為陽性。但是,由于該測試實際上是免費的,如果LSTM顯示是陽性,可以再讓人們進行PCR測試。所以后者的影響并不大。
目前,研究人員還在進一步驗證他們的結(jié)果。他們使用了大量數(shù)據(jù)。自實驗開始以來,他們已經(jīng)收集了來自36,116個人的53,449個音頻樣本,可用于增強和驗證模型的準確性。另外,他們還在進行其他研究,來確定還有哪些語音的因素會影響 AI 模型。
相關(guān)論文
2021年6月,研究人員開始探索使用AI模型用作COVID-19的自動篩選工具時,可以在多大程度上被信任。在這篇 被INTERSPEECH 2021 接收的論文中,他們試著將不確定性估計與深度學習模型結(jié)合,從聲音中檢測COVID-19。
論文地址:https://arxiv.org/pdf/2104.02005.pdf
在論文中,研究人員分析了330名陽性和919名陰性被試的子集。
他們提出了一個集成學習框架,該框架在訓練階段解決了數(shù)據(jù)不平衡的常見問題,并在推理期間提供了預測不確定性,具體化為模型集成產(chǎn)生的預測的方差。主干模型是一個名為 VGGish 1的預訓練卷積網(wǎng)絡,經(jīng)過修改以接收三種聲音的頻譜圖作為輸入。
在這項工作中,10個深度學習模型被訓練并聚合成一個集成模型,產(chǎn)生0.74的 AUC,靈敏度為0.68,特異性為0.69,優(yōu)于每個模型。一方面,驗證了深度學習對基于音頻的COVID-19檢測的手工制作特征的優(yōu)越性。另一方面,展示了 SVM的集成進一步提高了單個SVM模型的性能,因為樣本被更有效地利用。
錯誤的預測通常會產(chǎn)生更高的不確定性(參加左上圖),因此能夠利用經(jīng)驗不確定性閾值來建議用戶在手機上重復音頻測試或在數(shù)字診斷仍然失敗時進行額外的臨床測試(參見右上圖)。通過將不確定性納入自動診斷系統(tǒng),可以實現(xiàn)更好的風險管理和更穩(wěn)健的決策。
2021年11月,研究人員在NeurIPS 2021中發(fā)布了全面的大規(guī)模COVID-19音頻數(shù)據(jù)集,由36,116 名參與者眾包的53,449個音頻樣本(總共超過552小時)組成。相關(guān)論文已被NeurIPS 2021 Dataset Track接受發(fā)表。
在論文中,研究人員展示了ROC-AUC在呼吸道癥狀預測和COVID-19預測任務上超過0.7的性能,證實了基于這些類型數(shù)據(jù)集的機器學習方法的前景。
2022年6月,研究人員希望探索縱向音頻樣本隨著時間的推移對COVID-19進展預測的潛力,尤其是使用順序深度學習進行恢復趨勢預測。論文發(fā)表在數(shù)字醫(yī)學與健康領域的期刊JMIR上。這項研究可以說是探索COVID-19疾病進展預測的縱向音頻動力學的第一項工作。
為了探索個人歷史音頻生物標志物的音頻動態(tài),研究人員開發(fā)并驗證了一種使用門控循環(huán)單元 (GRU) 檢測COVID-19疾病進展的深度學習方法。
所提出的模型包括一個名為VGGish的預訓練卷積網(wǎng)絡,用于提取高級音頻信息,以及GRU用于捕獲縱向音頻樣本的時間依賴性。
研究發(fā)現(xiàn),所提出的系統(tǒng)在區(qū)分COVID-19陽性和陰性音頻樣本方面表現(xiàn)出色。
這一系列研究中,也出現(xiàn)了Ting Dang、Jing Han、Tong Xia等中國學者的身影。
也許,我們離用app就能檢測新冠的日子已經(jīng)不遠了。
新冠病毒的出現(xiàn),真算是打開了潘多拉的魔盒。
如今不斷新出現(xiàn)的變種,打亂了整個地球人的生活。新冠之前那種不戴口罩的生活,也許再也回不去了。
最近,科學家們有了一個新發(fā)現(xiàn),或許未來可以讓我們告別捅嗓子眼兒的日子。
在西班牙巴塞羅那舉行的歐洲呼吸學會國際會議上,一項研究顯示,AI可通過手機應用程序收集到的聲音,判斷用戶有沒有感染新冠肺炎。
根據(jù)News Medical的報告,本研究中使用的AI模型比快速抗原檢測更便宜、更快、更易于使用,非常適用于PCR檢測昂貴的低收入國家。
此外,這個AI還有一個更厲害的地方——準確率更高。比起快速抗原測試,它的準確率能達到89%。
準確率達89%
研究團隊使用了來自英國劍橋大學「新冠肺炎聲音庫」APP的數(shù)據(jù),該應用程序包含來自4352名健康和非健康參與者的893個音頻樣本。
研究結(jié)果表明,簡單的語音記錄和AI算法可以精確確定哪些人感染新冠肺炎。
小編以為發(fā)現(xiàn)寶藏APP了,滿心期待地下載之后發(fā)現(xiàn),這款評分2.8的應用,目前只是用來收集數(shù)據(jù)的。
高情商:你為科學的發(fā)展出了一份力。
低情商:這軟件暫時卵用沒有。
荷蘭馬斯特里赫特大學數(shù)據(jù)科學研究所研究員Wafaa Aljbawi女士在大會上表示,AI模型在89%的情況下是準確的,而橫向流動測試的準確度就因品牌而異了,而且,橫向流動測試在檢測無癥狀人群時,準確性要低得多。
這些有希望的結(jié)果表明,簡單的錄音和微調(diào)的 AI 算法可能會在確定哪些患者感染 COVID-19方面實現(xiàn)高精度。此類測試可以免費提供,并且易于解釋。此外,它們支持遠程虛擬測試,并且周轉(zhuǎn)時間不到一分鐘。例如,它們可以用于大型集會的入口點,從而能夠快速篩查人群。”
Wafaa Aljbawi,研究員,數(shù)據(jù)科學研究所,馬斯特里赫特大學
這個結(jié)果太令人興奮了。這意味著:通過基本語音記錄和定制AI算法,我們就可以以很高的精度識別COVID-19感染患者。又免費,又好用。小編興奮地搓手:這是不是意味著,三天一捅的日子可以結(jié)束了?
這個方法的原理是:感染COVID-19后,人的上呼吸道和聲帶會受到影響,從而改變聲音。
為了驗證這個方法的可行性,來自同一數(shù)據(jù)科學研究所的Visara Urovi博士和馬斯特里赫特大學醫(yī)學中心的肺病學家Sami Simons博士也進行了測試。
他們使用了來自劍橋大學的眾包COVID-19Sounds 應用程序的信息,包括來自4,352名健康和不健康受試者的893個音頻樣本,這其中,有308人的COVID-19測試結(jié)果是陽性的。
測試時,用戶將APP下載到手機后,就要開始記錄呼吸音。這個過程中,要先咳嗽3次,再用嘴深呼吸3到5次,然后在屏幕上讀一個簡短的句子3次。
研究人員采用了一種稱為梅爾譜圖分析的語音分析方法,該技術(shù)可以識別不同的語音特征,例如響度、功率和隨時間的變化。
「通過這種方式,我們可以分解被試聲音的許多屬性,」Aljbawi 女士說。「為了區(qū)分COVID-19患者和未患病者的聲音,我們建立了不同的人工智能模型,并評估了哪一個模型最適合對COVID-19病例進行分類。」
他們發(fā)現(xiàn),一種被稱為長短期記憶(LSTM)的模型顯著優(yōu)于其他模型。LSTM基于神經(jīng)網(wǎng)絡,它會模仿人腦的運作方式,識別出數(shù)據(jù)中的潛在關(guān)系。因為適用于序列,所以它很適合對隨時間收集的信號進行建模,比如從語音中收集的信號,因為它能夠?qū)?shù)據(jù)存儲在內(nèi)存中。
其總體準確率為 89%,正確識別陽性病例的能力(真陽性率或「敏感性」)為 89%,正確識別陰性病例的能力(真陰性率或「特異性」)為 83%。
新冠患者和健康的人的咳嗽序列圖
這些結(jié)果表明,與橫向流動測試等最先進的測試相比,LSTM模型診斷 COVID-19 的準確性有了顯著提高。
比較結(jié)果可以用一句話總結(jié):LSTM模型對于陽性的識別率更高,但是也更容易把陰性誤診為陽性。
具體來說,橫向流動測試的靈敏度僅為 56%,但特異性更高,為 99.5%,因此橫向流動測試會更頻繁地將陽性誤測為陰性。使用LSTM模型可能會錯過100個病例中的11個,而側(cè)向流測試則會錯過100個病例中的44個。
橫向流動測試的高特異性,意味著只有1/10的陰性會被誤診為陽性,而LSTM測試的誤診率更高,會把100名陰性中的17個誤診為陽性。但是,由于該測試實際上是免費的,如果LSTM顯示是陽性,可以再讓人們進行PCR測試。所以后者的影響并不大。
目前,研究人員還在進一步驗證他們的結(jié)果。他們使用了大量數(shù)據(jù)。自實驗開始以來,他們已經(jīng)收集了來自36,116個人的53,449個音頻樣本,可用于增強和驗證模型的準確性。另外,他們還在進行其他研究,來確定還有哪些語音的因素會影響 AI 模型。
相關(guān)論文
2021年6月,研究人員開始探索使用AI模型用作COVID-19的自動篩選工具時,可以在多大程度上被信任。在這篇 被INTERSPEECH 2021 接收的論文中,他們試著將不確定性估計與深度學習模型結(jié)合,從聲音中檢測COVID-19。
論文地址:https://arxiv.org/pdf/2104.02005.pdf
在論文中,研究人員分析了330名陽性和919名陰性被試的子集。
他們提出了一個集成學習框架,該框架在訓練階段解決了數(shù)據(jù)不平衡的常見問題,并在推理期間提供了預測不確定性,具體化為模型集成產(chǎn)生的預測的方差。主干模型是一個名為 VGGish 1的預訓練卷積網(wǎng)絡,經(jīng)過修改以接收三種聲音的頻譜圖作為輸入。
在這項工作中,10個深度學習模型被訓練并聚合成一個集成模型,產(chǎn)生0.74的 AUC,靈敏度為0.68,特異性為0.69,優(yōu)于每個模型。一方面,驗證了深度學習對基于音頻的COVID-19檢測的手工制作特征的優(yōu)越性。另一方面,展示了 SVM的集成進一步提高了單個SVM模型的性能,因為樣本被更有效地利用。
錯誤的預測通常會產(chǎn)生更高的不確定性(參加左上圖),因此能夠利用經(jīng)驗不確定性閾值來建議用戶在手機上重復音頻測試或在數(shù)字診斷仍然失敗時進行額外的臨床測試(參見右上圖)。通過將不確定性納入自動診斷系統(tǒng),可以實現(xiàn)更好的風險管理和更穩(wěn)健的決策。
2021年11月,研究人員在NeurIPS 2021中發(fā)布了全面的大規(guī)模COVID-19音頻數(shù)據(jù)集,由36,116 名參與者眾包的53,449個音頻樣本(總共超過552小時)組成。相關(guān)論文已被NeurIPS 2021 Dataset Track接受發(fā)表。
在論文中,研究人員展示了ROC-AUC在呼吸道癥狀預測和COVID-19預測任務上超過0.7的性能,證實了基于這些類型數(shù)據(jù)集的機器學習方法的前景。
2022年6月,研究人員希望探索縱向音頻樣本隨著時間的推移對COVID-19進展預測的潛力,尤其是使用順序深度學習進行恢復趨勢預測。論文發(fā)表在數(shù)字醫(yī)學與健康領域的期刊JMIR上。這項研究可以說是探索COVID-19疾病進展預測的縱向音頻動力學的第一項工作。
論文地址:https://www.jmir.org/2022/6/e37004
為了探索個人歷史音頻生物標志物的音頻動態(tài),研究人員開發(fā)并驗證了一種使用門控循環(huán)單元 (GRU) 檢測COVID-19疾病進展的深度學習方法。
所提出的模型包括一個名為VGGish的預訓練卷積網(wǎng)絡,用于提取高級音頻信息,以及GRU用于捕獲縱向音頻樣本的時間依賴性。
研究發(fā)現(xiàn),所提出的系統(tǒng)在區(qū)分COVID-19陽性和陰性音頻樣本方面表現(xiàn)出色。
這一系列研究中,也出現(xiàn)了Ting Dang、Jing Han、Tong Xia等中國學者的身影。
也許,我們離用app就能檢測新冠的日子已經(jīng)不遠了。