无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > FunClip最新資訊  > 正文

    阿里開源視頻自動(dòng)化剪輯工具FunClip 支持中文語音識(shí)別

    2024-05-14 07:29 · 稿源:站長之家

    站長之家(ChinaZ.com)5月13日 消息:阿里巴巴通義實(shí)驗(yàn)室最近開源了一款名為FunClip的視頻自動(dòng)化剪輯工具,專為精準(zhǔn)和便捷的視頻切片設(shè)計(jì)。FunClip能夠自動(dòng)識(shí)別視頻中的中文語音,并允許用戶根據(jù)語音內(nèi)容裁剪視頻,大大提高了視頻編輯的效率。

    image.png

    項(xiàng)目地址:https://github.com/alibaba-damo-academy/FunClip

    在線演示:https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary

    FunClip的主要特點(diǎn)

    • 語音識(shí)別:使用阿里巴巴的FunASR Paraformer-Large模型,確保了剪輯的精準(zhǔn)性。

    • 操作簡便:用戶可以根據(jù)識(shí)別的語音內(nèi)容選擇文本片段或說話人進(jìn)行視頻裁剪。

    • 語言支持:目前支持中文,未來將擴(kuò)展支持英文視頻剪輯。

    FunASR工具包介紹

    FunASR是阿里巴巴通義實(shí)驗(yàn)室開發(fā)的一款綜合性語音識(shí)別工具包,提供端到端的語音識(shí)別解決方案和一系列開源的、性能優(yōu)越的預(yù)訓(xùn)練模型。它支持以下功能:

    語音識(shí)別(ASR):提供非自回歸端到端語音識(shí)別模型,支持多任務(wù)處理。

    語音活動(dòng)檢測(cè)(VAD)與標(biāo)點(diǎn)恢復(fù):通過預(yù)訓(xùn)練模型進(jìn)行有效的語音活動(dòng)區(qū)段檢測(cè),提供標(biāo)點(diǎn)恢復(fù)功能。

    模型動(dòng)態(tài)部署與優(yōu)化:支持預(yù)訓(xùn)練模型的微調(diào)和推理,提供文件轉(zhuǎn)錄和實(shí)時(shí)轉(zhuǎn)錄服務(wù)。

    項(xiàng)目地址:https://github.com/alibaba-damo-academy/FunASR

    論文:https://arxiv.org/abs/2305.11013

    Paraformer模型

    Paraformer是阿里巴巴達(dá)摩院語音團(tuán)隊(duì)開發(fā)的非自回歸端到端語音識(shí)別模型,專為高效的GPU并行推理設(shè)計(jì)。它提供快速且準(zhǔn)確的語音到文本的轉(zhuǎn)換,特別適合處理長音頻。Paraformer模型的核心特點(diǎn)包括:

    高效的模型架構(gòu):采用多種網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)化目標(biāo),提供高效率和準(zhǔn)確度。

    功能拓展:支持熱詞定制版模型和長音頻模型,適用于多種應(yīng)用場景。

    應(yīng)用場景:適用于語音輸入法、語音導(dǎo)航、智能會(huì)議紀(jì)要等多種應(yīng)用場景。

    FunClip的開源為視頻內(nèi)容創(chuàng)作者和編輯者提供了一個(gè)強(qiáng)大的工具,使得視頻剪輯更加智能化和自動(dòng)化。同時(shí),F(xiàn)unASR工具包和Paraformer模型的開源,也為語音識(shí)別領(lǐng)域的研究和應(yīng)用提供了寶貴的資源。阿里巴巴通過這些開源項(xiàng)目,展示了其在AI技術(shù)領(lǐng)域的領(lǐng)導(dǎo)地位和對(duì)開放創(chuàng)新的承諾。

    Paraformer模型地址:https://modelscope.cn/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary

    舉報(bào)

    • 相關(guān)推薦
    • 阿里開源通義新模型:指定首尾圖片生成視頻

      快科技4月18日消息,據(jù)報(bào)道,阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項(xiàng)突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面,智能生成720p高清過渡視頻,為視頻創(chuàng)作帶來全新可能。該模型通過先進(jìn)的深度學(xué)習(xí)算法,能夠精準(zhǔn)理解輸入畫面的內(nèi)容、風(fēng)格及主題特征。當(dāng)用戶提供首尾兩幀圖像后,模型會(huì)智能分析畫面中的視覺元素,包括物體形?

    • MCP server資源網(wǎng)站去哪找?如何在Cline中配置MCP工具

      隨著人工智能技術(shù)的快速發(fā)展,MCP服務(wù)已成為提升開發(fā)效率和AI能力的重要工具。Cline作為一個(gè)強(qiáng)大的AI編程助手,支持多種MCP服務(wù),幫助開發(fā)者更高效地完成任務(wù)。通過以上步驟,你可以在Cline中成功使用MCP服務(wù),提升開發(fā)效率和AI能力。

    • 對(duì)標(biāo)OpenAI,谷歌開源Agent SDK,支持MCP、A2A、5000星

      谷歌在GoogleCloudNext25大會(huì)上,開源了首個(gè)Agent開發(fā)套件—ADK。這也是OpenAI之后第二家大廠發(fā)布的標(biāo)準(zhǔn)化智能體SDK。谷歌剛開源ADK幾天在Github已經(jīng)超過5000顆星,非常受開發(fā)者的歡迎。

    • 騰訊OCR大升級(jí):支持全國所有的少數(shù)民族身份證識(shí)別

      快科技4月11日消息,很多少數(shù)民族的身份證,名字里會(huì)有個(gè)”,在識(shí)別時(shí)可能會(huì)遇到不小的麻煩。比如阿凡提買買提”,識(shí)別出來就變成了阿凡提買買提”阿凡提.買買提”阿凡提買買提”等等。今天,騰訊宣布騰訊云文字識(shí)別(OCR)的卡證識(shí)別產(chǎn)品大升級(jí),針對(duì)性優(yōu)化了少數(shù)民族姓名中的間隔符”識(shí)別問題。現(xiàn)在已經(jīng)支持全國所有的少數(shù)民族身份證識(shí)別。騰訊云OCR還能做到對(duì)?

    • 驍龍8至尊小折疊旗艦 小米MIX Flip 2獲認(rèn)證

      據(jù)中國質(zhì)量認(rèn)證中心官網(wǎng)顯示,日前,小米旗下一款型號(hào)為2505APX7BC”的新機(jī)已經(jīng)通過認(rèn)證,證書編號(hào)為2025011606767993,支持67W快充。該機(jī)為小米第二款小折疊手機(jī)小米MIXFlip2。值得一提的是,小米專門為其打造的影像套裝也非?;鸨?,很長一段時(shí)間都賣斷貨,其本質(zhì)就是挎包照片打印機(jī),組合起來成為一款折疊屏拍立得”。

    • 阿里千問3登頂全球最強(qiáng)開源模型 已在通義App上線

      阿里集團(tuán)推出新一代開源AI模型"通義千問3"(Qwen3),包含8款不同規(guī)格的混合推理模型。旗艦型號(hào)Qwen3-235B采用混合專家架構(gòu),創(chuàng)下國產(chǎn)模型性能新紀(jì)錄;Qwen3-32B則以部署成本低、運(yùn)行穩(wěn)定見長。該系列在邏輯推理、編程、翻譯等專業(yè)領(lǐng)域表現(xiàn)卓越,用戶可通過通義App和網(wǎng)頁版體驗(yàn)。升級(jí)后的通義App整合問答對(duì)話、圖像理解與生成等多項(xiàng)功能,持續(xù)強(qiáng)化代碼生成、數(shù)學(xué)解題等專業(yè)場景應(yīng)用能力,致力于打造實(shí)用性強(qiáng)的個(gè)人AI助手。

    • AI日?qǐng)?bào):阿里通義千問登頂全球開源模型榜首;MiniMax推Speech-02語音模型;?ChatGPT付費(fèi)用戶激增至2000萬

      歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里通義千問Qwen2.5-Omni登頂全球開源模型榜單2024年4月2日,HuggingFace發(fā)布了最新的大模型榜單,阿里巴巴的Qwen2.5-Omni憑借其卓越的性能和多模態(tài)能力,成功登頂,成為全球開源模?

    • 三星將于 7 月初發(fā)布折疊屏手機(jī) Galaxy Z Flip 7 和 Z Fold 7

      受關(guān)稅政策影響,主要在中國生產(chǎn)的蘋果 iPhone 價(jià)格將大幅上漲,因此,本次的活動(dòng)也被認(rèn)為是三星電子為了吸引美國市場而做出的舉動(dòng)……

    • MCP工具的配置文件格式是怎么樣的?MCP教程平臺(tái)推薦

      MCP配置文件是AI開發(fā)中連接MCP服務(wù)器的核心文件,采用JSON格式定義服務(wù)參數(shù)。它廣泛應(yīng)用于Cursor、ChatWise等AI開發(fā)工具,幫助開發(fā)者快速配置本地或遠(yuǎn)程MCP服務(wù)。無論是從開源倉庫獲取模板是手動(dòng)編寫自定義配置,開發(fā)者均可高效集成MCP功能。

    • 國內(nèi)MCP資源網(wǎng)站有哪些?MCP工具上哪找?

      在人工智能領(lǐng)域,MCP正逐漸成為連接AI模型與外部世界的重要橋梁。AIbase正是探索MCP生態(tài)的絕佳平臺(tái),它為開發(fā)者和研究者提供了一個(gè)集中展示MCP相關(guān)開源項(xiàng)目和工具的網(wǎng)站,幫助用戶快速了解最新的開發(fā)趨勢(shì)和創(chuàng)新成果。如果你對(duì)MCP技術(shù)感興趣,或者正在尋找相關(guān)的開發(fā)資源,AIbase絕對(duì)值得一試。