世界トップクラスの
AI学習用データサービス
プロバイダー

データリソース、技術力と豊富なデータ処理経験に基づき、2011年創業以来、
全世界1,000社以上の人工知能企業や研究機関にハイクオリティなデータサービスを提供。

お問い合わせはこちら

News

  • 2023年
    2023/12/20

    年末年始のお知らせ
    平素は格別のお引き立てを賜り、厚く御礼申し上げます。
    2023年12月29日(金)より 2024年1月3日(水)まで年末年始休業とさせて頂きます。
    御迷惑をおかけいたしますが、何卒ご了承くださいますようお願い申し上げます。
    2024年1月4日(木)より通常営業順次対応をさせていただきます。
    来年も変わらぬお引き立てのほどよろしくお願い申し上げます。

  • 2023/12/01

    PR Timesで弊社「4Dアノテーションサービス」に関する記事が掲載されました。
    Datatangは自動運転の開発をサポートする『4Dアノテーションサービス』の提供を開始しました。
    詳細は添付の記事に記載しておりますので、ぜひご覧ください。
    https://prtimes.jp/main/html/rd/p/000000006.000079975.html

  • 2023/11/24

    全研本社株式会社が運営するマーケティングメディア『キャククル』にて、Datatangのサービス紹介記事が掲載されました。
    世界でトップの実績を誇るAI学習データの保有量、豊富なカスタマイズデータ収集の実績、独自開発したアノテーションプラットフォームなどが詳しく紹介されています。ぜひご覧ください。

    https://www.shopowner-support.net/customer_attraction_information/online/tool/annotation/
    第12回NIPPON ITチャリティ駅伝

  • 2023/10/05

    Datatangは「第12回NIPPON ITチャリティ駅伝」のスポンサー企業となりました。
    2023年11月19日(日)に「第12回NIPPON ITチャリティ駅伝」は東京都江東区で開催されます。Datatangは協賛企業として本大会を応援します。「駅伝」以外にもたくさんのイベントを用意していますので、ぜひご参加ください。

    https://www.nit-run.com/index.html
    第12回NIPPON ITチャリティ駅伝

  • 2023/09/12

    Datatangは中国初の「知的財産権登記証書」を取得しました。
    2023年7月に中国北京で開催された「Global Digital Economy Conference 2023」大会で中国初の「知的財産権登記証書」が授与されました。Datatangはこの証書を取得した中国国内初めてのAIデータサービスプロバイダーとなります。
    Datatangは今後もデータの知的財産権の運用、データの安全管理、個人情報とプラバシーの保護などの法律法規の策定に協力して参ります。

    News記事:https://mp.weixin.qq.com/s/WJpZHefPvtK8XnaWwUs_7A

  • 2023/08/20

    音声・音響信号処理における世界最大規模の国際学会「INTERSPEECH 2023」(ダブリン、アイルランド)は2023年8月20日から24日にかけて開催されます。
    Datatangは協賛スポンサーとして出展し、音声データセット、音声識別データソリューション、音声合成データソリューションに関する最新の情報をお届け致します。
    A06ブースで出展致しますので、ぜひお立ち寄りください。

    「INTERSPEECH 2023」

  • 2023/07/26

    【人工知能学習データサービス情報】
    Datatangは633時間日本語自然会話データをご提供致します。
    ・録音環境:静かな室内環境、反響音なし
    ・発話者:日本人1,066人、男性488人、女性578人
    ・発話内容:エンターテイメント、スポーツ、教育、仕事、健康など37つの話題を含む
    ・ファイル形式:16kHz,16bit,非圧縮 wav,モノラル

    音声ファイルに紐づくtextデータ、metaデータもご提供致します。
    日本語の音声識別、声紋識別シーンなど幅広くご利用頂けるAI学習用データセットです。

    詳細に興味がある方は、お気軽にお問い合わせください。

  • 2023/06/22

    【人工知能学習データサービス情報】
    Datatangは10,000枚英語手書きOCR識別データをご提供致します。
    ・データ規模:10,000枚画像
    ・手書き内容:英語の文章、ポエム、ニュース、物語等
    ・手書き人:男女別、少年から老人まで、中青年がメイン
    ・アノテーション内容:行ごとにバウンディングボックスを付与し、手書き内容を転写

    英語手書きOCR識別シーンなど幅広くご利用頂けるAI学習用データセットです。

    詳細に興味がある方は、お気軽にお問い合わせください。

  • 2023/05/25

    第7回世界知能大会が中国で開催
    第7回世界知能大会(World Intelligence Congress)は5月18日~21日に中国天津で開催されました。情報技術応用イノベーション、人工知能(AI)、スマート交通、スマート製造、スマートライフなど10ヶ所のテーマ展示エリアが設置され、世界的な科学技術の祭典としてグローバルから492社の企業が出展しました。

    「知能技術展示S1エリア」のDatatangブースに沢山のご来場、誠にありがとうございました。
    第7回世界知能大会が中国で開催

    https://2023.wicongress.org.cn/en/

  • 2023/04/19

    2023年5月10日~5月12日 人工知能AI EXPO・春 出展致します。
    最新のAIデータセット、アノテーションサービスの情報をご案内致しますので、ぜひ弊社ブースまでお立ち寄りください。
    会場:東京ビッグサイト南展示棟
    ブース番号:4-21

    展示会招待券のお申込み(無料)
    ご来場を心よりお待ちしております。
    人工知能AI EXPO・春

  • 2023/03/29

    【データ・タングは次世代AI人材育成を目的とした教育プログラムに協力】
    データ・タングは、ソフトバンク株式会社と国立大学法人東京大学が実施した次世代のAI(人工知能)人材育成を目的とした教育プログラムに、AI学習用データを提供しました。
    プログラムの1つで、AIとデータを活用しSDGs(持続可能な開発目標)領域におけるビジネスの企画とサービスのプロトタイプの開発を行うデータハッカソンに、データ・タングが様々な分野、応用シーンで利用できる物体識別やOCR識別、音声識別用のAI学習用データを提供し、学生がこれらのデータを活かして作った成果について、3月に最終発表を行いました。

    【提供データセット】
    ①12ヵ国自然シーンOCRデータ
    ②監視シーン下の物体識別データ
    ③多国籍訛り英語音声データ

    データ・タングは今後も引き続きAI人材育成、研修サポート等における取組を⽀援することで、データ利活用社会のエコシステム構築へ貢献して参ります。

  • 2023/02/13

    【人工知能学習データサービス情報】
    Datatangは10,000枚英語手書きOCR識別データをご提供致します。
    ・データ規模:10,000枚画像
    ・収集用紙:A4用紙、横書き
    ・手書き内容:英語の文章、ポエム、ニュース、物語等
    ・手書き人:男女別、少年から老人まで、中青年がメイン
    ・撮影デバイス:携帯、カメラ
    ・解像度:500万ピクセル以上
    ・撮影角度:水平、上から下、下から上
    ・アノテーション内容:行ごとにバウンディングボックスを付与し、手書き内容を転写

    英語手書きOCR識別シーンなど幅広くご利用頂けるAI学習用データセットです。

    詳細に興味がある方は、お気軽にお問い合わせください。

  • 2023/01/01

    謹んで新年のお喜びを申し上げます。
    皆様におかれましては輝かしい新年をお迎えのこととお喜び申し上げます。
    旧年中は格別なご高配を賜り、誠に有難うございました。
    本年も、皆さまのAI開発に貢献できる新製品データとサービスをご提供してまいります。
    皆さまのご高配を賜りますよう、従業員一同心よりお願い申し上げます。

  • 2022年
    2022/12/19

    Datatangは58,288枚工事現場画像データをご提供致します。
    工事現場での安全装備や不安全行動などを検知するAIの開発にご利用頂ける学習用データとなります。
    ・撮影環境:様々な工事現場(室内、室外)
    ・撮影角度:ハイアングル(上から下向けて撮影する角度)
    ・撮影設備:スマートフォン、監視カメラ
    ・データフォーマット:.jpg、.jpeg
    ・データ多様性:多種の撮影設備、光条件、撮影時間帯
    ・撮影対象:工場現場の作業員(ヘルメットと安全反射ベスト未着用の作業員も含む)


    ご興味ありましたら、是非お問い合わせください。

  • 2022/11/25

    Datatangが策定に参画し、中国初の声紋識別データセキュリティ国家基準が施行されました。
    https://pr-free.jp/2022/64533/

  • 2022/10/24

    ジェスチャー識別学習用データ紹介の記事をリリース致しました。
    https://pr-free.jp/2022/62424/

    Datatangは静態、動態のジェスチャー識別データをご提供致します。
    ①314,178枚18種類ジェスチャー識別データ
    ②558,870本50種類動態ジェスチャー識別データ
    ③180,718枚手話ジェスチャー識別データ

    データの特徴:豊富なジェスチャー種類、多種の収集シーン、多種の撮影角度、多種の光条件、アノテーション情報付き等

    ご興味ありましたら、是非お問い合わせください。

  • 2022/09/14

    Datatangが主催する『世界最大級のAIデータセット保有企業登壇!中国のAI活用最前線を知る』ウェビナーを、10月11日(火)に開催します。
    ご興味ある方は是非ご参加ください!
    https://ai-market.jp/events/datatang-ai-webinar/
    世界最大級のAIデータセット保有企業登壇!中国のAI活用最前線を知る

  • 2022/09/07

    DatatangはInterspeech2022(9月18日~22日、韓国仁川)に出展します。最新のデータセット情報と沢山のプレゼントをご用意しておりますので、ぜひお立ち寄りください。
    https://www.datatang.ai/news/76
    DatatangはInterspeech2022(9月18日~22日、韓国仁川)に出展します。

  • 2022/08/22

    【人工知能学習データサービス情報】
    Datatangは85万文英日コーバスデータをご提供します。
    本データは英語から日本語に対訳したデータとなり、1文平均は23英語文字があります。
    内容は話し言葉、新聞、金融、娯楽など分野が幅広く含まれます。
    テキスト(.txt)形式でご提供可能です。
    他に中日、中英、英露など外国語コーパスデータも保有しておりますのでお気軽にお問い合わせください。
    Datatangデータをご活用し、皆様の自然言語処理開発に貢献できれば幸甚でございます。

  • 2022/07/20

    【人工知能学習データサービス情報】
    Datatangは4,458人多人種7つ3D表情識別データをご提供致します。
    ・人種分布:黄色人4,294人、白人種78人、黒人86人
    ・性別分布:男性2,434人、女性2,024人
    ・年齢分布:少年、青年、中年、老年(中青年がメジャー)
    ・収集環境:室内4,332人、室外126人
    ・収集設備:スマートフォン
    ・表情種類:通常、喜び、驚き、悲しみ、怒り、嫌悪、怖がり
    ・データフォーマット:.jpg(RGB)、.xml(点群)、.json(カメラパラメータ)

    詳細に興味がある方は、お気軽にお問い合わせください。

  • 2022/06/19

    Datatangは「CVPR2022」に出展致します。
    CVPR(Conference on Computer Vision and Pattern Recognition)とは、毎年アメリカで開催されるコンピュータビジョンに関する世界トップレベルの学会です。
    Datatangは本大会(2022年6月19日~23日)のスポンサーとして出展致します。
    https://www.datatang.ai/news/59

    ぜひ、1207ブース(Hall B2)までお立ち寄りください。

  • 2022/05/16

    「NexTech Week 第6回 AI・人工知能 EXPO【春】」出展風景
    先日開催された第6回AI・人工知能 EXPO【春】の出展は無事終わりました。
    開催中沢山のご来場、お問合せ頂きまして誠にありがとうございました。
    これからもお客様のAI事業に貢献できるよう努めて参ります。
    引き続きご愛顧賜りますようお願い申し上げます。
    「NexTech Week 第6回 AI・人工知能 EXPO【春】」出展風景

  • 2022/04/12

    2022年5月11日~5月13日 第6回AI・人工知能 EXPO 春 出展致します。
    会場:東京ビッグサイト南ホール
    ブース番号:7-15
    ご来場、心よりお待ちしております。
    弊社出展の紹介リンク
    第6回AI・人工知能 EXPO 春 出展致します。

  • 2022/03/14

    【人工知能学習データサービス情報】
    Datatangはアクセントのある英語(訛り英語)データをご提供致します。
    このデータセットはDatatangが「Interspeech2020 Accented English Speech Recognition, AESR」に用意したオフィシャルデータです。
    参加者が各社のAIモデルでオフィシャルデータを使い、訓練結果を競うコンテストになります。
    ・データ規模:8アクセント*20時間、合計160時間
    ・アクセント種類:アメリカ、ロシア、韓国、ポルトガル、日本、インド、イギリス、中国
    ・オーディオフォーマット:16kHz,16bit,シングルトラックwav
    ・アノテーションフォーマット:txt
    ・データラベルフォーマット:metadata(SEX,AGE,ACT,MIT,SCC,LBR,ORSを含む)
    ・利用シーン:音声識別、音響デジタル指紋識別
    詳細に興味がある方は、お気軽にお問い合わせください。

  • 2022/02/07

    【人工知能学習データサービス情報】
    Datatangは2,462人青少年多人種多姿勢顔データをご提供致します。
    ・人種分布:黒人793人、白人838人、褐色人種831人
    ・性別分布:男性1,333人、女性1,129人
    ・撮影環境:室内、室外
    ・姿勢内容:Normal、Head turn left/right、Look up/down、Toothy
    ・データフォーマット:jpg
    詳細に興味がある方は、お気軽にお問い合わせください。

  • 2022/01/17

    Datatang自動運転データ収集のソリューションをご紹介致します。
    https://youtu.be/JCcgtvBBxfg
    ご興味のある方は、お気軽にお問い合わせください。

  • 2021年
    2021/12/1

    【人工知能学習データサービス情報】
    Datatangは10,000人監視カメラシーンRe-IDデータをご提供致します。
    10,000の黄色人種、老若男女幅広くカバーしております。
    収集環境:室外、室内
    取集設備:監視カメラ
    撮影角度:俯瞰
    収集時間帯:昼間、夜間
    アノテーション内容:人にバウンディングボックスを付け、属性を付与します。
    属性詳細:性別、年齢、シーン、服装、カメラIDなど15種類があります。
    ご興味のある方は、お気軽にお問い合わせください。

  • 2021/11/10

    【人工知能学習データサービス情報】
    10,000人人体行為識別データをご提供致します。
    室内、室外シーンを含め、各シーンでは12方向から監視カメラを設置し、人体の正常行為、異常行為、集団行為を撮影して動画形式でご提供致します。
    多年齢層、多時間帯、3つの着衣状態、多様な行為、高画質が特徴です。
    ご興味のある方は、お気軽にお問い合わせください。

  • 2021/11/9

    Datatangは北京市「専精特新」企業に認定されました
    https://prtimes.jp/main/html/rd/p/000000004.000079975.html

  • 2021/10/14

    Datatangは北京市科学技術進歩賞の優秀賞を受賞しました。
    https://prtimes.jp/main/html/rd/p/000000005.000079975.html

  • 2021/9/8

    DatatangはAI・人工知能の見本市「Ledge.ai EXPO 2021 秋」(2021年9月8日~9月24日)オンラインで出展しております。
    https://ledge-expo.com/2021-au/products/42

  • 2021/8/24

    Datatangは、100人歩き姿識別のデータをご提供いたします。
    ご興味のある方は、お気軽にお問い合わせください。
    ・データシーン:室内シーン(ショールーム、フロント)、室外シーン(広場、会社の入り口)
    ・データの多様性:多年齢層、多時間帯、5種類のシーン、3種類の服装状態、異なる採集角度
    ・アノテーション:抽出された画像を二値化処理
    ・データは監視シーンで歩き姿の識別などに応用可能

  • 2021/7/12

    Datatang北京が中国上海開催2021世界人工知能大会(WAIC2021)に出展しました。
    https://prtimes.jp/main/html/rd/p/000000003.000079975.html

  • 2021/5/19

    一般社団法人情報サービス産業協会(JISA)が運営しているサイトirodoruにて弊社メンバーのインタビュー記事が掲載されました。
    https://www.irodoru.net/work_style/marketing/S040.html

  • 2021/5/19

    【コーバスデータ特集】
    AI自動翻訳によく使われている弊社保有のコーバスデータをリストアップしました。
    詳細に興味がある方は、お気軽にお問い合わせください。
    ・200万組中日コーバスデータ
    ・38万組日英コーバスデータ
    ・278万組中英コーバスデータ
    ・41万組中韓コーバスデータ
    ・46万組韓英コーバスデータ
    ・100万組中仏コーバスデータ
    ・100万組中ロコーバスデータ
    ・38万組ウ(ウイグル語)中コーバスデータ
    ・10万組中ウ(ウイグル語)コーバスデータ

  • 2021/04/02

    AI Marketにて弊社インタビュー記事が掲載されました。
    https://ai-market.jp/interview/datatang_interview/

  • 2021/03/16

    【子供音声データ特集】
    昨今、ホームスマートスピーカーが普及している中、子供の使用頻度が多くなっています。
    その音声識別の精度を高くするため、下記の音声学習用データ製品をご提供しております。
    ・55時間イギリス子供マイク音声収集データ(英語)
    ・50時間アメリカ子供マイク音声収集データ(英語)
    ・203時間中国子供が話す英語スマートフォン収集音声データ(英語)
    ・41時間中国幼児マイク/スマートフォン音声データ
    ・3,255時間中国子供収集音声データ(中国語)
    ・183時間中国子供マイク音声収集データ(中国語)
    ・201人赤ちゃん泣き声スマートフォン収集音声データ

  • 2021/02/16

    DatatangはAI・人工知能の見本市「Ledge.ai EXPO 2021 春」(2021年3月から)オンラインで出展します。
    https://ledge-expo.com/

  • 2021/02/16

    【データ収集事例紹介特集】
    Datatangでは、様々なデータ収集のニーズに対応しております。各種収集事例を紹介いたします。
    ご興味のある方、ぜひお問い合わせください。
    ・500人飲酒後の顔の動画データおよび血圧変化データ収集
    ・30万個の製品画像収集&クレンジング
    ・500時間アメリカのレストラン環境においての騒音データ収集
    ・2,000世帯家庭環境においての会話音声データ収集
    ・家庭環境のパルスオーディオデータ収集
    ・赤ちゃんの動画データ収集
    ・サイン行為の動画データ収集
    ・オフィス環境の動画データ収集

  • 2021/01/15

    【多言語音声データ特集】
    日本はグローバル化が進んでいる中、多言語対応のAI音声認識・音声識別の応用が重要になってきます。
    Datatangでは多言語AI音声認識モデルを構築するための各国語の音声学習用データを揃っております。
    ・1,036時間日本語スマートフォン収集音声データ
    ・2,011時間ドイツ語スマートフォン収集音声データ
    ・2,002時間イタリア語スマートフォン収集音声データ
    ・1,000時間フランス語スマートフォン収集音声データ
    ・1,000時間スペイン語スマートフォン収集音声データ
    ・1,000時間ポルトガル語スマートフォン収集音声データ
    ・1,002時間ロシア語スマートフォン収集音声データ
    ・1,000時間ブラジルポルトガル語スマートフォン収集音声データ
    ・292時間タイ語スマートフォン収集音声データ
    ・1,000時間インドネシア語スマートフォン収集音声データ
    ・505時間マレーシア語スマートフォン収集音声データ
    ・1,064時間ヒンディー語スマートフォン収集音声データ
    ・760時間ベトナム語スマートフォン収集音声データ
    ・466時間韓国語スマートフォン収集音声データ
    ※勿論、その他言語も対応しています。ぜひお問い合わせください。

  • 2020年
    2020/12/16

    【人工知能学習データサービス情報】
    Datatangは、466人18,880枚3D人体インスタンスセグメンテーション及び人体22キーポイントデータを提供いたします。
    本データは3Dカメラで撮影を行い、depth情報、複数のシーン、複数の照明条件、複数の年齢層、多数の撮影角度、多姿勢のデータを含んでいます。 人体に対して、インスタンスセグメンテーション、22キーポイントのアノテーションを行っています。本データは人体のインスタンスセグメンテーション、人工行為識別等タスクに使われています。

  • 2020/12/16

    【人工知能学習データサービス情報】
    Datatangは、1,066人生体検出データをご提供いたします。
    本データは収集シーン別(室内/室外)、男女別、年齢別(少年からお年寄りまで、中青年がメイン)、多姿勢、多表情、多anti-spoofingサンプル(タブレットに映っている顔写真、紙に印刷された顔写真、目穴・鼻穴を開けた印刷された顔写真等)のデータを含んでいます。本データは顔認証決済、リモート身分認証、スマートフォンロック解除等の応用シーンに使われています。

  • 2020/11/13

    【人工知能学習データサービス情報】
    Datatangは、25,983人多人種証明写真付き顔データを提供いたします。
    本データは黄色人種、黒人、白人、褐色人種が含まれています。被収集者1人あたり5-10枚の日常写真と1枚の証明写真があり、顔識別などのAI開発に使われます。

  • 2020/11/13

    【非母語英語音声データ特集】
    英語音声認識において、非母語話者の英語を認識することが難しい課題と思われます。
    その学習用データをたくさん集めることが困難のため、なかなか認識率が高められないのは現状ではないでしょうか。
    ところで、Datatangは大量の多国籍話者を集め、それぞれの特徴が生かせた英語音声データを収集しました。
    Datatangデータをご活用し、皆様の音声認識開発に貢献できれば幸甚でございます。
    ・215時間アメリカ英語スマートフォン採集音声データ
    ・199時間イギリス英語スマートフォン採集音声データ
    ・200時間日本人話す英語スマートフォン採集音声データ
    ・535時間ドイツ人話す英語スマートフォン採集音声データ
    ・520時間フランス人話す英語スマートフォン採集音声データ
    ・230時間ロシア人話す英語スマートフォン採集音声データ
    ・207時間カナダ人話す英語スマートフォン採集音声データ
    ・593時間中国人話す英語スマートフォン採集音声データ

    尚、韓国、ブラジル、オーストラリア、ポルトガル、イタリア等々の国籍の人から英語音声データを収集実施中です。

  • 2020/10/13

    【人工知能学習データサービス情報】
    Datatangは、1,078人3D顔収集データを提供いたします。
    収集設備はRealsense SR300。被収集者ごと6週間(週に1回)を渡る多照明多姿勢の動画16本、RGB情報、Depth情報、赤外線情報(IR)の情報が含まれております。
    本データは3D顔識別シーン等に使われています。

  • 2020/10/13

    【人工知能学習データサービス情報】
    Datatangは、200時間日本人が話す英語スマートフォン採集音声データを提供致します。
    400名の日本人の音声を録音した(16KHz/16bit/未圧縮wav/モノラル)。性別の分布が均一。録音テキストは日常、交互、車載、住居等多種別のシーンを含め、内容豊富。

  • 2020/09/14

    Datatangはアノテーションプラットフォームサービス「Shujiajia」日本語版を日本国内のパブリッククラウドにリリース致しました。
    今後日本のお客様のアノテーションニーズに柔軟に対応してまいります。
    本サービスはDatatangこれまでの業務経験に基づき開発しました。音声、TTS、自然言語処理、画像、動画等々のAI学習用データに対するアノテーションツールを搭載しています。またその他アノテーション作業のPJ管理に伴う様々の機能を搭載しております。
    これにより作業の進捗や課題の可視化を実現し、大規模なアノテーションプロジェクトにも対応できます。

  • 2020/09/14

    【人工知能学習データサービス情報】
    Datatangは、
    ①『514時間日本語スマートフォン採集音声データ』
    ②『287時間日本語スマートフォン採集音声データ』
    ③『235時間日本語スマートフォン採集音声データ』
    を提供いたします。
    計1,036時間、内容は広範囲に渡り、日常、交互、車載指示、住居指示等の複数分野の音声データが含まれています。
    テキスト転写内容もDatatangの品質検査により高正解率を保つ

  • 2020/08/14

    弊社はグローバルコミュニケーション開発推進協議会(英語名称:Council for Global Communication Development and Promotion)に入会しました。
    本会は、国立研究開発法人情報通信研究機構を中心に産学官の力を結集して、多言語翻訳技術の精度を高めるとともに、その成果を様々なアプリケーションに適用して社会展開していくために必要な検討を行い、「グローバルコミュニケーション計画2025」の推進に資することを目的とする。
    本会のURLは下記となります。
    https://gcp.nict.go.jp/

  • 2020/08/14

    【人工知能学習データサービス情報】
    Datatangは、「53万枚ストリートビュー画像のバンディングボックスアノテーションデータ」を提供します。
    中国都市部、農村部の道路シーンを収集しております。晴れ、雨、雪の天気が含まれており、車両、信号機、交通標識のバンディングボックスアノテーションを行いました。
    自動運転関連の応用シーンに学習データとして使われます。

  • 2020/07/14

    【INTERSPEECH 2020 CONTEST】
    Interspeechは、ISCA(INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION)が主催する音声研究の分野におけるトップカンファレンスの1つです。
    2020年には、Interspeechは「Cognitive Intelligence for Speech Processing」をテーマにし、グローバルな音声分野の研究者、人工知能の専門家、業界でTop企業等を集めて、音声認識においてのNLPや翻訳などに関するコミュニケーションとディスカッションを行います。
    Datatangは共同主催するとともに、訛り英語音声認識コンテストを発起しました。

  • 2020/07/06

    【人工知能学習データサービス情報】
    Datatangは、『100万文字の日本語手書きデータ』を提供します。
    用紙1枚に約300文字が入っており、文字単位のバンディングボックスやテキスト転写のアノテーションが行われています。書類の手書き文字の自動認識に学習データとして使われています。

  • 2020/07/06

    【人工知能学習データサービス情報】
    Datatangは、「12か国語105,974枚自然シーンにおけるOCRアノテーション及びテキスト転写データ」を提供します。
    12か国語(アジア言語6つ、ヨーロッパ言語6つ)、複数自然シーン、複数撮影角度が含まれており、映されているテキストに対するバンディングボックス、テキスト転写のアノテーションが行われています。多言語のOCR文字認識に学習用データとして使われています。

  • 2020/05/15

    【人工知能学習データサービス情報】
    Datatangは, 『90,023枚車両画像及びアノテーションデータ』を提供します。
    車両の全体、ボディフロント又はボディ後方、ナンバープレート、 ブランド、モデル、車両の色、ナンバープレートの色、カーナンバーの転写、採集時間等のアノテーション済データです。車両の属性分析をするAIに活用されております。

  • 2020/05/15

    【人工知能学習データサービス情報】
    Datatangは、顔識別用人工知能学習データとして『23,349人多人種顔多姿勢データ』を提供します。
    データ量:23,349人(1人あたり29枚)、多姿勢、多人種、多年齢、複数照明条件、複数採集環境下の収集データです。
    黒人7,413人、白人3,871人、褐色人種 924人、インド人6,365人、黄色人種4,776人(すべて本人承諾済みのデータです)

  • 2020/04/02

    【人工知能 声紋認証学習用データ情報】
    Datatangは、声紋認証人工知能学習用データとして「500人中国語標準語声紋識別音声データ」を提供します。
    数字、Waking-Up words、日常生活、インタラクティブ関連用語が含まれる中国語標準語声紋認証用音声データです。
    時期により、同じ人でも声が異なる場合があるため、本データは1人当たり、2~3週間の間を置いて、3ヶ月かけて、計4回録音を実施しました。

  • 2020/04/01

    【人工知能 TTS音声合成学習用データ情報】
    Datatangは、TTS(Text to Speech)音声合成人工知能学習用データとして「20,000文TTSアメリカ人女性英語音声データ」を提供します。
    専用スタジオでプロ級マイク設備で収録したアメリカ人女性が話すネイティブな英語の音声データです。
    アノテーション内容は発音校正、音素転写、音素境界切り分け、韻律アノテーション、アクセントアノテーション、品詞アノテーション、発音辞書作成を行ったものです。

  • 2020/03/30

    【人工知能学習データサービス情報】
    Datatangは、顔識別用人工知能学習データとして『2,000人顔のマスク着用の多角度写真』を提供します。
    マスク着用状態を判別できるAIの開発用に、2,000人がマスクをしている写真を多角度から、撮影・収集したデータです。

  • 2020/03/28

    Datatangは、一般社団法人 情報サービス産業協会(JISA)に加盟しました。

  • 2020/03/27

    Datatangは、佐賀県産業スマート化センターのサポーティングカンパニーに登録されました。
    佐賀県産業スマート化センターはテクノロジーをキーワードにしたオープンイノベーションの「ハブ」として、県内企業に対するAIやIoTといった先進技術の導入支援や県内IT産業の成長支援を行い、企業の生産性向上や新たなビジネスの創出につなげていきます!

  • 2020/03/12

    DatatangはNPO法人ITジュニア育成交流協会に協賛しました。
    特定非営利活動法人(NPO)ITジュニア育成交流協会は、ITエンジニアを目指す児童・青少年が意欲をもって目標に向かって元気に活動できるよう、関連する専門家や各種教育機関、IT関連企業、研究機関と連携しながら、彼らに夢と希望を与える各種の支援活動を行っています。

  • 2020/02/20

    Datatang Inc.は日本市場において、AIデータサービスビジネスを開始しました。

  • 2020/02/05

    2020年2月5日~6日 Datatang(Beijing)TechnologyはResortTech Okinawa(おきなわ国際IT見本市)に出展しました。

  • 2020/01/27

    週間BCN VOL1810号に掲載されました。

  • 2019/12/08

    Datatang(Beijing)Technologyは『BCN Conference 2019 冬』において、基調講演を実施しました。

  • 2019/11/12

    2019年11月12日~14日 Datatang(Beijing)Technologyは『Gartner IT Symposium/Xpo』に出展しました。

事例紹介

【データ・タングは次世代AI人材育成を目的とした教育プログラムに協力】

データ・タングは、ソフトバンク株式会社と国立大学法人東京大学が実施した次世代のAI(人工知能)人材育成を目的とした教育プログラムに、AI学習用データを提供しました。
プログラムの1つで、AIとデータを活用しSDGs(持続可能な開発目標)領域におけるビジネスの企画とサービスのプロトタイプの開発を行うデータハッカソンに、データ・タングが様々な分野、応用シーンで利用できる物体識別やOCR識別、音声識別用のAI学習用データを提供し、学生がこれらのデータを活かして作った成果について、3月に最終発表を行いました。

【提供データセット】
①12ヵ国自然シーンOCRデータ
②監視シーン下の物体識別データ
③多国籍訛り英語音声データ

データ・タングは今後も引き続きAI人材育成、研修サポート等における取組を⽀援することで、データ利活用社会のエコシステム構築へ貢献して参ります。

【データ・タングは次世代AI人材育成を目的とした教育プログラムに協力】

データ・タングは、ソフトバンク株式会社と国立大学法人東京大学が実施した次世代のAI(人工知能)人材育成を目的とした教育プログラムに、AI学習用データを提供しました。
プログラムの1つで、AIとデータを活用しSDGs(持続可能な開発目標)領域におけるビジネスの企画とサービスのプロトタイプの開発を行うデータハッカソンに、データ・タングが様々な分野、応用シーンで利用できる物体識別やOCR識別、音声識別用のAI学習用データを提供し、学生がこれらのデータを活かして作った成果について、3月に最終発表を行いました。

【提供データセット】
①12ヵ国自然シーンOCRデータ
②監視シーン下の物体識別データ
③多国籍訛り英語音声データ

データ・タングは今後も引き続きAI人材育成、研修サポート等における取組を⽀援することで、データ利活用社会のエコシステム構築へ貢献して参ります。

学習データセット

下記掲載のデータは各分野ごとの代表的な事例です。
その他様々な利用シーンに応じたデータ提供が可能ですので、個別にお問い合わせください。

顔識別/物体検出

顔識別・物体検出は顔、手、ボディ、シーン識別などが含まれます。顔認証、顔ペイメント、自動メークアップ、自動撮影など様々なシーンに利用されます。

顔識別/物体検出

ジェスチャー認識

スマートドライブ

ストリートビューデータ、ドライバー行為データなど自動運転に適用した学習データを提供します。

自動運転

自動翻訳/OCR

各国語のOCR画像・手書きデータ、日英、中英、中韓、韓英などのコーパスデータを保有。主にAI-OCR、翻訳Webサイト、翻訳アプリ、翻訳機器に適用されます。

画像翻訳

音声翻訳

リアルタイムに音声をテキスト化し、自動翻訳します。
チャット、入力、検索、注文、指示などの利用をサポートします。

  • 101時間 – ノイズデータ
  • 156人 – マレー語音声データ
  • 203人 – 騒音環境下での中国語音声データ
  • 831時間 – イギリス英語音声データ
  • 535時間 – ドイツ人が話す英語音声データ
  • 520時間 – フランス人が話す英語音声データ

テキスト翻訳

NLPテクノロジーを使用して、写真上の文字を翻訳したり、音声を翻訳先の言語の変換をサポートします。

  • 5,140,000セット – 中国語と英語翻訳データ
  • 440,000セット – 中国と韓国翻訳データ
  • 100,000セット – 中国語 – ウイグル語翻訳データ
  • 380,000セット – 日英翻訳データ
  • 460,000セット – 韓国語 – 英語翻訳データ
  • 39,000セット – ウイグル語 – 中国語翻訳データ

自動音声読上

テキストを音声に変換し自動読上ソフトに適用されます。
読上言語を選択し、外国語の学習に役立てます。

  • 20時間 – TTS女性アメリカ英語音声(2万文)
  • 200,000単語 – 中国語テキストの韻律辞書

音声

スマートスピーカー、スマート家電、子供向けのストーリーマシン、コンパニオンロボットが普及しております。これらを実現させる各国語音声データを提供します。

母国語/非母語英語音声データ

  • 215時間 – アメリカ英語スマートフォン採集音声データ
  • 199時間 – イギリス英語スマートフォン採集音声データ
  • 200時間 – 日本人話す英語スマートフォン採集音声データ
  • 535時間 – ドイツ人話す英語スマートフォン採集音声データ
  • 520時間 – フランス人話す英語スマートフォン採集音声データ
  • 230時間 – ロシア人話す英語スマートフォン採集音声データ
  • 207時間 – カナダ人話す英語スマートフォン採集音声データ
  • 593時間 – 中国人話す英語スマートフォン採集音声データ

多言語音声データ

  • 1,036時間 – 日本語スマートフォン収集音声データ
  • 2,011時間 – ドイツ語スマートフォン収集音声データ
  • 2,002時間 – イタリア語スマートフォン収集音声データ
  • 1,000時間 – フランス語スマートフォン収集音声データ
  • 1,000時間 – スペイン語スマートフォン収集音声データ
  • 1,000時間 – ポルトガル語スマートフォン収集音声データ
  • 1,002時間 – ロシア語スマートフォン収集音声データ
  • 1,000時間 – ブラジルポルトガル語スマートフォン収集音声データ
  • 292時間 – タイ語スマートフォン収集音声データ
  • 1,000時間 – インドネシア語スマートフォン収集音声データ
  • 505時間 – マレーシア語スマートフォン収集音声データ
  • 1,064時間 – ヒンディー語スマートフォン収集音声データ
  • 760時間 – ベトナム語スマートフォン収集音声データ
  • 466時間 – 韓国語スマートフォン収集音声データ

その他音声データ

  • 120シーン – 火災ビデオデータ
  • 201人 – 幼児の泣き声データ
  • 245時間 – 車内の中国語音声データ
  • 200人 – 中国語waking-up words音声データ
  • 205人 – 騒音環境での中国語音声データ
  • 531時間 – 車内騒音データ

学習データサービス

カスタマイズデータ
収集

データ処理拠点、クラウドソーシング、オフラインアウトソーシング、外部調達を通じデータの収集を行います。
45カ国にリソースパートナーを持っております。

グローバルリソース
豊富な収集経験
被収集者授権獲得
リーズナブルな収集コスト

画像データ

音声データ

3Dデータ

ビデオ

アノテーション
受託サービス

 自動化アノテーション技術を搭載したプラットフォームを利用し、アノテーション加工、品質管理をします。

多種類・高性能
アノテーションツール
豊富なアノテーション経験
厳格なセキュリティ対策
多階層品質検査プロセス

物体検出

音声

オブジェクトセグメンテーション

キーポイント

アノテーション処理
プラットフォーム

日本国内のクラウドサービスを提供開始。必要なモジュールごとにサービスご提供します。
クラウドソーシング(CS)によるデータ収集、アノテーション技術、安全納品などの機能を搭載し、お客様にデータ処理一連のサービスを提供。

Why Us

  1. データサービス先駆者

    • 100人以上のデータ管理エキスパート
    • 1,000社以上の先進的な顧客との取引実績
    • 2,000人規模のデータ処理要員
  2. インテリジェンスなデータ処理技術

    • 「Human-in-the-loop」に基づくデータ認識処理の特許を保有
      【音声自動認識】
      【顔、ボディキーポイントアノテーション】
      【物体検出アノテーション】
  3. 厳格な品質検査管理

    • プロフェッショナルデータ品質検査チーム
    • ISO9001品質管理システム
    • データ正確率:95%~98%

会社情報

Datatangは、世界トップクラスのAI学習用データサービスプロバイダー。
データリソース、技術力と豊富なデータ処理経験に基づき、2011年創業以来、全世界1,000社以上の人工知能企業や研究機関にハイクオリティなデータサービスを提供してきました。

MORE

プライバシーポリシー

当社は、当社が取り扱う全ての個人情報の保護について、社会的使命を十分に認識し、本人の権利の保護、個人情報に関する法規制等を遵守します。また、以下に示す方針を具現化するための個人情報保護マネジメントシステムを構築し、最新のIT技術の動向、社会的要請の変化、経営環境の変動等を常に認識しながら、その継続的改善に、全社を挙げて取り組むことをここに宣言します。

MORE

Legal Statement and Privacy Policy

Contact Us

Datatang株式会社
(データ・タング株式会社)

本社
〒101-0063 東京都千代田区神田淡路町2-105 ワテラスアネックス6階
TEL
03-6256-8911
MAIL
メールアドレス